Skip to content

Türkçe

Türkçe NLP Kaynakları

Türkçe Doğal Dil İşleme ile ilgili Araçlar, Kitaplıklar, Modeller, Veri Kümeleri ve diğer kaynaklar.

Contents:

Araçlar/Kütüphaneler | Modeller | Veri Kümeleri | Diğer Kaynaklar


Araçlar/Kütüphaneler

  • İTÜ Türkçe NLP (Web Tabanlı & API) : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu araçları.
  • VNLP (Python) : Türkçe için son teknoloji, hafif NLP araçları.
  • TDD - Araçlar (Web tabanlı) : Türkiye Veri Deposu (TDD) projesi tarafından sağlanan çevrimiçi araçlar.
  • Zemberek-NLP (Java) : Zemberek-NLP, Türkçe için Doğal Dil İşleme araçları sağlar.
  • Zemberek-Python (Python) : Zemberek'in Python uygulaması.
  • Zemberek-Server (Docker) : Zemberek Türk NLP Java Kütüphanesi üzerinde REST Docker Sunucusu.
  • Mukayese (Python): Yazım denetiminden NLU görevlerine kadar çeşitli Türkçe NLP araçları ve görevleri için bir kıyaslama platformudur.
  • SadedeGel (Python) : başlangıçta birkaç eski ve yeni NLP tekniğini kullanarak denetimsiz ayıklamaya dayalı haber özetleme için bir kitaplık olarak tasarlanmıştır.
  • Türkçe Stemmer (Python) : Türkçe için Stemmer algoritması.
  • sinKAF (Python) : Türkçe cümlelerde küfür tespiti için bir ML kütüphanesi.
  • TrTokenizer (Python) : Türkçe için cümle ve kelime belirteçleri.
  • Türkçe NLP için Starlang tarafından sağlanan araçlar (Multi/Python) : Morphological Analysis, Spell Checker, Dependency Parser, Deasciifier, NER.
  • snnclsr/NER (Python) : Türkçe için Adlandırılmış Varlık Tanıma sistemi.

Modeller

Word Embeddings

Veri Kümeleri

  • TDD - Türkçe Dil Deposu : Türkiye Açık Kaynak Platformu'nun ana projelerinden biri olan Türkçe Doğal Dil İşleme Projesi veri setlerinin hazırlanmasını amaçlamaktadır. Türkçe metinlerin işlenmesi için gereklidir.
  • İTÜ NLP Grubu - Veri Setleri : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu veri setleri.
  • Boğaziçi Üniversitesi TABI - NLI-TR : Türkçe'de Doğal Dil Öğrenimi, Amazon Translate kullanarak temel NLI korporalarını (SNLI ve MultiNLI) çevirerek elde edilen iki büyük ölçekli veri setidir.

Çok Dilli Veri Kümeleri:

  • Amazon MASSIVE : MASSIVE, 51 dilde 1 milyon ifadeden oluşan paralel bir veri kümesidir. Niyet tahmini ve slot etiketleme için etiketler içerir.
  • OPUS: en-tr : OPUS, web'den çevrilmiş metinlerin büyüyen bir koleksiyonudur. OPUS projesinde, ücretsiz çevrimiçi verileri dönüştürmeye ve hizalamaya, dilbilimsel açıklama eklemeye ve topluluğa halka açık bir paralel corpus sağlamaya çalışıyoruz.
  • CC-100 : Web Tarama Verilerinden Tek Dilli Veri Kümeleri. Bu derlem, 100'den fazla dil için tek dilli verilerden oluşur.
  • OSCAR : Ungoliant mimarisi kullanılarak dil sınıflandırması ve Common Crawl derleminin filtrelenmesiyle elde edilen çok dilli devasa bir derlemdir.

Treebank:

  • Universal Dependencies: dünya dillerinden ağaç kümeleri oluşturmaya yönelik uluslararası bir işbirliği projesidir. Proje, birden çok dil için morfoloji ve sözdiziminin diller arası tutarlı Treebank açıklamasını geliştirmeyi amaçlamaktadır.
  • UD Türkçe Kenet Turkish-Kenet UD Treebank, 18.700 manuel açıklamalı cümle ve 178.700 simgeden oluşur. Corpus TDK'dan alınan sözlük örneklerinden oluşmaktadır.
  • UD Türkçe BOUN : BOUN Treebank TABİLAB tarafından oluşturulmuş ve TÜBİTAK tarafından desteklenmiştir. Bu corpus 9761 cümle, 121.214 belirteç içerir.

Diğer Veriler:

Diğer:

Diğer Kaynaklar

Kitaplar:

Videolar:

Makaleler:

Örnek Notebook'lar/Snippet'lar:

Blog Yazıları:

Diğer Listeler:

Katkıda Bulunma

Katkılarınız beklenmektedir. Bu listeye katkıda bulunmak isterseniz bir pull request gönderin veya sadece yeni issue açın.