Türkçe

Türkçe NLP Kaynakları

Türkçe Doğal Dil İşleme ile ilgili Araçlar, Kitaplıklar, Modeller, Veri Kümeleri ve diğer kaynaklar.

Araçlar/Kütüphaneler

İTÜ Türkçe NLP (Web Tabanlı & API) : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu araçları.
VNLP (Python) : Türkçe için son teknoloji, hafif NLP araçları.
TDD - Araçlar (Web tabanlı) : Türkiye Veri Deposu (TDD) projesi tarafından sağlanan çevrimiçi araçlar.
Zemberek-NLP (Java) : Zemberek-NLP, Türkçe için Doğal Dil İşleme araçları sağlar.
Zemberek-Python (Python) : Zemberek'in Python uygulaması.
Zemberek-Server (Docker) : Zemberek Türk NLP Java Kütüphanesi üzerinde REST Docker Sunucusu.
Mukayese (Python): Yazım denetiminden NLU görevlerine kadar çeşitli Türkçe NLP araçları ve görevleri için bir kıyaslama platformudur.
SadedeGel (Python) : başlangıçta birkaç eski ve yeni NLP tekniğini kullanarak denetimsiz ayıklamaya dayalı haber özetleme için bir kitaplık olarak tasarlanmıştır.
Türkçe Stemmer (Python) : Türkçe için Stemmer algoritması.
sinKAF (Python) : Türkçe cümlelerde küfür tespiti için bir ML kütüphanesi.
TrTokenizer (Python) : Türkçe için cümle ve kelime belirteçleri.
Türkçe NLP için Starlang tarafından sağlanan araçlar (Multi/Python) : Morphological Analysis, Spell Checker, Dependency Parser, Deasciifier, NER.
snnclsr/NER (Python) : Türkçe için Adlandırılmış Varlık Tanıma sistemi.

↥ Sayfanın Başına

Modeller

BERTurk : Türkçe BERT/DistilBERT, ELECTRA ve ConvBERT modelleri.
ManyLangs İçin ELMO: Birçok Dil İçin Önceden Eğitilmiş ELMo Temsilleri.
Fasttext - Word Vector: FastText kullanılarak Common Crawl ve Wikipedia üzerinde eğitilmiş, 157 dil için önceden eğitilmiş kelime vektörleri.
Loodos/Türkçe Dil Modelleri : Bu depoda Transformer tabanlı Türkçe dil modelleri ve ilgili araçları yayınlıyoruz.
Hugging Face - Models/Turkish

Word Embeddings

VNLP Word Embeddings : Word2Vec Türkçe kelime gösterimleri.
TurkishGloVe : Türkçe GloVe kelime gösterimleri.

↥ Sayfanın Başına

Veri Kümeleri

TDD - Türkçe Dil Deposu : Türkiye Açık Kaynak Platformu'nun ana projelerinden biri olan Türkçe Doğal Dil İşleme Projesi veri setlerinin hazırlanmasını amaçlamaktadır. Türkçe metinlerin işlenmesi için gereklidir.
İTÜ NLP Grubu - Veri Setleri : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu veri setleri.
Boğaziçi Üniversitesi TABI - NLI-TR : Türkçe'de Doğal Dil Öğrenimi, Amazon Translate kullanarak temel NLI korporalarını (SNLI ve MultiNLI) çevirerek elde edilen iki büyük ölçekli veri setidir.

Çok Dilli Veri Kümeleri:

Amazon MASSIVE : MASSIVE, 51 dilde 1 milyon ifadeden oluşan paralel bir veri kümesidir. Niyet tahmini ve slot etiketleme için etiketler içerir.
OPUS: en-tr : OPUS, web'den çevrilmiş metinlerin büyüyen bir koleksiyonudur. OPUS projesinde, ücretsiz çevrimiçi verileri dönüştürmeye ve hizalamaya, dilbilimsel açıklama eklemeye ve topluluğa halka açık bir paralel corpus sağlamaya çalışıyoruz.
CC-100 : Web Tarama Verilerinden Tek Dilli Veri Kümeleri. Bu derlem, 100'den fazla dil için tek dilli verilerden oluşur.
OSCAR : Ungoliant mimarisi kullanılarak dil sınıflandırması ve Common Crawl derleminin filtrelenmesiyle elde edilen çok dilli devasa bir derlemdir.

Treebank:

Universal Dependencies: dünya dillerinden ağaç kümeleri oluşturmaya yönelik uluslararası bir işbirliği projesidir. Proje, birden çok dil için morfoloji ve sözdiziminin diller arası tutarlı Treebank açıklamasını geliştirmeyi amaçlamaktadır.
UD Türkçe Kenet Turkish-Kenet UD Treebank, 18.700 manuel açıklamalı cümle ve 178.700 simgeden oluşur. Corpus TDK'dan alınan sözlük örneklerinden oluşmaktadır.
UD Türkçe BOUN : BOUN Treebank TABİLAB tarafından oluşturulmuş ve TÜBİTAK tarafından desteklenmiştir. Bu corpus 9761 cümle, 121.214 belirteç içerir.

Diğer Veriler:

Diğer:

↥ Sayfanın Başına

Diğer Kaynaklar

Kitaplar:

Turkish Natural Language Processing (Theory and Applications of Natural Language Processing)

Videolar:

Makaleler:

Örnek Notebook'lar/Snippet'lar:

Blog Yazıları:

Diğer Listeler:

İTÜ NLP Grubu - Araçlar ve Kaynaklar : Türkçe ve Türk dilleri için çeşitli araç ve kaynakların listesi.
Açık Veri Kaynakları : Türkiye'nin açık veri kaynaklarının listesi. Resmi Kurumlar, Belediyeler, Üniversiteler, Uluslararası Kuruluşlar.
Awesome Turkish NLP : Diğer bir Türkçe NLP listesi.
Türkçe Yapay Zeka Kaynakları : Türkçe AI kaynaklarının listesi.

↥ Sayfanın Başına

Katkıda Bulunma

Katkılarınız beklenmektedir. Bu listeye katkıda bulunmak isterseniz bir pull request gönderin veya sadece yeni issue açın.

Türkçe

Türkçe NLP Kaynakları

Contents:

Araçlar/Kütüphaneler

Modeller

Word Embeddings

Veri Kümeleri

Çok Dilli Veri Kümeleri:

Treebank:

Diğer Veriler:

Diğer:

Diğer Kaynaklar

Kitaplar:

Videolar:

Makaleler:

Örnek Notebook'lar/Snippet'lar:

Blog Yazıları:

Diğer Listeler:

Katkıda Bulunma