Türkçe
Türkçe NLP Kaynakları
Türkçe Doğal Dil İşleme ile ilgili Araçlar, Kitaplıklar, Modeller, Veri Kümeleri ve diğer kaynaklar.Contents:
Araçlar/Kütüphaneler | Modeller | Veri Kümeleri | Diğer Kaynaklar
Araçlar/Kütüphaneler
- İTÜ Türkçe NLP (Web Tabanlı & API) : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu araçları.
- VNLP (Python) : Türkçe için son teknoloji, hafif NLP araçları.
- TDD - Araçlar (Web tabanlı) : Türkiye Veri Deposu (TDD) projesi tarafından sağlanan çevrimiçi araçlar.
- Zemberek-NLP (Java) : Zemberek-NLP, Türkçe için Doğal Dil İşleme araçları sağlar.
- Zemberek-Python (Python) : Zemberek'in Python uygulaması.
- Zemberek-Server (Docker) : Zemberek Türk NLP Java Kütüphanesi üzerinde REST Docker Sunucusu.
- Mukayese (Python): Yazım denetiminden NLU görevlerine kadar çeşitli Türkçe NLP araçları ve görevleri için bir kıyaslama platformudur.
- SadedeGel (Python) : başlangıçta birkaç eski ve yeni NLP tekniğini kullanarak denetimsiz ayıklamaya dayalı haber özetleme için bir kitaplık olarak tasarlanmıştır.
- Türkçe Stemmer (Python) : Türkçe için Stemmer algoritması.
- sinKAF (Python) : Türkçe cümlelerde küfür tespiti için bir ML kütüphanesi.
- TrTokenizer (Python) : Türkçe için cümle ve kelime belirteçleri.
- Türkçe NLP için Starlang tarafından sağlanan araçlar (Multi/Python) : Morphological Analysis, Spell Checker, Dependency Parser, Deasciifier, NER.
- snnclsr/NER (Python) : Türkçe için Adlandırılmış Varlık Tanıma sistemi.
Modeller
- BERTurk : Türkçe BERT/DistilBERT, ELECTRA ve ConvBERT modelleri.
- ManyLangs İçin ELMO: Birçok Dil İçin Önceden Eğitilmiş ELMo Temsilleri.
- Fasttext - Word Vector: FastText kullanılarak Common Crawl ve Wikipedia üzerinde eğitilmiş, 157 dil için önceden eğitilmiş kelime vektörleri.
- Loodos/Türkçe Dil Modelleri : Bu depoda Transformer tabanlı Türkçe dil modelleri ve ilgili araçları yayınlıyoruz.
- Hugging Face - Models/Turkish
Word Embeddings
- VNLP Word Embeddings : Word2Vec Türkçe kelime gösterimleri.
- TurkishGloVe : Türkçe GloVe kelime gösterimleri.
Veri Kümeleri
- TDD - Türkçe Dil Deposu : Türkiye Açık Kaynak Platformu'nun ana projelerinden biri olan Türkçe Doğal Dil İşleme Projesi veri setlerinin hazırlanmasını amaçlamaktadır. Türkçe metinlerin işlenmesi için gereklidir.
- İTÜ NLP Grubu - Veri Setleri : İstanbul Teknik Üniversitesi Doğal Dil İşleme Grubu veri setleri.
- Boğaziçi Üniversitesi TABI - NLI-TR : Türkçe'de Doğal Dil Öğrenimi, Amazon Translate kullanarak temel NLI korporalarını (SNLI ve MultiNLI) çevirerek elde edilen iki büyük ölçekli veri setidir.
Çok Dilli Veri Kümeleri:
- Amazon MASSIVE : MASSIVE, 51 dilde 1 milyon ifadeden oluşan paralel bir veri kümesidir. Niyet tahmini ve slot etiketleme için etiketler içerir.
- OPUS: en-tr : OPUS, web'den çevrilmiş metinlerin büyüyen bir koleksiyonudur. OPUS projesinde, ücretsiz çevrimiçi verileri dönüştürmeye ve hizalamaya, dilbilimsel açıklama eklemeye ve topluluğa halka açık bir paralel corpus sağlamaya çalışıyoruz.
- CC-100 : Web Tarama Verilerinden Tek Dilli Veri Kümeleri. Bu derlem, 100'den fazla dil için tek dilli verilerden oluşur.
- OSCAR : Ungoliant mimarisi kullanılarak dil sınıflandırması ve Common Crawl derleminin filtrelenmesiyle elde edilen çok dilli devasa bir derlemdir.
Treebank:
- Universal Dependencies: dünya dillerinden ağaç kümeleri oluşturmaya yönelik uluslararası bir işbirliği projesidir. Proje, birden çok dil için morfoloji ve sözdiziminin diller arası tutarlı Treebank açıklamasını geliştirmeyi amaçlamaktadır.
- UD Türkçe Kenet Turkish-Kenet UD Treebank, 18.700 manuel açıklamalı cümle ve 178.700 simgeden oluşur. Corpus TDK'dan alınan sözlük örneklerinden oluşmaktadır.
- UD Türkçe BOUN : BOUN Treebank TABİLAB tarafından oluşturulmuş ve TÜBİTAK tarafından desteklenmiştir. Bu corpus 9761 cümle, 121.214 belirteç içerir.
Diğer Veriler:
- hermitdave/Frequency Word List
- Fırat University - Veri Setleri
- Bilkent Turkish Writings Dataset
- 170k Turkish Sentences from Wikipedia
- Wiktionary:Frequency Lists - Turkish
- ooguz/Bad Word Blacklist for Turkish
- ahmetax/Turkish Stop Words List
- NLTK - Stop Words
- Tatoeba: Multilingual Sentences.
- 466k English Words.
Diğer:
Diğer Kaynaklar
Kitaplar:
Videolar:
- BOUN - Yapay Öğrenmeye Giriş - İsmail Arı Yaz Okulu 2018
- BOUN - Doğal Dil İşleme - İsmail Arı Yaz Okulu 2018
- BOUN - Konuşma / İşleme - İsmail Arı Yaz Okulu 2018
- BOUN - Yapay Öğrenme Yaz Okulu 2020
- Açık Seminer - NLP 101 Doğal Dil İşlemeye Giriş ve Uygulamalı Metin Madenciliği
- Starlang Yazılım Channel
Makaleler:
- Türkçe ve Doğal Dil İşleme
- Türkçe Tweetler Üzerinde Otomatik Soru Tespiti
- Classification of News according to Age Groups Using NLP
- Açık Kaynak Doğal Dil İşleme Kütüphaneleri
Örnek Notebook'lar/Snippet'lar:
- kodiks/Turkish News Category Classification Tutorial
- ezgisubasi/Turkish Tweets Sentiment Analysis
- merveenoyan/NLP için Derlediğim Fonksiyonlar
Blog Yazıları:
Diğer Listeler:
- İTÜ NLP Grubu - Araçlar ve Kaynaklar : Türkçe ve Türk dilleri için çeşitli araç ve kaynakların listesi.
- Açık Veri Kaynakları : Türkiye'nin açık veri kaynaklarının listesi. Resmi Kurumlar, Belediyeler, Üniversiteler, Uluslararası Kuruluşlar.
- Awesome Turkish NLP : Diğer bir Türkçe NLP listesi.
- Türkçe Yapay Zeka Kaynakları : Türkçe AI kaynaklarının listesi.
Katkıda Bulunma
Katkılarınız beklenmektedir. Bu listeye katkıda bulunmak isterseniz bir pull request gönderin veya sadece yeni issue açın.