-
"Turkish News Category Classification Tutorial" blog yazısında burada bulunan çalışma dosyalarını kullanarak metin sınıflandırma problemi için bir yapay öğrenme modeli geliştirme adımlarını bulabilirsiniz.
-
"HuggingFace Türkçe Veri Kümeleri" blog yazısında HuggingFace Datasets Kütüphanesine yeni veri kümelerini entegre etme maratonunda eklediğimiz veri kümeleri hakkındaki detaylı bilgi alabilirsiniz.
Huggingface Spaces Web Demo:
Interpress Turkish News Category Dataset (270K - Lite Version) veri kümesi, İnterpress medya takip şirketi tarafından 2010–2017 yılları arasında yazılı basın ve haber sitelerinden derlenen, 17 kategoride 273.601 adet haberden oluşan Türkçe haber veri kümesidir. Veri kümesinin kolay ayrıştırılabilir ve daha az sınıflı olarak 10 kategoride ("kültürsanat", "ekonomi", "siyaset", "eğitim", "dünya", "spor", "teknoloji", "magazin", "sağlık", "gündem") yeniden düzenlenerek "Lite" versiyonu oluşturulmuştur.
Veri kümesinin ham haline de buradan ulaşabilirsiniz.
Train | Test |
---|---|
218,880 | 54,721 |
- 1-load_dataset_and_preprocess.ipynb - HuggingFace Datasets üzerinden veri kümesini indirme, veri kümesinin içeriğinin incelenmesi ve ön işlemlerin uygulanması işlemlerinden oluşan çalışma dosyası
- 2-feature_extraction.ipynb - TF-IDF kelime ve karakter vektörlerinin oluşturulması işlemlerini içeren çalışma dosyası
- 3-train.ipynb - SVM eğitim modelin oluşturulması, eğitilmesi ve performansın değerlendrilmesi işlemlerinden oluşan çalışma dosyası
- 4-prediction.ipynb - Eğitilmiş model dosyası ile farklı haber metinleri ile test edilmesi işlemlerini içeren çalışma dosyası