Teknofest 2024 Türkçe Doğal Dil İşleme Yarışması Serbest Kategori'de mücadele eden KARAYEL takımı olarak, yeterli akademik danışmanlığa ulaşamayan öğrencilere sunmak üzere bir LLM modeli geliştirmeyi kendimize ana hedef olarak belirledik ve çalışmalarımızı bu doğrultuda gerçekleştirdik.
İlk olarak ve en önemli adım veri seti hazırlamak üzere bir internet sitesi geliştirdik. Geliştirdiğimiz bu internet sitesi aracılığıyla ulaşabildiğimiz ve uzmanlığı bulunan kişilerden öğrencilerin yaşadığı sorunların çözümlerini, öğrencilerden ise yaşamış oldukları problemler ile ilgili veri toplamayı hedefledik. Topladığımız veri seti üzerinde Self-Instruct ve Prompt Engineering yöntemleri başta olmak üzere sentetik veri çoğaltma adımları uygulayarak modelimizde kullandık. Aynı zamanda topladığımız veri setini huggingface platformunda yayınladık.
Geliştirmiş olduğumuz internet sitemizin adresi: https://karayel-web-host.vercel.app/
Geliştirmiş olduğumuz internet sitemizin kaynak kodları: Karayel-Web-App
Websitemizin Ana Sayfası:
Websitemizin Veri Girişi ve Veri Doğrulama Ekranları
Modelimizin hedef kitlesinin ihtiyaçlarını düşünerek modelimizin matematik görevlerindeki performansını arttırmak için çalışmalarda bulunduk. Bu doğrultuda huggingface platformunda ingilizce olarak bulunan ve ilgili task için geliştirilen matematik problemleri veri setlerini yayıncılarına atıflarda bulunarak Türkçe'leştirdik. Ardından Türkçe veri setlerini huggingface platformumuzda paylaştık.
Karayel-DDI/Turkce_Lighteval_MATH-Hard
Karayel-DDI/Turkce-qwedsacf_grade-school-math-instructions
Karayel-DDI/Turkce-hendrycks_competition_math
Proje kapsamında LLaMA 3 modelinin Türkçe kaynak veri setleri ile eğitilmesi sonucu Türkçe dilinde oldukça başarılı performans gösteren ytu-ce-cosmos/Turkish-Llama-8b-Instruct-v0.1 modelini fine-tune ettik. Veri toplama süreçleri adımında aktardığımız yöntemlerle edindiğimiz verileri gerekli işlem adımları sonrası modelin instruction-tune görevinde kullandık.
Model eğitimi QLORA yakşalımı ile yapılmıştır. Kullanılan eğitim parametreleri ve eğitim kodu github'ta paylaşılmıştır.
Eğitilen modeli takımımızın huggingface sayfasında sayfasında paylaştık. İlgili bağlantıya aşağıdan ulaşabilirsiniz.
Projemizin 3. adımı olarak geliştirdiğimiz LLM modelini bir chat arayüzü ile sunmak adına geliştirmelerde bulunduk. Bu adımda ki amacımız modelin kullanım senaryolarını arttırmak ve kullanıcıların kolay kullanımına sunmak oldu. Gradio kütüphanesi kullanarak geliştirdiğimiz arayüzümüzün kaynak kodlarını github sayfamızda paylaştık. Aşağıda çalışmasını görebilirsiniz.
karayel-llm-gradio.mp4
#Acıkhack2024TDDİ #Türkiye Açık Kaynak Platformu