TÜBİTAK, yabancı dildeki kodların Türkçe'ye yanlış ve önyargılı cevaplar sağlama tehlikesine karşı, Türkçe'yi doğru ve tam anlayan yapay zeka geliştiriyor.
Dünyadaki dev teknoloji şirketlerinin geliştirdiği yapay zeka modellerinin tekelleşmesi ve Türkiye dahil diğer ülkeleri bağımlı hale getirmesi ihtimaline karşı TÜBİTAK, yapay zekanın Türkçe'yi doğru ve tam anlamasını sağlayacak, farklı dillerdeki kaynaklardan doğru ve önyargısız cevaplar üretecek bir 'Türkçe Büyük Dil Modeli' projesi başlattı. Böylece "yapay zekanın Türkçesi geliştirilecek" ve Türk gibi düşünmesinin altyapısı sağlanacak.
TÜRKÇE YA YOK YA ÇOK AZ
Tekel şirketlerin kullandığı dil modelleri arasında Türkçe'ye ya hiç yer verilmemesi ya da çok az yer verilmesi, Türkiye ve Türkler açısından hayati riskler barındırıyor. Örneğin Meta'nın modelinde ilk 16 dil içinde Türkçe yok; ChatGPT ile tanınan OpenAI modelinde ise Türkçe kaynaklar yalnızca yüzde 0,16 oranında kullanılıyor.
ChatGPT'de yazılan kodların ağırlıkla Anglo-Sakson dillerinden gelmesi, yapay zekanın verdiği yanıtlar ve sağladığı bilgilerde bu kültürün dünya görüşünün kullanıcılara sunulması dikkati çekiyor.
Türkçe konuşan çocuklar bu dil modelleriyle çalışan yapay zekayla etkileşim kurduğunda, Türk kültürü, tarihi ve geleneklerine ilişkin sorulara 'AngloSakson bakış açısı' ile üretilen cevaplarla karşılaşıyor. Bu da, kültürel yozlaşma tehlikesini barındırıyor.
TÜBİTAK'TAN STRATEJİK PROJE
Bu noktada TÜBİTAK BİLGEM tarafından başlatılan 'Türkçe Büyük Dil Modeli' stratejik önem taşıyor. Model, yapay zekanın en geniş Türkçe kaynaklara erişebilmesini, Türkçe'yi doğru ve tam anlamasını, diğer dillerdeki verileri de Türkçe veriler ve dil bilgisi ile değerlendirebilmesini sağlayacak.
Yapay zekada 'temel model', bir veya daha fazla dilin genel dil yapısını, sözcüklerin, cümlelerin, kavramların, deyimlerin ve imla kurallarının nasıl kullanıldığını, anlamlarının dayandığı kültürel hikayeleri öğrenmiş bir model olarak tanımlanıyor.
TÜRKÇE'YE ÖZGÜ ANALİZ
Türkçe büyük dil modelinin geliştirilmesi için internet ve dijital kaynaklardan toplanan Türkçe metinlerle bir veri havuzu oluşturma çalışmaları devam ediyor. Kaliteli bir Türkçe dil modeli oluşturmak için Türkçe'nin inceliklerini göz önünde bulunduran bir ön işleme aşaması geçirildi ve uygun derin öğrenme mimarisi seçildi.
Ayrıca, Türkçeye özgü bir "tokenizer" (cümlede sözcüklerin doğru dizilimi, noktalama işaretlerinin doğru kullanımını sağlayan sözcüksel analiz yöntemi) geliştirilerek, bu açık kaynaklı büyük dil modellerinin Türkçede etkin şekilde kullanılması sağlandı. Çalışmalar kapsamında eğitim süreci yakından takip edilirken, modelin farklı doğal dil işleme alanlarında (soru/cevap, özetleme, dil üretme, metin sınıflandırma gibi) farklı başarı ölçütleriyle değerlendirilerek sürekli iyileştirilmesi amaçlanıyor.