Tarih

Makine Öğrenmesi ile Kaybolan Diller Otomatik Olarak Çevriliyor

0

1886’da İngiliz Arkeolog Arthur Evans, bilinmeyen bir dilde ilginç bir yazı dizisini taşıyan antik bir taşa rastladı. Evans; taş hakkında daha fazla kanıt bulmak için Akdeniz’in Girit adasında çalışmalar yaptı. Hızla benzer senaryolar taşıyan çok sayıda taş ve tablet buldu ve MÖ 1400’den beri onları tarihlendirdi.

Bu da, yazıtı; şimdiye kadar keşfedilen en eski yazma biçimlerinden biri yaptı. Evans, doğrusal biçiminin açıkça sanatın ilk dönemine ait kaba çizilen çizgi resimlerinden elde edildiğini ve böylece dilbilim tarihinde önemini ortaya koyduğunu iddia etmiştir.

Evans ve ekibi; taşların ve tabletlerin iki ayrı senaryoda yazıldığını belirledi. Linear A olarak adlandırılan; (adanın en eskisi) Tunç Çağı Minoan Medeniyeti’nin egemen olduğu 1800-1400 yılları arasındadır.

Diğer senaryo olan Linear B daha yenidir, ancak MÖ 1400’den sonra, ada Yunan anakarasındaki Mikenliler tarafından fethedildiğinde ortaya çıkmıştır.

Evans ve diğerleri yıllarca eski senaryoları deşifre etmeye çalıştılar, ancak kayıp diller; tüm denemelere direndi. Michael Ventris adlı amatör bir dilbilimci Linear B’nin kodunu kırdığı zaman, sorun 1953’e kadar çözülemedi.

Onun çözümü iki belirleyici buluş üzerine inşa edildi. İlk olarak, Ventris Linear B kelime haznesinde tekrarlanan kelimelerin çoğunun Girit adasındaki yerlerin isimleri olduğunu varsaydı. Bu varsayım, doğru çıktı.

İkinci atılımı; yazının eskni Yunanca bir form kaydettiğini varsaymaktı. Bu öngörü; dilin geri kalanını hemen deşifre etmesine izin verdi. Bu süreçte Ventris; eski Yunanlıların ilk defa, daha önce düşünülenden yüzyıllar önce yazılı olarak ortaya çıktığını gösterdi.

Ventris’in çalışmaları büyük bir başarıydı. Ancak daha eski senaryo olan Linear A; dilbilimde bu güne kadar karşılaşılan en büyük problemlerden biri olarak kaldı.

Makine çevirisinde son gelişmelerin yardımcı olabileceğini hayal etmek zor değil. Sadece birkaç yıl içerisinde, dilbilim çalışması büyük açıklamalı veritabanlarının mevcudiyeti ve makinelerin onlardan öğrenmelerini sağlamak için kullanılan teknikler ile devrim niteliğindedir. Sonuç olarak, bir dilden diğerine makine çevirisi rutin hale geldi. Mükemmel olmasa da, bu yöntemler dil hakkında düşünmek için tamamen yeni bir yol sağladı.

Ekip; kayıp dilleri deşifre edebilen bir makine öğrenme sistemi geliştirdi ve bunu ilk kez otomatik olarak yapıldığı zaman Linear B’yi deşifre ederek gösterdiler. Kullandıkları yaklaşım; standart makine çevirisi tekniklerinden çok farklıydı.

Makine çevirisinin ardındaki büyük fikir; söz konusu dilden bağımsız olarak kelimelerin birbirleriyle benzer şekilde ilişkili olduğunun anlaşılmasıdır.

Böylece süreç; bu ilişkileri belirli bir dil için haritalandırarak başlar. Bu, metnin büyük veritabanlarını gerektirir. Makine; her kelimenin diğer kelimenin yanında ne sıklıkta göründüğünü görmek için bu metni arar. Bu görünüş biçimi; kelimeyi çok boyutlu bir parametre uzayında tanımlayan eşsiz bir imzadır. Gerçekten de, kelime; bu boşluktaki bir vektör olarak düşünülebilir. Bu vektör; makinenin geldiği herhangi bir çeviride kelimenin nasıl görünebileceği konusunda güçlü bir kısıtlama olarak hareket eder.

Bu vektörler bazı basit matematik kurallarına uyarlar. Örneğin: kral – erkek + kadın = kraliçe. Cümle, boşlukta bir tür yörünge oluşturmak için birbiri ardına gelen bir dizi vektör olarak düşünülebilir.

Makine çevirisini sağlayan ana fikir; farklı dillerdeki kelimelerin ilgili parametre alanlarında aynı noktaları işgal etmesidir. Bu, birebir yazışmalarla tüm bir dili başka bir dile eşleştirmeyi mümkün kılar.

Bu şekilde, cümlelerin çevrilmesi süreci, bu alanlarda benzer yörüngelerin bulunması süreci haline gelir. Makine asla cümlenin ne anlama geldiğini “bilmek” zorunda kalmaz.

Bu işlem büyük veri setlerine büyük ölçüde güveniyor. Ancak birkaç yıl önce, bir Alman araştırma ekibi; çok daha küçük veritabanlarıyla benzer bir yaklaşımın, metnin büyük veritabanlarından yoksun olan daha nadir dillerin çevrilmesine nasıl yardımcı olabileceğini gösterdi. İşin püf noktası, veritabanına dayanmayan makine yaklaşımını sınırlamanın farklı bir yolunu bulmaktır.

Luo ve ekibi; makine çevirisinin tamamen kaybedilen dilleri nasıl çözebileceğini göstermek için daha da ileri gitti. Kullandıkları kısıtlama; dillerin zaman içinde geliştiği bilinen yöntemle de ilgilidir.

Buradaki düşünce; herhangi bir dilin yalnızca belirli şekillerde değişebileceğidir. Örneğin, ilgili dillerdeki semboller benzer dağılımlarla görünür…, ilgili kelimeler aynı karakter sırasına sahiptir… vb…

Makineyi kısıtlayan bu kurallarla, progenitor dili (kök dili) biliniyorsa bir dilin şifresini çözmek çok daha kolay hale gelir.

Luo ve ekibi; tekniği iki kayıp dil ​​olan Linear B ve Ugaritik ile teste tabi tuttu. Dilbilimciler; Lineer B’nin eski Yunanca’nın eski bir versiyonunu kodladığını ve 1929’da keşfedilen Ugaritik’in eski bir İbranice biçimi olduğunu daha önce biliyorlardı.

Dilbilimsel evrimin getirdiği bilgi ve kısıtlamalar göz önüne alındığında, Luo ve ekibi’nin makinesi her iki dili de dikkate değer bir doğrulukla çevirebiliyor.

Luo: “Deşifre senaryosundaki Lineer B bilişlerinin % 67,3’ünü Yunanca eşdeğerlerine doğru bir şekilde çevirebildik. Bildiğimiz kadarıyla, deneyimiz Linear B’yi otomatik olarak deşifre etmenin ilk girişimidir.”

Makine temelli yaklaşımların en büyük avantajı, bir dili birbiri ardına yorulmadan hızlıca test edebilmeleridir.

Spread the love

Beklenti, Algılamayı Nasıl Etkiler?

Previous article

AI Rehberliğinde Robot Platformu, Molekül Üretimini Otomatikleştiriyor

Next article

Comments

Leave a reply

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Login/Sign up