MIT/CSAIL

Yeni sistem; dünyanın yaklaşık konuşulan 7.000 dilini bilgisayar tabanlı translatöre dönüştürüyor.

MIT araştırmacıları yeni bir “denetimsiz” dil çeviri modeli geliştirdiler. Model; insan tarafından açıklamalara ve yönlendirmelere ihtiyaç duymadan çalışacak; ayrıca daha fazla dilden daha hızlı, daha verimli bilgisayar tabanlı çevirileri de sağlayabilecek.

Google, Facebook ve Amazon’daki çeviri sistemleri; insanlar tarafından çeşitli dillere çevrilmiş olan yasal ve politik belgeler veya haber makaleleri gibi milyonlarca belgede kalıp aramak için eğitim modelleri gerektirir. Tek bir dilde yeni kelimeler verildiğinde; diğer dilde eşleşen kelimeleri ve kelime öbeklerini de bulabilirler. Ancak bu çeviri verileri zaman alıcı ve toplanması zor bir süreçtir ve dünya çapında konuşulan 7.000 dilin çoğu için mevcut olmayabilir. Son zamanlarda, araştırmacılar; iki dilde metinler arasında çeviri yapan, ancak ikisi arasında doğrudan çeviri bilgisi olmayan “tek dilli” modeller geliştiriyorlar.

Bu hafta, Doğal Dil İşleme Ampirik Yöntemler Konferansı’nda sunulan bir makalede, MIT’nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) araştırmacıları; bu tek dilli modellerden daha hızlı ve daha verimli çalışan bir modeli açıklamaktadır.

Model; bir hesaplama alanında, noktalar arasındaki mesafeleri esas olarak ölçen ve onları başka bir alanda benzer mesafeli noktalara eşleştiren Gromov-Wasserstein Uzaklığı adı verilen bir metriği kullanır. Bu tekniği, birbirine yakın kümelenmiş benzer anlamları olan (vektörler olarak temsil edilen) kelimelerle; temsil edilen kelimeler olan iki dilin “kelime yerleştirmeleri” ne (words embeddings) uygularlar. Bunu yaparken model; her ikisi de göreceli mesafelerle en yakın ilişki içinde olan, yani doğrudan çeviri olması muhtemel olan sözcükleri veya vektörleri hızla hizalar.

Deneylerde, araştırmacıların modeli; en son teknoloji ürünü tek dilli modeller kadar doğru bir şekilde oluşturuldu. Ancak çok daha hızlı olsa da; hesaplama gücünün sadece bir kısmı kullanılıyordu.

Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü ve Veri, Sistemler ve Toplum Enstitüsü’nden Profesör Thomas Siebel ve CSAIL’de Araştırmacı Tommi Jaakkola: “Model, iki dilde bulunan sözcükleri vektörler kümesi olarak görüyor ve bu vektörleri bir kümeden diğerine esasen ilişkileri koruyarak gösteriyor. Yaklaşım yeterli kaynak diliyle geldiği sürece; düşük kaynak dillerini veya lehçelerini çevirmeye de yardımcı olabilir.”

CSAIL Doktora Öğrencisi David Alvarez-Melis: “Model, tam anlamıyla ‘denetlenmeyen’ kelime hizalaması olan makine çevirisi ana hedeflerinden birine doğru bir adımı temsil ediyor. Eğer iki dil ile eşleşen herhangi bir veri yoksa iki dili haritalayabilir ve bu mesafe ölçümlerini kullanarak, hizalayabiliriz.”

‘Denetimsiz makine çevirisi’ için kelime yerleşimlerini hizalama yeni bir kavram değil. Yakın zamanda yapılan çalışmalar; iki dilde birlikte, sözcük toplamalarında veya matrislerde doğrudan vektörleri eşleştirmek için sinir ağlarını eğitiyor. Ancak bu yöntemler; hizalamaların tam olarak doğru olmasını sağlamak için eğitim sırasında çok fazla ayar gerektirmektedir; bu da verimsiz ve zaman alıcıdır.

Öte yandan ilişkisel uzaklıklara göre vektörlerin ölçülmesi ve eşleştirilmesi; çok ince ayar gerektiren, çok daha etkili bir yöntemdir. Söz konusu vektörlerin belirli bir matriste nereye düştüğü önemli değil; kelimeler arasındaki ilişki ve uzaklıkları arasındaki ilişki aynı kalacaktır. Örneğin, “baba” için vektör, iki matriste tamamen farklı alanlarda olabilir. Ancak “baba” ve “anne” için vektörler büyük olasılıkla hep birbirine yakın olacaktır.

Alvarez-Melis: “Bu mesafeler değişmez. Vektörlerin mutlak pozisyonlarına değil; mesafeye bakarak, hizalamayı atlayabilir ve doğrudan vektörler arasındaki yazışmaları eşleştirebilirsiniz. Gromov-Wasserstein Uygulaması da burada işe yarıyor… Teknik; grafik tasarımında görüntü piksellerinin hizalanmasına yardımcı olmak için bilgisayar bilimlerinde kullanılmıştır. Ancak metrik; kelime hizalaması için ‘ısmarlama’ yapılmış gibi görünüyordu. Eğer bir noktada birbirine yakın nokta veya sözcükler varsa, Gromov-Wasserstein; otomatik olarak ilgili puan kümesini bulmaya çalışacaktır.”

Eğitim ve test için araştırmacılar; 110 dil çifti ile FASTTEXT olarak adlandırılan, halka açık kelime toplama veri seti kullanmışlardır. Bu yerleşimlerde ve diğerlerinde, benzer bağlamlarda daha sık görülen kelimeler; birbiriyle yakından eşleşen vektörlere sahiptir. “Anne” ve “baba” genellikle birbirine yakın olurlar, ancak her ikisi de “ev” kelimesinden de uzaklaşırlar.

“Yumuşak Çeviri”

 

Alvarez-Melis: “Yumuşak bir çeviri diyebileceğimiz bir şey… Tek bir kelimeyi çevirmek yerine, ‘vektör veya kelime, bu kelimeyle veya başka bir dilde kelimelerle güçlü bir yazışmaya sahip’ anlamına geliyor. Buna en iyi örnek; birçok dilde birbiriyle yakından ilişkili olan yılın ayları olacaktır.

Model, kümelenmiş 12 vektör kümesini ve diğer gömülenler (embedding küme) içinde, dikkate değer derecede benzer bir kümeyi görecektir. Bu model; ayları bilmiyor. Sadece diğer dilde 12 puanlık bir kümeye denk gelen, 12 noktadan oluşan bir kümenin var olduğunu biliyorlar; ancak sözcüklerin geri kalanından farklılar… Bu yüzden muhtemelen iyi bir şekilde bir araya geliyorlar. Her bir kelime için bu yazışmaları bularak, tüm alanı eşzamanlı olarak hizalayabiliyorlar.”

Araştırmacılar; bu çalışmanın bir “fizibilite kontrolü” olarak hizmet edeceğini umuyor. Jaakkola; Gromov-Wasserstein Yöntemini daha hızlı, daha verimli çalıştırmak ve daha birçok dile erişim sağlamak için makine-çeviri sistemlerine uygulamak gerektiğini söylüyor.

Ek olarak, modelin olası bir örneği; sayısal olarak ölçekleri, diller arasındaki benzerlik olarak yorumlanabilen bir değeri otomatik olarak üretmesidir. Araştırmacılar; bu yöntemin dilbilimsel çalışmalar için yararlı olabileceğini belirtiyor. Model; cümle yapısı ve diğer faktörlere bağlı olarak iki vektörün birbirinden ne kadar uzak olduğunu hesaplar. Vektörlerin hepsi birbirine çok yakınsa; 0’a yakın puanlar kazanırlar ve uzaklaştıkça puan o derece yüksek olur. Örneğin, Fransızca ve İtalyanca gibi birbirine benzer Latin diller, 1’e yakın puan alırken; klasik Çince ise diğer büyük dillerle birlikte 6 ve 9 arasında puan alır.

Alvarez-Melis’e göre, bu yöntem; diller arasındaki ilişkiler hakkında bilgi edinmek için de kullanılabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

You May Also Like

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

Cep telefonlarının, akıllı saatlerin ve diğer giyilebilir cihazların daha yeni bir model…

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Yeni teknoloji, yoğun bakım ünitesi (YBÜ) tedavisine ihtiyaç duyan hastaları belirleyerek COVID-19…

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

  Yapay zeka araştırma şirketi OpenAI, doğal dili programlama koduna çeviren bir…

Bilgisayar bilimcileri, programlama dili Python’u önemli ölçüde hızlandırmak için açık kaynaklı bir araç geliştirdi

Massachusetts Amherst Üniversitesi’nde Emery Berger liderliğindeki bilgisayar bilimcilerinden oluşan bir…