Montreal, Quebec Üniversitesi ve Vietnam Ulusal Üniversitesi (VNU-HCM) araştırmacılarından oluşan bir ekip, yakın zamanda tekrarlayan sinir ağlarına (RNN’ler) dayalı makine çevirisi için bir yaklaşım geliştirildi. Harf çevirisi, belirli bir kaynak dildeki (örneğin Fransızca) kelimelerin bir hedef dildeki (örneğin Vietnamca) eşdeğer kelimelere fonetik çevirisini gerektirir.
Harf çevirisi yoluyla, tek bir kelime başka bir yazı sisteminde fonetik olarak eşdeğer bir kelimeye dönüştürülür. Bu dönüşüm tipik olarak dilbilimciler tarafından, bu fonemlerin nasıl hizalanacağını belirleyen, bir kelimenin kaynağını ve hedef dilin fonolojik sistemini göz önüne alarak tanımlanan geniş bir kurallar kümesine dayanır.
Son yıllarda, araştırmacılar mevcut istatistiksel yaklaşımlara değerli bir alternatif olduğu tespit edilmiş, makine çevirisi için çeşitli derin öğrenme yaklaşımları geliştirmiştir. Umut veren bu sonuçlar, Montreal Quebec Üniversitesi ve VNU-HCM’deki araştırmacı ekibini, makine çevirisi için derin bir öğrenme yaklaşımı geliştirmek amacıyla motive etmiştir.
Yaklaşımları tekrarlayan sinir ağlarını (RNN’ler) kullanır; bunların benzer problemlerle başa çıkmak için özellikle yararlı olduğu bulunmuştur. Araştırmacılar, en son teknolojiye sahip olan grafem-fonem yöntemlerinin, öncelikle, grafem-fonem eşlemelerinin kullanımına dayandığını, RNN’lerin ise herhangi bir hizalama bilgisi gerektirmediğini gözlemlemiştir.
Grafem-fonem modelleri, otomatik konuşma-tanıma ve metin-konuşma sistemlerinde anahtar bileşenlerdir. Elverişli ve iyi gelişmiş telaffuz sözlüğü olmayan düşük kaynak dil çiftlerinde, grafem-fonem modelleri özellikle kullanışlıdır. Bu modeller, grafem kaynağı ve fonem hedefi dizileri arasındaki ilk hizalamalara dayanmaktadır.
Araştırmacılar çalışmalarında, RNN tabanlı modeller ve giriş dizileri için hizalama bilgileri kullanan düşük kaynaklı makine harf çevirisi elde etmek için yeni bir yöntem geliştirdiler. Belirli bir dilde, iki dilli telaffuz sözlüğünde bulunmayan bir kelime verildiğinde; sistemleri, fonemik gösterimini hedef dilde otomatik olarak tahmin edilebilir.
Dizi-dizi tekrarlayan sinir ağına dayalı çeviri yöntemlerinden ilham alan mevcut araştırma, düşük kaynaklı bir dil çifti için harf çevirisi probleminin üstesinden gelmek amacıyla, giriş dizileri ve önceden eğitilmiş kaynak ve hedef yerleştirmeler için bir hizalama gösterimi uygulayan bir yaklaşım sunmaktadır.
Bu yeni yaklaşım, kodlayıcı-kod çözücü, dikkat mekanizmaları, giriş dizileri için hizalama gösterimi ve önceden eğitilmiş kaynak ve hedef yerleştirme gibi çeşitli derin öğrenme ve sinir ağı tabanlı teknikleri birleştirir. Araştırmacılar, yöntemlerini Fransız-Vietnamca düşük kaynaklı dil çiftlerini içeren bir çeviri görevinde değerlendirerek; harf çevirisi modellerini eğitmek için sadece küçük bir iki dilli telaffuz sözlüğü ile umut verici sonuçlar elde edildiğini göstermiştir.
Araştırmacılara göre çalışmaları, Vietnamca dilini RNN’leri kullanan bir harf çevirisi görevinde ilk analiz edenlerden biridir. Metodları, en son teknolojiye dayalı diğer istatistik bazlı ve çok ortak dizilim bazlı yaklaşımlardan daha iyi performans gösteren olağanüstü sonuçlar elde etti.
Araştırmacılar tarafından geliştirilen yeni sistem, iki dilli telaffuz sözlüklerinden dilsel düzenlemeleri etkili ve otomatik olarak öğrenebilir. Çalışmaları özel olarak Fransızca-Vietnamca harf çevirisi için uygulansa da; aynı zamanda, iki dilli bir telaffuz sözlüğünün mevcut olduğu diğer düşük kaynaklı dil çiftlerine de genişletilebilir.
Araştırmacılar, gelecekteki çalışmalarında, önerilen yaklaşımlarını daha geniş bir iki dilli telaffuz sözlüğü ile test etmeyi ve yarı denetimli veya denetlenmemiş diğer yaklaşımları incelemeyi hedefliyor. Ayrıca düşük kaynak ayarlarındaki diğer NLP görevlerini veya dillerini kullanarak transfer öğrenmeyi araştırmayı da amaçlıyor.