Google’ın Alphabet AI araştırma laboratuvarı; DeepMind yapay zekasını (AI) kullanarak, 2016 yılında WaveNet olarak adlandırılan yapay bir konuşma sistemi geliştirdi. Sistem, diğer teknolojilerden daha iyi bir kalitede konuşma örnekleri yapabilen bir yapay sinir ağı üzerinde çalışıyor. Öyle ki, AI sesinin, insan sesine çok yaklaştığı gözlemlendi. WaveNet, tüm platformlarda Google Assistant için yeterince iyi çalışacak şekilde geliştirildi.
Ocak 2018’de Google tarafından yayınlanan bir makalede; WaveNet, Tacotron 2 adlı bir metin okuma sistemi alıyor. Etkili olarak WaveNet ile Tacotron 2 ağları; Google’ın yapay konuşması AI’nin yeni nesli, yeni sistemi ve derin sinir ağını birleştiriyor.
Tacotron 2, metni; bir spektogram olarak adlandırılan, zamanla ses frekanslarının görsel bir temsiline çevirir. Daha sonra, spektogramı okur ve ilgili ses elemanları ile bir grafik oluşturan WaveNet’e yükler.
Çalışmaya göre, “model, mesleki olarak kaydedilmiş konuşma için 4.58 MOS’le, karşılaştırılabilir 4.53 Ortalama Görüş Puanı (MOS) elde ediyor”. Basitçe söylemek gerekirse, konuşan bir insana çok benziyor.
Google; AI sesi ve insan sesi kayıtlarını karşılaştırdı ve hangisinin makine hangisinin insan olduğunu ayırt etmenin zor olduğunu fark etti.
İşte bir örnek.
Bugüne kadar AI sistemleri, insan ve makine arasındaki çizgiyi bulanıklaştırmada daha iyi duruma geldi. Artık insan olmayan ancak; insan figürleri üretebilen AI’ler var. Başka bir AI sahte videolar bile yapabilir. Ayrıca, bazı AI’lerin öykü anlatımında ya da sanatta daha iyi hale geldiği gerçeğini göz ardı edilemez.
İnsan konuşmasını taklit etmek her zaman AI ağları için bir zorluktu. Şimdi ise, DeepMind’in WaveNet ve Tacotron 2 bunu oldukça etkileyici bir oranda değiştiriyor gibi görünüyor. AI sadece kelimeleri net bir şekilde telaffuz etmekle kalmıyor, aynı zamanda noktalama işaretlerine göre kelimelerde uygun vurguları da yapabiliyor.
Bununla birlikte, yeni AI sisteminin mükemmel olduğunu söylemek zor. Şu ana kadar yalnızca, Google’ın tuttuğu bir kadından kaydettiği tek bir sesi kullanacak şekilde eğitildi. WaveNet ve Tacotron 2 sistemi; diğer sesleri (örneğin bir erkek veya başka bir kadın) çalışmak için sistemin yeniden eğitilmesi gerekecek.
Tacotron 2 sistemi mükemmelleştiği anda Google Assistant için derhal uygulama yapılması dışında, teknoloji de diğer rolleri üstlenebilir.