Beyin Kayıtlarından Üretilen Sentetik Konuşma

UC San Francisco sinirbilimcilerinin yarattığı son teknoloji olan bir beyin-makine arayüzü; sanal bir ses yolunu kontrol etmek için beyin aktivitesinden yararlandı. Araştırma, katılımcıların kendi (hasarlı) konuşmasıyla gerçekleştirildi. Ancak teknoloji; felç veya diğer nörolojik hasar biçimleri nedeniyle konuşma kabiliyetini yitirmiş insanların sesini eski haline getirebildi.

İnme, travmatik beyin hasarı, Parkinson hastalığı, multipl skleroz ve amyotrofik lateral skleroz (ALS veya Lou Gehrig hastalığı) gibi nörodejeneratif hastalıklar; genellikle konuşma kabiliyetinin geri dönüşümsüz bir kaybıyla sonuçlanır. Ağır konuşma yetersizliği olan bazı kişiler; çok küçük göz veya yüz kas hareketlerini izleyen yardımcı cihazları kullanarak, düşüncelerini harf harf hecelemeyi öğrenirler. Bununla birlikte, bu tür cihazlarla metin üretmek veya sentezlenmiş konuşma yapmak zahmetli, hataya açık ve acı verici bir şekilde yavaş; dahası doğal konuşmada dakikada 100-150 kelimeye kıyasla, tipik olarak dakikada maksimum 10 kelimeye izin veriyor.
24 Nisan 2019’da Nature’da açıklanan Edward Chang’in laboratuvarında geliştirilen yeni sistem; beyin konuşma merkezlerinin faaliyetleriyle kontrol edilebilecek bir kişinin sesinin sentezlenmiş bir versiyonunu yaratmanın mümkün olduğunu gösteriyor. Gelecekte, bu yaklaşım; sadece şiddetli konuşma yetersizliği olan bireylerle akıcı iletişimi eski haline getirmeyecek; aynı zamanda konuşmacının duygularını ve kişiliğini ileten insan sesinin müzikalitesinin bir kısmını da çoğaltabilecek.

Nörolojik Cerrahi Profesörü ve UCSF Weill Neuroscience Enstitüsü Üyesi Chang: “İlk defa, bu çalışma; bireyin beyin aktivitesine dayanarak, tüm sözlü cümleleri üretebileceğimizi gösteriyor. Bu, halihazırda ulaşılan teknolojiyle; konuşma kaybı olan hastalarda klinik olarak uygun bir cihaz üretebilmemiz gerektiğinin heyecan verici bir ilkesidir.”

*Kısa canlandırma, beyin aktivitesinin somatosensorit korteks içindeki konuşma merkezlerinden (sol üstte) ilk önce bir araştırma katılımcısının ses yolu hareketlerinin (üst sağ) bir bilgisayar simülasyonuna nasıl çözüldüğünü ve daha sonra katılımcının sentezlenmiş bir versiyonuna çevrildiğini göstermektedir. / Chang lab / UCSF Beyin Cerrahisi Bölümü.

Sanal Ses Yolu, Doğal Konuşma Sentezini Geliştiriyor

Araştırma, Konuşma Bilimci Gopala Anumanchipalli ve Chang Laboratuvarı’nda Biyomühendislik Yüksek Lisans Öğrencisi Josh Chartier tarafından yürütülmüştür.

Araştırmcılar daha önce insan beyninin konuşma merkezlerini ilk kez açıkladılar. Bu çalışmaya dayanarak; akıcı konuşma üretmek için dudak, çene, dil ve diğer ses yolu bileşenlerinin hareketlerini planladılar. Bu çalışmadan, Anumanchipalli ve Chartier; beyin aktivitesinden gelen konuşmaların direk olarak çözülmesine yönelik önceki girişimlerin, bu beyin bölgelerinin konuşma seslerinin akustik özelliklerini doğrudan temsil etmediğini belirttiler.

Anumanchipalli: “Ses kanalının hareketleri ile üretilen konuşma sesleri arasındaki ilişki karmaşıktır. Beyindeki bu konuşma merkezleri seslerden ziyade hareketleri kodlarsa; bu sinyalleri deşifre etmek için aynı şeyi yapmamız gerektiğini düşündük.”

Araştırma; katılımcıların konuşma sırasında kaydedilen aktivite modellerinin (renkli noktalar) bilgisayar sesine dönüştürüldüğü, katılımcıların ses yolunun (model, doğru) bilgisayar simülasyonuna dönüştürülen, elektrot yerleşimlerinin çizimleri, bu cümleyi yeniden yapılandırmak için sentezlenebilir. / Chang lab / UCSF Beyin Cerrahisi Anabilim Dalı

Yeni çalışmalarında, Anumancipali ve Chartier, UCSF Epilepsi Merkezi’nde beş gönüllünün tedavi edilmesini istedi. Bu gönüllüler; nöroşirürji için hazırlık sırasındaki nöbetlerinin kaynağını haritalamak için, beyinlerine geçici olarak yerleştirilmiş elektrotları olan, kendi konuşmaları kullanılan hastalardır. Araştırmacılar, dil üretimine dahil olduğu bilinen bir beyin bölgesinden etkinlik kaydettiler.

Katılımcıların seslerinin ses kayıtlarına dayanarak; araştırmacılar bu sesleri üretmek için, gereken ses yolu hareketlerini tersine çevirerek, dilsel ilkeleri kullandılar: Dudakları birbirine bastırmak, ses tellerini kasmak, dilin ucunu ağzın çatısına değdirip, sonra gevşetmek vb…

Sesin anatomiye bu şekilde ayrıntılı eşlemesi, bilim insanlarının beyin aktiviteleri tarafından kontrol edilebilecek her katılımcı için gerçekçi bir sanal ses yolu yaratmalarına izin verdi. Bu, iki “sinir ağı” makine öğrenme algoritmasını içeriyordu: Konuşma sırasında üretilen beyin aktivite modellerini, sanal ses kanalının hareketlerine dönüştüren bir kod çözücü ve bu ses yolu hareketlerini, katılımcının sesinin sentetik bir yaklaşımına dönüştüren bir sentezleyici…

Araştırmacılar; bu algoritmaların ürettiği sentetik konuşmanın, (konuşmacıların ses traktlarının simülasyonlarını dahil etmeden) katılımcıların beyninin faaliyetlerinden doğrudan çözdüğü, sentetik konuşmadan önemli ölçüde daha iyiydi. Algoritmalar; Amazon Mechanical Turk platformunda yapılan kitle kaynaklı transkripsiyon testlerinde, yüzlerce insan dinleyicisinin anlayabileceği cümleler üretti.

Beyin aktivitesini kaydetmek için kullanılan tipte bir intrakraniyal elektrot dizisinin görüntüsü. / UCSF

Doğal konuşmada olduğu gibi, yazarlara seçilecek daha kısa sözcük listeleri verildiğinde daha başarılı olmuşlardır. Metin yazarları sentezlenmiş kelimelerin yüzde 69’unu, 25 alternatif listeden doğru bir şekilde belirlediler ve cümlelerin yüzde 43’ünü mükemmel bir doğrulukla yazdılar. Seçilebilecek daha zorlu 50 kelimeyle, transkriptlerin genel doğruluğu yüzde 47’ye düştü. Ancak yine de sentezlenen cümlelerin yüzde 21’ini mükemmel bir şekilde anlayabilmişlerdi.

Chartier: “Yine de konuşulan dili mükemmel şekilde taklit etmenin bir yolunu buluyoruz. ‘Sh’ ve ‘z’ gibi daha yavaş konuşma seslerini sentezlemenin yanı sıra; konuşmanın ritimlerini ve tonlamalarını ve konuşmacının cinsiyeti ve kimliğini koruduğumuzda oldukça iyiyiz, ancak ‘b’ ve ‘p’s’ gibi daha sert sesler biraz bulanık. Yine de, burada ürettiğimiz doğruluk seviyeleri; şu anda mevcut olanlara kıyasla gerçek zamanlı iletişimde inanılmaz bir gelişme olacaktır. ”

Yapay Zeka, Dilbilim ve Sinirbilim

Araştırmacılar şu anda; sentezlenmiş konuşmayı daha da iyileştireceğini umdukları daha yüksek yoğunluklu elektrot dizileri ve daha gelişmiş makine öğrenme algoritmaları ile denemeler yapıyorlar. Teknolojinin bir sonraki ana sınavı; konuşamayan birinin kendi sesiyle eğitmeden sistemi kullanmayı ve söylemek istediklerini herhangi bir şeye genelleştirmeyi öğrenip öğrenemeyeceğini belirlemek.

Bu çalışmada beyin aktivitesini kaydetmek için kullanılan tipte bir intrakraniyal elektrot dizisinin görüntüsü. / UCSF

Ekibin araştırma katılımcılarından birinin ön sonuçları; araştırmacıların anatomik tabanlı sisteminin, algoritmanın öğretildiği cümlelerin yanı sıra, katılımcıların beyin faaliyetlerinden yeni cümleleri deşifre edip sentezleyebileceğini öne sürüyor. Araştırmacılar; algoritmaya sadece bir katılımcı ses olmadan cümleleri konuştuğunda kaydedilmiş beyin aktivite verisi ile algoritmayı sağlasalar bile, sistem konuşmacının sesinde bulunan cümlelerin anlaşılır sentetik versiyonlarını üretebildi.

Araştırmacılar ayrıca; sesli hareketler için sinir kodunun katılımcılar arasında kısmen örtüştüğünü ve araştırma konusunun ses yolu simülasyonunun başka bir katılımcının beyninden kaydedilen sinirsel talimatlara cevap vermek için uyarlanabileceğini de buldular. Birlikte, bu bulgular; nörolojik bozulma nedeniyle konuşma kaybı olan bireylerin, sağlam konuşmaları olan birinin sesine göre modellenen bir konuşma protezini kontrol etmeyi öğrenebileceklerini göstermektedir.

Chartier: “Kollarını ve bacaklarını hareket ettiremeyen insanlar, robot uzuvlarını beyinleriyle kontrol etmeyi öğrendi. Bir gün konuşma engelli insanların beyin kontrollü bu yapay ses yolunu kullanarak, tekrar konuşmayı öğrenebileceklerini umuyoruz.”

Anumanchipalli: “Nörolojik engelli hastalara yardım etme yolunda bu önemli dönüm noktasının bir parçası olarak nörobilim, dilbilim ve makine öğrenmesinden uzmanlığı bir araya getirebildiğimiz için gurur duyuyorum.”

Beyin Kayıtlarından Üretilen Sentetik Konuşma

Up next

Kafein; Güneş Hücrelerine Enerji Artışı Sağlıyor

Author

Editör

Tags

Share article

Sanal Ses Yolu, Doğal Konuşma Sentezini Geliştiriyor

Yapay Zeka, Dilbilim ve Sinirbilim

Bir yanıt yazın Yanıtı iptal et

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

AI’ye Karanlıkta Renkleri Tanımlamayı Öğretmek

Canlı Sistemleri İzlemede Dijital İkiz Teknolojisi

OpenAI’nin yeni jeneratif aracı Sora pazarlama ve içerik üretiminde devrim yaratabilir

Yapay Zeka ve Makine Öğrenimi Aralarındaki Fark Nedir?

Tuta Mail e-postaları korumak için kuantuma dayanıklı yeni şifreleme ekliyor

Beyin Kayıtlarından Üretilen Sentetik Konuşma

Up next

Author

Editör

Tags

Share article

Sanal Ses Yolu, Doğal Konuşma Sentezini Geliştiriyor

Yapay Zeka, Dilbilim ve Sinirbilim

Bir yanıt yazın Yanıtı iptal et

You May Also Like