UC San Francisco ve UC Berkeley’deki araştırmacılar, beyin sapı felci nedeniyle ağır felç geçiren bir kadının dijital bir avatar aracılığıyla konuşmasını sağlayan bir beyin-bilgisayar arayüzü (BCI) geliştirdi.
Konuşma ya da yüz ifadeleri ilk kez beyin sinyallerinden sentezlendi. Sistem ayrıca bu sinyalleri dakikada yaklaşık 80 kelimeyle metne dönüştürebiliyor ki bu da piyasada mevcut teknolojiye kıyasla büyük bir gelişme.
Beyin bilgisayar arayüzü ya da BCI olarak bilinen bu teknoloji üzerinde on yıldan uzun bir süredir çalışan UCSF Nörolojik Cerrahi Başkanı Edward Chang, 23 Ağustos 2023’te Nature dergisinde yayınlanan bu son araştırmasında, yakın gelecekte beyin sinyallerinden konuşmayı mümkün kılan FDA onaylı bir sisteme yol açacağını umuyor.
UCSF Weill Sinirbilim Enstitüsü’nün bir üyesi ve Jeanne Robertson Psikiyatri Profesörü olan Chang, “Amacımız, başkalarıyla konuşmamızın gerçekten en doğal yolu olan tam, somut bir iletişim yolunu geri getirmektir. Bu gelişmeler bizi bunu hastalar için gerçek bir çözüm haline getirmeye çok daha yaklaştırıyor.”
Chang’in ekibi daha önce, yıllar önce beyin sapı felci geçirmiş bir adamda beyin sinyallerini metne dönüştürmenin mümkün olduğunu göstermişti. Bu çalışma ise daha iddialı bir şeyi ortaya koyuyor: Beyin sinyallerini, konuşma sırasında bir kişinin yüzünü canlandıran hareketlerle birlikte konuşmanın zenginliğine dönüştürmek…
Chang, ekibinin konuşma için kritik olduğunu keşfettiği bölgeler üzerinde kadının beyninin yüzeyine 253 elektrottan oluşan kağıt inceliğinde bir dikdörtgen yerleştirdi. Elektrotlar, (felç geçirmemiş olsaydı) yüzünün yanı sıra dil, çene ve gırtlaktaki kaslara gidecek olan beyin sinyallerini yakalardı. Kafasına sabitlenmiş bir bağlantı noktasına takılan bir kablo, elektrotları bir dizi bilgisayara bağlıyordu.
Katılımcı haftalar boyunca ekiple birlikte çalışarak sistemin yapay zeka algoritmalarını, konuşma için kendine özgü beyin sinyallerini tanıyacak şekilde eğitti. Bu, bilgisayar seslerle ilişkili beyin aktivitesi modellerini tanıyana kadar 1.024 kelimelik bir konuşma kelime dağarcığından farklı ifadeleri tekrarlamayı içeriyordu.
Araştırmacılar, yapay zekayı tüm kelimeleri tanıması için eğitmek yerine, kelimeleri fonemlerden çözen bir sistem oluşturdular. Bunlar, harflerin yazılı kelimeleri oluşturduğu gibi sözlü kelimeleri oluşturan konuşmanın alt birimleridir. Örneğin “Merhaba” dört fonem içerir: “HH,” “AH,” “L” ve “OW.” (ing. “Hello”)
Bu yaklaşımı kullanarak, bilgisayarın İngilizce’deki herhangi bir kelimeyi deşifre etmek için yalnızca 39 fonemi öğrenmesi gerekiyordu. Bu hem sistemin doğruluğunu artırdı hem de üç kat daha hızlı olmasını sağladı.
UC Berkeley ve UCSF ortak Biyomühendislik Programında yüksek lisans öğrencisi olan Alex Silva ile birlikte metin çözücüyü geliştiren Sean Metzger, “Doğruluk, hız ve kelime bilgisi çok önemli. Bir kullanıcıya zaman içinde neredeyse bizim kadar hızlı iletişim kurma ve çok daha doğal ve normal konuşmalar yapma potansiyeli veren şey budur.”
Sesi oluşturmak için ekip, konuşmayı sentezlemek için bir algoritma geliştirdi ve bu algoritmayı, düğünündeki konuşmasının bir kaydını kullanarak, yaralanmadan önceki sesine benzeyecek şekilde kişiselleştirdiler.
Ekip avatarı, yapay zekaya dayalı yüz animasyonu yapan bir şirket olan Speech Graphics tarafından geliştirilen, yüzdeki kas hareketlerini simüle eden bir yazılım yardımıyla canlandırdı. Araştırmacılar, şirketin yazılımının, konuşmaya çalışan kadının beyninden gönderilen sinyallerle uyum sağlamasına ve bunları avatarın yüzündeki hareketlere dönüştürmesine olanak tanıyan özelleştirilmiş makine öğrenimi süreçleri oluşturarak çeneyi açıp kapattı, dudakları çıkarıp büzdü ve dili yukarı aşağı hareket ettirdi; ayrıca mutluluk, üzüntü ve şaşkınlık için yüz hareketleri yaptı.
Chang ve UC Berkeley’de elektrik mühendisliği ve bilgisayar bilimleri profesörü olan PhD Gopala Anumanchipalli ile birlikte çalışan yüksek lisans öğrencisi Kaylo Littlejohn, “Beyin ve ses yolu arasında felç nedeniyle kopan bağlantıları telafi ediyoruz. Denek, bu sistemi konuşmak ve avatarın yüzünü birlikte hareket ettirmek için ilk kez kullandığında, bunun gerçek bir etki yaratacak bir şey olacağını biliyordum.”
Ekip için bir sonraki önemli adım, kullanıcının BCI’a fiziksel olarak bağlı olmasını gerektirmeyen kablosuz bir versiyon oluşturmak.
Nörolojik cerrahi alanında yardımcı profesör olan ilk yazar David Moses:”İnsanlara bu teknolojiyle kendi bilgisayarlarını ve telefonlarını özgürce kontrol etme becerisi kazandırmanın bağımsızlıkları ve sosyal etkileşimleri üzerinde derin etkileri olacaktır.”
Kaynak: //www.sciencedaily.com/releases/2023/08/230823122530.htm
Comments