Techxplore

Sanal asistanlar ve robotlar giderek daha karmaşık, etkileşimli ve insan benzeri hale geliyor. Bununla birlikte, insan iletişimini tam olarak kopyalamak için, yapay zeka (AI) aracıları sadece kullanıcıların ne söylediğini belirlememeli ve yeterli yanıtlar üretmemeli, aynı zamanda insanları konuşma biçimlerini de taklit etmelidir.

Carnegie Mellon Üniversitesi’ndeki (CMU) araştırmacılar; son zamanlarda sanal asistanların ve robotların konuşmalarına eşlik edecek doğal hareketler üreterek, insanlarla iletişimi geliştirmeyi amaçlayan bir çalışma yürüttü. Araştırmacıların ArXiv’de önceden yayınlanan ve The European Conference on Computer Vision (ECCV) 2020’deki makalelerinde; sesin, insan sesine en iyi uyan farklı ortak konuşma jestleri üretebilen, yeni bir model olan Mix-StAGE tanıtıldı.

Araştırmacı Chaitanya Ahuja: “Sanal bir alanda, bir arkadaşınızla sanal gerçeklik başlığı aracılığıyla iletişim kurduğunuzu hayal edin. Kulaklık yalnızca sesinizi duyabiliyor, ancak el hareketlerinizi göremiyor. Modelimizin amacı; konuşmaya eşlik eden el hareketlerini tahmin etmektir.”

 İnsanlar başkalarıyla iletişim kurarken tipik olarak benzersiz jest yapma yollarına sahiptir.  Ahuja ve meslektaşları, bu bireysel farklılıkları hesaba katan, konuşmacıların sesi ve kişiliğiyle uyumlu jestler üreten bir birlikte konuşma hareketi oluşturma modeli tasarladı.

Araştırmacı Ahuja: “Mix-StAGE’in arkasındaki temel fikir; birçok farklı jest stili için ortak bir jest alanı öğrenmektir. Bu hareket alanı, stile göre gruplandırılmış tüm olası hareketlerden oluşur. Mix-StAGE’nin ikinci yarısı, stil aktarımı olarak bilinen bir işlem olan giriş konuşma sinyaliyle senkronize olurken herhangi bir stilde hareketlerin nasıl tahmin edileceğini öğrenir.”

 Mix-StAGE, birden çok konuşmacı için etkili jestler üretmek, her konuşmacının benzersiz stil özelliklerini öğrenmek ve bu özelliklere uyan jestler üretmek üzere eğitildi.  Ek olarak, model; bir konuşmacının tarzında başka bir konuşmacının konuşması için jestler oluşturabilir.  Örneğin, tipik olarak B konuşmacısı tarafından kullanılan jest stilinde, A konuşmacısının söyledikleriyle eşleşen hareketler oluşturabilir.

 Araştırmacı Ahuja:  “Her stil için ayrı bir model gerektiren önceki yaklaşımların aksine, birçok jestsel stili temsil etmek için tek bir modeli (yani, daha az bellek içeren) öğretmeyi başardık. Modelimiz, jestsel stiller arasındaki benzerliklerden yararlanırken aynı zamanda her bir kişi için neyin benzersiz olduğunu (yani her stili) hatırlıyor.”

 İlk testlerde, Ahuja ve meslektaşları tarafından geliştirilen model oldukça iyi performans gösterdi ve farklı tarzlarda gerçekçi ve etkili jestler üretti.  Dahası, araştırmacılar; Mix-StAGE’yi eğitmek için kullanılan konuşmacıların sayısını artırdıkça, jest oluşturma doğruluğunun önemli ölçüde arttığını keşfettiler.  Gelecekte model, sanal asistanların ve robotların insanlarla iletişim kurma yöntemlerini geliştirmeye yardımcı olabilir.

 Araştırmacılar, Mix-StAGE’yi eğitmek için Pose-Audio-Transcript-Style (PATS) adı verilen ve eşleşen hareketlerle toplam 250 saatten fazla 25 farklı kişinin ses kayıtlarını içeren bir veri seti derlediler.  Bu veri kümesi yakında diğer araştırma ekipleri tarafından diğer hareket oluşturma modellerini eğitmek için kullanılabilir.

Araştırmacı Ahuja: “Şu anki araştırmamızda, jestler oluştururken konuşmanın sözel olmayan kısmına (örneğin, ölçü) odaklanıyoruz. Başka bir girdi olarak konuşmanın sözlü kısmını da (yani dil) dahil edeceğimiz bir sonraki adım için heyecanlıyız. Hipotez, dilin ikonik veya mecazi jestler gibi belirli jest türlerine yardımcı olma yönündedir.”

You May Also Like

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

Cep telefonlarının, akıllı saatlerin ve diğer giyilebilir cihazların daha yeni bir model…

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Yeni teknoloji, yoğun bakım ünitesi (YBÜ) tedavisine ihtiyaç duyan hastaları belirleyerek COVID-19…

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

  Yapay zeka araştırma şirketi OpenAI, doğal dili programlama koduna çeviren bir…

AI’ye Karanlıkta Renkleri Tanımlamayı Öğretmek

California Üniversitesi‘ndeki bir araştırma ekibi, karanlıkta sınırlı renk görüşü sağlamak için derin…