Akıllı SistemlerDergi

Paralinguistiğe Dayanan Duygu Tanıma Yöntemi

Arlington, Texas Üniversitesi’ndeki araştırmacılar, son zamanlarda sadece paralinguistik bilgilere dayanan duygu tanıma analizi için makine öğreniminin kullanımını araştırdılar. Paralinguistics: Ses tonu, sözcükler arası boşluklar, vurgu, durmalar gibi bilginin iletişim kurma yollarını ve yöntemlerini sözel olmayan bir şekilde inceleyen bir bilim olarak tanımlanır.

Makine öğrenmedeki son gelişmeler; imgeleri, ses kayıtlarını, elektroansefalogram veya elektrokardiyogramı analiz ederek duygusal durumları tanıyabilen araçların geliştirilmesine yol açmıştır. Bu araçların, örneğin, bir kullanıcının kullandığı duyguları tanıması ve bunlara cevap vermesi için daha etkili insan-bilgisayar etkileşimlerini mümkün kılan, çeşitli ilginç uygulamaları olabilir.

Araştırmacılar, Deneysel Tıp ve Biyoloji kitap serilerinde yayımlanan makalelerinde; “Genel olarak, konuşmanın iki farklı bilgi türünü taşıdığını söyleyebiliriz. Konuşmacı tarafından açıkça söylenen belirli ya da dil bilimsel bilgiler ve  kalıpların telaffuzundaki çeşitliliği ilgilendiren örtük ya da paralinguistik bilgileri içeren ya da her iki bilgi türünü kullanarak, taşıdığı duygulara dayanarak konuşmadan oluşan bir ses segmentini sınıflandırmaya çalışabiliriz.  Ancak, bu alandaki bir uzman (örneğin bir psikolog) dahil, konuşmadan duygunun tanınması bir insan için bile çok zor bir görev gibi görünmekte” olduğu belirtildi.

Birçok mevcut otomatik konuşma tanıma (ASR) yaklaşımı, hem dil bilimsel hem de paradoksal bilgileri analiz ederek, konuşmadan duyguları tanımayı dener. Kısmen dil özelliklerine odaklanarak, bu modellerin katı bir dil bağımlılığı gibi çeşitli dezavantajları vardır. Bu nedenle araştırmacılar, çok dilli duygu tanıma elde etme umuduyla, yalnızca duygu bilimsel bilginin analizine dayanarak duygu tanıma üzerine odaklanmaya karar verdiler.

Araştırmacılar; “Bu yazıda, konuşmacıların duygularını yalnızca paradoksal bilgiye dayanarak analiz etmeyi amaçlıyoruz. İki makine öğrenim yaklaşımını, yani bir konvolüsyonel sinir ağını (CNN) ve bir destek vektör makinesini (SVM) karşılaştırıyoruz.”

Araştırmacılar, ham spektrogramlar üzerinde bir CNN modeli ve bir dizi düşük seviyeli özellik üzerinde bir SVM modelini eğitmişlerdir. Her iki model de, yaygın olarak bilinen üç duygusal konuşma veri kümesini kullanarak geliştirilmiş ve değerlendirilmiştir: EMOVO, SAVEE ve EMO-DB. Bu veri kümeleri, farklı dillerde duygusal konuşma kayıtları içerir; sırasıyla İtalyanca, İngilizce ve Almanca.

Makine Öğrenme İçin Üç Deney

İki makine öğrenim modeli, dört ortak duygu sınıfını tanımak için eğitilmiştir: mutluluk, üzüntü, öfke ve nötr. Araştırmacılar, test için tek bir veri setinin kullanıldığı her bir makine öğrenme yaklaşımı için üç deney gerçekleştirdi. Araştırmacılar; “Veri kümeleri seçiminden kaynaklanan en büyük zorluk, diller arasındaki büyük farktır. Çünkü dil farklılıklarının yanı sıra her bir duygu ifadesinde de büyük bir değişkenlik vardır.”

Genel olarak, SVM’nin CNN’den çok daha iyi performans gösterdiğini gördüler. SAVEE ve EMOVO, veri kümelerinde eğitildiklerinde, EMO-DB üzerindeki testlerden daha iyi performans gösterdi. Bu sonuçlar ümit vericiydi, ancak optimal değildi. Sürekli olarak etkili, çok dilli duygu tanıma elde etmek için daha fazla çalışma gerekmektedir.

Araştırmacılar; “Gelecekteki çalışmalar için planlarımız eğitim ve değerlendirme için daha fazla veri seti kullanımını içeriyor. Ayrıca, diğer eğitimli derin öğrenme ağlarını araştırmayı da hedefliyoruz, çünkü derin öğrenmenin eldeki probleme önemli ölçüde katkıda bulunabileceğini düşünüyoruz. Son olarak, planlarımız arasında gerçek yaşam problemlerine bu tür yaklaşımları uygulamak yer alıyor. Örneğin, Eğitim ve/veya eğitim programlarında duygu tanıma… “

Kaynak:
TechXplore
Etiketler
1 Oy2 Oy3 Oy4 Oy5 Oy (2 oy verildi, Ortalama: 5 üzerinden 5,00 oy )
Loading...

Benzer Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Close