Yazılım

Sahte Haber Dedektörleri

Çalışma, AI modellerinin olgusal ve yanlış makalelere bağlandığı dil kalıplarını ortaya çıkarmaktadır.

MIT araştırmacılarının yeni çalışmaları; “otomatik sahtekarlık algılama sistemi” başlığı altında çalışmakta ve makine öğrenimi modellerinin gerçek ve yanlış hikayelerin dilinde nasıl ince; fakat tutarlı farklılıklar yakaladığını ortaya koymaktadır. Araştırma ayrıca; sahte haber dedektörlerinin gerçek dünyadaki uygulamalarda etkili olmak için nasıl daha sıkı testlerden geçmesi gerektiğini vurgulamaktadır.

Amerika Birleşik Devletleri’nde cumhurbaşkanlığı seçimleri sırasında bir kavram olarak popüler olan sahte haberler; web siteleri hakkında görüş bildirmek veya kamuoyunu ve okuyucuları yanlış yönlendirmek için oluşturulmuş bir propaganda türüdür. Bunu anlayabilmek için araştırmacılar; sahte makaleleri gösteren, dil ipuçlarını tanımak için veri puanlarından “öğrenen sinir ağları” adı verilen otomatik sahte haber dedektörleri geliştirmeye başladı. Değerlendirilecek yeni makaleler göz önüne alındığında, bu ağlar; oldukça yüksek doğrulukla, kontrollü ortamlarda gerçeği kurgudan ayırabilir.

Bununla birlikte, sorunlardan biri, “kara kutu” sorunudur; yani, ağların eğitim sırasında hangi dilsel kalıpları analiz ettiğini söyleyen hiçbir şey yoktur. Ayrıca aynı konularda eğitildiler ve test edildiler; bu da internet üzerinden haberleri analiz etme zorunluluğu olan yeni konulara genelleme potansiyellerini sınırlayabiliyor. Konferansta ve Sinirsel Bilgi İşlem Sistemleri Çalıştayı’nda sunulan bir bildiride araştırmacılar; bu iki konuyu da ele almaktadır. Sahte ve gerçek haberlerin dil kalıplarını tespit etmeyi öğrenen, derin öğrenme modeli geliştirdiler.

Çalışmalarının bir kısmı, kara kutudaki “çatlakları açar.” Böylece modelin tahminlerini yapmak için yakaladığı kelimeleri ve cümleleri rahatça bulabildiler.

Ek olarak, modellerini eğitimde görmediği yeni bir konu üzerinde test ettiler. Bu yaklaşım, bireysel makaleleri; yalnızca haber okuyucular için, gerçek dünya uygulamasını daha yakından temsil eden, dil modellerine göre sınıflandırır. Geleneksel sahte haber dedektörleri, Wikipedia sayfası veya web sitesi gibi kaynak bilgilerle birleştirilen metne göre de makaleleri sınıflandırır.

Beyin ve Bilişsel Bilimler Bölümü (BCS) Beyin, Zihin ve Makineler Merkezi’nde (CBMM) Eugene McDermott Profesörü Tomaso Poggio Laboratuvarı’nda Postdoc Yardımcı Yazarı Xavier Boix: “Bizim durumumuzda, sınıflandırıcının sadece dile dayalı karar verme sürecinin ne olduğunu anlamak istedik. Çünkü bu, bize; sahte haberlerin dili hakkında bir fikir verebilir.”

Model, gerçek veya sahte haberlerde daha sık görünme eğiliminde olan sözcük kümelerini tanımlar. Bunlardan bazıları açıktır, bazıları ise daha az açıktır… Araştırmacılar, bulguların, sahte haberlerde; (abartı ve üstünlükleri destekleyen) ancak “muhafazakar” kelime seçimlerine daha fazla eğilen, gerçek haberleri inceleyen, ama tutarlı olan farklılıkları işaret ediyor.

Sınırlayıcı Önyargı

Araştırmacıların modeli; sahte haber ve gerçek haber veri seti üzerinde çalışan, evrişimsel bir sinir ağıdır. Eğitim ve test için, araştırmacılar; 244 farklı web sitesinden yaklaşık 12.000 sahte haber örnek makalesi içeren Kaggle adlı popüler bir sahte haber araştırma veri setini kullandılar. Ayrıca New York Times’tan 2.000’den fazla ve The Guardian’dan 9.000’den fazla gerçek haber örneklerinden oluşan bir veri seti derlediler.

Eğitimde model, bir makalenin dilini, kelimelerin vektör olarak temsil edildiği “kelime gömme” (word embeddings) olarak yakalar. (Temel olarak, sayı dizileri; benzer anlamsal manaların kelimeleri ile biraraya getirilmiştir.) Bunu yaparken, politik bir parti hakkında yapılan olumsuz bir yorum gibi bazı durumları sağlayan kalıplar şeklinde üçlü kelimeleri de yakalar. Yeni bir makaleye bakıldığında; model metni benzer kalıpları tarar ve bunları bir dizi katmana gönderir. Son bir çıktı katmanı, her desenin olasılığını belirler: Gerçek veya sahte…

Araştırmacılar, aynı konuları kullanarak; ilk önce modeli geleneksel şekilde eğitmiş ve test etmiştir. Ancak bunun, modelde doğal bir önyargı yaratabileceğini düşündüler, çünkü bazı konular daha çok sahte ya da gerçek haberlere konu oluyor. Örneğin, sahte haberlerin genellikle “Trump” ve “Clinton” kelimelerini içermesi daha muhtemeldir.

O’Brien: “Ama istediğimiz bu değil. Bu sadece sahte ve gerçek haberlerde çok ağır olan konuları gösteriyor. Ancak bu bize yeterli gelmedi: Dilde oluşan gerçek kalıpları ve bunun göstergesini bulmak istedik. ”

Daha sonra, araştırmacılar modeli; “Trump” kelimesinden söz etmeden tüm konularda eğitmişler ve modeli yalnızca eğitim verilerinden ayrı ve “Trump” kelimesini içeren örnekler üzerinde test etmişlerdir. Bu testte yüzde 93; ikinci yaklaşımda da yüzde 87 doğruluğa ulaşıldı. Araştırmacılar, bu doğruluk açığı olan modelin; yeni konularda öğrendiğini genelleştirebilmesi için, eğitim sürecinden çıkan konuları kullanmanın önemini vurgulamaktadır.

Daha Fazla Araştırma Gerekli…

“Kara kutu”yu açmak için araştırmacılar; çalışmalarını adım adım yürüttüler. Bu deneyde model, bu üçerli kelimelerden her biri hakkında tahminde bulunurken, üçerli grubun gerçek veya sahte olup olmamasına bağlı olarak; modelin belirli bir kısmı aktive olur. Araştırmacılar bu şekilde; her bir tahminde belirtilen bölüme geri dönecek ve daha sonra onu aktif hale getiren kelimeleri tam olarak bulabilecek bir yöntem tasarladı.

Boix, bu bilgilerin okuyucular için ne kadar yararlı olduğunu belirlemek için daha fazla araştırmaya ihtiyaç olduğunu söylüyor. Gelecekte, model; okuyuculara yanlış bilgilerle mücadelede bir avantaj sağlamak için, otomatik durum denetleyicilerle ve diğer araçlarla potansiyel olarak birleştirilebilir. Bazı ayrıntılandırmalardan sonra, model; okuyucuları potansiyel sahte haber diline karşı uyaran, bir tarayıcı uzantısının veya uygulamasının temeli de olabilir.

Kaynak:
MIT
Etiketler
1 Oy2 Oy3 Oy4 Oy5 Oy (3 oy verildi, Ortalama: 5 üzerinden 5,00 oy )
Loading...

Benzer Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgini Çekebilir

Close
Close