Yazılım

Yeni Bir Vizyon Modeli

Yüz işlemenin bilgisayar model; beynin zengin ayrıntılı görsel sunumları, nasıl bu kadar hızlı ürettiğini ortaya çıkarabilir.

Yüz işlemenin bilgisayar modeli; beynin zengin ayrıntılı görsel sunumları, nasıl bu kadar hızlı ürettiğini ortaya çıkarabilir.

Gözlerimizi açtığımızda, çevremizi anında ayrıntılı olarak görebiliyoruz. Beynin dünyanın bu zengin ayrıntılı temsillerini; nasıl bu kadar hızlı bir şekilde oluşturabildiği, vizyon çalışmasındaki en büyük çözülmemiş bulmacalardan biridir.

Beyni inceleyen bilim insanları; bu fenomeni bilgisayar görme modellerini kullanarak kopyalamaya çalıştılar. Ancak şimdiye kadar önde gelen modeller, sadece bir nesneyi veya yüzü; karmaşık bir arka planda seçmek gibi çok daha basit görevleri yerine getirebildi.

MIT’den bilişsel alanda çalışan bilim insanları tarafından yönetilen bir ekip ise; insan görsel sisteminin bir görüntüden hızlı bir şekilde ayrıntılı bir sahneyi açıklama yeteneğini yakalayan ve beynin bunu nasıl başardığına dair bazı fikirler sunan bir bilgisayar modeli üretti.

MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) ve Beyin, Zihin ve Makine Merkezi (CBMM) Üyesi, Bilişsel Bilim Profesörü Josh Tenenbaum: “Bu çalışmada yapmaya çalıştığımız şey, algının; bir görüntünün bölümlerine anlamsal etiketler yapıştırmakta ne kadar zengin olabileceğini açıklamak ve tüm fiziksel dünyayı nasıl gördüğümüz sorusunu araştırmaktır.”

Yeni model, beyin görsel girdi aldığında; bir bilgisayar grafik programının bir yüzün veya başka bir nesnenin 2D gösterimini oluşturmak için kullanacağı adımları tersine çeviren bir dizi hesaplama gerçekleştirdiğini ortaya koyuyor. Verimli Ters Grafikler (EIG) olarak bilinen bu model türü; insan olmayan primatların beynindeki yüz seçici bölgelerden gelen elektrik kayıtları ile de iyi ilişkilidir. Araştırmacılara göre bu da; primat görsel sistemin, bilgisayar modeliyle aynı şekilde düzenlenebileceğini düşündürmektedir.

Ters Grafikler

Beynin görsel sistemi üzerinde onlarca yıl süren araştırmalar; retinaya ışık girdisinin nasıl uyumlu sahnelere dönüştürüldüğünü ayrıntılı olarak inceledi. Bu anlayış, yapay zeka araştırmacılarının; yüzleri veya diğer nesneleri tanıma gibi, bu sistemin yönlerini kopyalayabilen bilgisayar modelleri geliştirmelerine yardımcı olmuştur.

Araştırmacı Tenenbaum: “Vizyon; insanlarda ve diğer hayvanlarda beynin en iyi anladığımız işlevsel yönüdür. Bilgisayar görüşü, bu noktada yapay zekanın en başarılı alanlarından biri… Makinelerin artık resimlere bakabildiklerini, yüzleri çok iyi tanıdıklarını ve diğer nesne türlerini algılayabildiklerini kabul ediyoruz. ”

Yale Üniversitesi Psikoloji Yardımcı Profesörü İlker Yıldırım: “Ancak bu sofistike yapay zeka sistemleri bile insan görsel sisteminin yapabileceklerine yaklaşamıyor. Beynimiz sadece orada bir nesne olduğunu tespit etmiyor ya da bir şeyin üzerine bir etiket koyup tanımıyor. Ayrıca tüm şekilleri, geometriyi, yüzeyleri, dokuları görüyoruz. Bu yüzden çok zengin bir dünya görüyoruz. ”

Bir asırdan daha uzun bir süre önce, doktor, fizikçi ve filozof Hermann von Helmholtz; beynin görüntü oluşturma sürecini tersine çevirerek bu zengin temsili yarattığını teorize etti. Görsel sistemin, örneğin; rüyalar sırasında gördüğümüz yüzleri üretmek için kullanılacak bir “görüntü oluşturucu” içerdiğini varsaydı. Araştırmacılar; bu jeneratörü tersine çalıştırmak beynin görüntüden geriye doğru çalışmasına ve bu görüntüyü ne tür bir yüzün veya başka bir nesnenin üreteceğin olduğunu belirlemesine izin verecektir.

Ancak, araştırmacılar bir sorunda takılı kaldılar: Beyin; ters grafik olarak bilinen bu süreci nasıl bu kadar hızlı gerçekleştirebilir? Bilgisayar bilimcileri bu başarıyı gerçekleştirebilecek algoritmalar oluşturmaya çalıştı. Ancak önceki en iyi sistemler; beynin gördüğünüz şeyin ayrıntılı bir görsel temsilini oluşturmak için, ihtiyaç duyduğu 100 ila 200 milisaniyeden daha uzun süren yinelemeli işlem döngülerine ihtiyaç duyuyor. Sinirbilimciler; beyindeki algının çok hızlı ilerleyebileceğine inanıyorlar, çünkü sinirsel işlemin hiyerarşik olarak organize edilmiş birkaç katmanından çoğunlukla ileriye doğru bir geçişte uygulanıyor.

MIT liderliğindeki ekip; bir sinir hiyerarşisinin bir sahnenin (bu durumda belirli bir yüzün) temel özelliklerini hızlı bir şekilde nasıl çıkarabileceğini göstermek için, özel bir tür derin sinir ağı modeli oluşturmaya başladı. Bilgisayar görüşünde kullanılan ve görüntüdeki bir nesnenin sınıfını gösteren etiketli verilerden eğitilen standart derin sinir ağlarının aksine; araştırmacıların ağı, beynin yüzleri olan sahnelerin neler yapabileceğinin iç temsillerini yansıtan bir modelden eğitilmiştir.

Bu nedenle modelleri, yüzleri oluşturmak için bir bilgisayar grafik programı tarafından gerçekleştirilen adımları tersine çevirmeyi öğrenir. Bu grafik programları; tek bir yüzün üç boyutlu bir gösterimi ile başlar ve daha sonra belirli bir bakış açısından görüldüğü gibi onu iki boyutlu bir görüntüye dönüştürür. Bu görüntüler keyfi bir arka plan görüntüsüne yerleştirilebilir. Araştırmacılar; birisinin yüzünün zihinsel bir görüntüsünü hayal ettiğinizde veya oluşturduğunuzda beynin görsel sisteminin benzer bir şey yapabileceğini teorize eder.

Araştırmacılar; bu adımları tersine çevirmek için derin sinir ağlarını eğittiler; yani 2D görüntü ile başlıyor ve daha sonra araştırmacıların “2.5D” temsili olarak adlandırdığı şeyi oluşturmak için doku, eğrilik ve aydınlatma gibi özellikler ekliyorlar. Bu 2.5D görüntüler; belirli bir bakış açısından yüzün şeklini ve rengini belirler. Bunlar daha sonra bakış açısına bağlı olmayan 3D temsillere dönüştürülür.

Profesör Yıldırım: “Model, beynin yüzlerinin işlenmesine ilişkin sistem düzeyinde bir hesap vererek, bir görüntüyü görmesine ve sonuçta, 2.5D görüntünün bu önemli ara aşamasıyla şekil ve doku temsillerini içeren bir 3D nesneye ulaşmasına izin veriyor.”

Model Performansı

Araştırmacılar; modellerinin makak maymunlarının beyinlerindeki belirli bölgeleri inceleyerek, elde edilen verilerle tutarlı olduğunu buldular. 2010 yılında yayınlanan bir çalışmada, Caltech’ten Freiwald ve Doris Tsao; bu bölgelerdeki nöronların aktivitesini kaydettiler ve yedi farklı bakış açısıyla görülen 25 farklı yüze nasıl tepki verdiklerini analiz ettiler. Bu çalışma; MIT ekibinin şimdi ters grafik modellerinin üç aşamasına karşılık geldiği varsayımlarında olan, üst düzey yüz işlemenin üç aşamasını ortaya çıkardı: Kabaca 2.5D bakış açısına bağımlı bir aşama; 2.5’ten 3D’ye köprü olan bir sahneve yüz temsilinin 3 boyutlu bakış açısıyla değişmeyen aşaması…

Araştırmacı Tenenbaum: “Gösterdiğimiz, beynin bu üç seviyesinin hem nicel hem de nitel tepki özelliklerinin, inşa ettiğimiz ağın ilk üç seviyesine oldukça iyi uyduğu görülüyor. Araştırmacılar ayrıca, farklı bakış açılarından yüzleri tanımayı içeren bir görevde modelin performansını insanlarla karşılaştırdı. Araştırmacılar; dokusunu koruyup yüzünü değiştirerek veya göreli dokuyu koruyarak yüz şeklini bozup, görevi zorlaştırdılar. Yeni modelin performansı; son teknoloji yüz tanıma yazılımında kullanılan bilgisayar modellerinden çok, insanlara benziyordu. Bu sistem; modelin insan görsel sisteminde olanları taklit etmeye daha yakın olabileceğine dair ek kanıtlar sağlıyor.

Columbia Üniversitesi Psikoloji ve Sinirbilim Profesörü Nikolaus Kriegeskorte: “Bu çalışma heyecan verici, çünkü ara yüz; temsili bir sinir ağı ağ tanıma modeline yorumlanabilir aşamalar sunuyor. Yaklaşımları, vizyonun görüntünün nasıl oluşturulduğuna dair bir modeli modern derin ileri besleme ağlarıyla tersine çevirdiği klasik fikri birleştiriyor. Bu modelin sinirsel gösterimleri ve davranışsal yanıtları daha iyi açıklaması çok ilginç… ”

Araştırmacılar şimdi, ters grafiklerin beynin diğer tür sahneleri nasıl algıladığını açıklayıp açıklayamayacağını araştırmak için; modelleme yaklaşımını yüz olmayan nesneler de dahil olmak üzere ek görüntüler üzerinde test etmeye devam etmeyi planlıyorlar. Ayrıca, bu yaklaşımı bilgisayar vizyonuna uyarlamanın; daha iyi performans gösteren AI sistemlerine yol açabileceğine inanıyorlar.

Araştırmacı Tenenbaum: “Bu modellerin beynin nasıl çalıştığına karşılık gelebileceğine dair kanıt gösterebilirsek, bu çalışma; bilgisayar görme araştırmacılarının daha ciddiye almasına ve algılamaya yönelik bu ters grafik yaklaşımına daha fazla mühendislik kaynağı yatırmasına yol açabilir. Beyin; dünyayı zengin ve hızlı gören her türlü makine için hala altın standarttır.”

Kaynak:
MIT
Etiketler
1 Oy2 Oy3 Oy4 Oy5 Oy (1 oy verildi, Ortalama: 5 üzerinden 5,00 oy )
Loading...

Benzer Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgini Çekebilir

Close
Close