MIT

MIT araştırmacıları “daraltılmış” görüntüleri ve videoları daha düşük boyutlara getiren bir model geliştirdiler.

Model, hareket bulanıklığı olan görüntülerden veya yeni tip kameralardan gelen görüntüleri yeniden oluşturmak için kullanılabilir.

Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) Araştırmacı Guha Balakrishnan:

”Tüm bu durumlarda, görsel verinin bir boyutu vardır (zaman veya uzayda) tamamen kaybolur. Kayıp boyutu kurtarırsak, birçok önemli uygulamaya sahip olabilir.”

Yakalanan görsel verilere genellikle çökmeler veya çıkıntılar denir. Örneğin, X-ışınları, anatomik yapılar hakkındaki üç boyutlu verileri düz bir görüntü haline getirir. Başka bir açıdan ise; gökyüzünde uzun süre pozlu bir yıldız çekimi yapıldığında, pozisyonu zaman içinde değişen yıldızlar, hareketsiz çekimde bulanık çizgiler olarak görünür.

Aynı şekilde, MIT’de yakın zamanda icat edilen “köşe kameraları” köşeleri dolanan insanları algılar. Bunlar, yanan binalarda insanları bulan itfaiyeciler için faydalı olabilir. Ancak kameralar tam olarak kullanıcı dostu değil. Şu anda sadece bir kişinin yörüngesine ve hızına karşılık gelen bulanık, dalgalı çizgiler gibi görünen çıkıntılar üretiyorlar.

Araştırmacılar, düşük boyutlu projeksiyonları orijinal yüksek boyutlu görüntü ve videolarıyla eşleşen kalıpları “öğrenmek” için bir sinir ağını kullanan bir “Dep Görsel Deprojeksiyon” modelini icat ettiler. Yeni projeksiyonlar göz önüne alındığında, model yeniden yaratmayı öğrendiği şeyi kullanır.

Deneylerde model; yürüyen insanı gösteren, video kameraları köşe kameraları tarafından oluşturulanlara benzer, tek boyutlu çizgilerden bilgi alan doğru video kareleri sentezledi. Model ayrıca, hareketli bulanık tek haneli basamak projeksiyonlarından, hareketli MoIST MNIST veri setinden bir ekran etrafında hareket eden video karelerini de kurtardı.

Piksel Olarak İpuçları

Araştırmacı Balakrishnan; çalışmanın, uzun pozlama fotoğraflarında hareket bulanıklığına neden olan hareketi yeniden oluşturmak için “hafif bir inversiyon sorunu” olarak başladığını söyledi. Bir projeksiyonun piksellerinde, yüksek boyutlu kaynak hakkında bazı ipuçları vardır.

Örneğin uzun pozlamalı çekimler yapan dijital kameralar, temel olarak her piksele belirli bir süre boyunca fotonları toplar. Bir nesnenin zaman içindeki hareketini yakalarken, kamera hareket yakalama piksellerinin ortalama değerini alır. Ardından, bu ortalama değerleri; nesnenin yörüngesinin imza bulanık çizgilerini oluşturan durağan bir görüntünün karşılık gelen yüksekliklerine ve genişliklerine uygular. Piksel yoğunluğundaki bazı farklılıkları hesaplayarak, hareket teorik olarak yeniden yaratılabilir.

Araştırmacıların farkına vardığı gibi, bu sorun birçok alanda geçerlidir: Örneğin, X-ışınları, anatomik yapıların yükseklik, genişlik ve derinlik bilgilerini yakalar, ancak derinliği 2D görüntüye daraltmak için benzer bir piksel ortalamalama tekniği kullanırlar. 2017’de Freeman, Durand ve diğer araştırmacılar tarafından icat edilen köşe kameraları, bir kişinin duvarlardan ve nesnelerden uzaklığı hakkında iki boyutlu bilgiler taşıyan gizli bir sahnenin etrafındaki yansıyan ışık sinyallerini yakalar. Daha sonra piksel ortalamalama tekniği; bu verileri tek boyutlu bir videoya daraltır. Bunlar; temel olarak, zaman içinde farklı uzunluklarda tek bir satırda ölçümlerdir.

Araştırmacılar, ortalama bir pikselde kaybedilen boyut hakkında ipuçlarını yakalayan, görüntü işleme görevlerinin güç kaynağı haline gelen bir makine öğrenme modeli olan Evrimsel Sinir Ağı’na (CNN) dayanan genel bir model oluşturdu.

Sentezleme Sinyalleri

Eğitimde, araştırmacılar; CNN’e binlerce projeksiyon çiftini ve “sinyaller” adı verilen yüksek boyutlu kaynaklarını beslediler. CNN, sinyallerdekilerle eşleşen projeksiyonlarda piksel desenlerini öğrenir. CNN’e güç vermek; CNN çıkışlarının bazı istatistiksel olasılıklar boyunca girdileriyle ne kadar iyi eşleştiğini değerlendiren “değişken otomatik kodlayıcı” adı verilen bir çerçevedir.

Bundan, model verilen projeksiyonu üretebilecek tüm olası sinyallerin bir “alanını” öğrenir. Bu, özünde, bir projeksiyondan olası tüm eşleşme sinyallerine nasıl gidileceğine dair bir tür taslak oluşturur.

Daha önce görülmeyen projeksiyonlar gösterildiğinde; model piksel desenlerini not eder ve planları bu projeksiyonu üretebilecek tüm olası sinyallere takip eder. Ardından, projeksiyondaki tüm verileri ve sinyaldeki tüm verileri birleştiren yeni görüntüler sentezler. Bu, yüksek boyutlu sinyali yeniden yaratır.

Bir deney için, araştırmacılar; belirli bir alanda yürüyen 30 kişiden 35 video veri seti topladı. Tüm kareleri; modeli eğitmek ve test etmek için kullandıkları projeksiyonlara daralttı. Model; görünmeyen altı çıkıntıdan oluşan bir setten, kişinin yürüyüşünün 24 karesini, bacaklarının pozisyonuna ve kişinin fotoğraf makinesine doğru ya da uzaklaşırken ölçtüğü boyuta kadar doğru bir şekilde yeniden yarattı. Örneğin, model zamanla koyulaşan ve genişleyen piksellerin muhtemelen kameraya yakın olan bir kişiye karşılık geldiğini biliyor gibi görünüyor.

Araştırmacılar; modellerini tıbbi görüntüler üzerinde test etmediler. Fakat Cornell Üniversitesi meslektaşları ile birlikte çalışarak, X-ışınları gibi 2D tıbbi görüntülerden 3D anatomik bilgileri; ek maliyet gerektirmeden, daha fakir ülkelerde daha ayrıntılı tıbbi görüntülemeyi mümkün kılacak.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

You May Also Like

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

Cep telefonlarının, akıllı saatlerin ve diğer giyilebilir cihazların daha yeni bir model…

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Yeni teknoloji, yoğun bakım ünitesi (YBÜ) tedavisine ihtiyaç duyan hastaları belirleyerek COVID-19…

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

  Yapay zeka araştırma şirketi OpenAI, doğal dili programlama koduna çeviren bir…

AI’ye Karanlıkta Renkleri Tanımlamayı Öğretmek

California Üniversitesi‘ndeki bir araştırma ekibi, karanlıkta sınırlı renk görüşü sağlamak için derin…