Yazılım

Görüntü ve Videoların “Kayıp Boyutlarını” Kurtaran Yeni Model

MIT araştırmacıları “daraltılmış” görüntüleri ve videoları daha düşük boyutlara getiren bir model geliştirdiler.

 MIT araştırmacıları “daraltılmış” görüntüleri ve videoları daha düşük boyutlara getiren bir model geliştirdiler.

 Model, hareket bulanıklığı olan görüntülerden veya yeni tip kameralardan gelen görüntüleri yeniden oluşturmak için kullanılabilir. 

Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) Araştırmacı Guha Balakrishnan:

”Tüm bu durumlarda, görsel verinin bir boyutu vardır (zaman veya uzayda) tamamen kaybolur. Kayıp boyutu kurtarırsak, birçok önemli uygulamaya sahip olabilir.”

 Yakalanan görsel verilere genellikle çökmeler veya çıkıntılar denir.  Örneğin, X-ışınları, anatomik yapılar hakkındaki üç boyutlu verileri düz bir görüntü haline getirir. Başka bir açıdan ise; gökyüzünde uzun süre pozlu bir yıldız çekimi yapıldığında, pozisyonu zaman içinde değişen yıldızlar, hareketsiz çekimde bulanık çizgiler olarak görünür.

 Aynı şekilde, MIT’de yakın zamanda icat edilen “köşe kameraları” köşeleri dolanan insanları algılar.  Bunlar, yanan binalarda insanları bulan itfaiyeciler için faydalı olabilir.  Ancak kameralar tam olarak kullanıcı dostu değil.  Şu anda sadece bir kişinin yörüngesine ve hızına karşılık gelen bulanık, dalgalı çizgiler gibi görünen çıkıntılar üretiyorlar.

 Araştırmacılar, düşük boyutlu projeksiyonları orijinal yüksek boyutlu görüntü ve videolarıyla eşleşen kalıpları “öğrenmek” için bir sinir ağını kullanan bir “Dep Görsel Deprojeksiyon” modelini icat ettiler.  Yeni projeksiyonlar göz önüne alındığında, model yeniden yaratmayı öğrendiği şeyi kullanır.

 Deneylerde model; yürüyen insanı gösteren, video kameraları köşe kameraları tarafından oluşturulanlara benzer, tek boyutlu çizgilerden bilgi alan doğru video kareleri sentezledi.  Model ayrıca, hareketli bulanık tek haneli basamak projeksiyonlarından, hareketli MoIST MNIST veri setinden bir ekran etrafında hareket eden video karelerini de kurtardı.

Piksel Olarak İpuçları

 Araştırmacı Balakrishnan; çalışmanın, uzun pozlama fotoğraflarında hareket bulanıklığına neden olan hareketi yeniden oluşturmak için “hafif bir inversiyon sorunu” olarak başladığını söyledi.  Bir projeksiyonun piksellerinde, yüksek boyutlu kaynak hakkında bazı ipuçları vardır.

 Örneğin uzun pozlamalı çekimler yapan dijital kameralar, temel olarak her piksele belirli bir süre boyunca fotonları toplar.  Bir nesnenin zaman içindeki hareketini yakalarken, kamera hareket yakalama piksellerinin ortalama değerini alır.  Ardından, bu ortalama değerleri; nesnenin yörüngesinin imza bulanık çizgilerini oluşturan durağan bir görüntünün karşılık gelen yüksekliklerine ve genişliklerine uygular.  Piksel yoğunluğundaki bazı farklılıkları hesaplayarak, hareket teorik olarak yeniden yaratılabilir.

 Araştırmacıların farkına vardığı gibi, bu sorun birçok alanda geçerlidir: Örneğin, X-ışınları, anatomik yapıların yükseklik, genişlik ve derinlik bilgilerini yakalar, ancak derinliği 2D görüntüye daraltmak için benzer bir piksel ortalamalama tekniği kullanırlar.  2017’de Freeman, Durand ve diğer araştırmacılar tarafından icat edilen köşe kameraları, bir kişinin duvarlardan ve nesnelerden uzaklığı hakkında iki boyutlu bilgiler taşıyan gizli bir sahnenin etrafındaki yansıyan ışık sinyallerini yakalar.  Daha sonra piksel ortalamalama tekniği; bu verileri tek boyutlu bir videoya daraltır. Bunlar; temel olarak, zaman içinde farklı uzunluklarda tek bir satırda ölçümlerdir.

 Araştırmacılar, ortalama bir pikselde kaybedilen boyut hakkında ipuçlarını yakalayan, görüntü işleme görevlerinin güç kaynağı haline gelen bir makine öğrenme modeli olan Evrimsel Sinir Ağı’na (CNN) dayanan genel bir model oluşturdu.

Sentezleme Sinyalleri

 Eğitimde, araştırmacılar; CNN’e binlerce projeksiyon çiftini ve “sinyaller” adı verilen yüksek boyutlu kaynaklarını beslediler. CNN, sinyallerdekilerle eşleşen projeksiyonlarda piksel desenlerini öğrenir.  CNN’e güç vermek; CNN çıkışlarının bazı istatistiksel olasılıklar boyunca girdileriyle ne kadar iyi eşleştiğini değerlendiren “değişken otomatik kodlayıcı” adı verilen bir çerçevedir.  

Bundan, model verilen projeksiyonu üretebilecek tüm olası sinyallerin bir “alanını” öğrenir.  Bu, özünde, bir projeksiyondan olası tüm eşleşme sinyallerine nasıl gidileceğine dair bir tür taslak oluşturur.

 Daha önce görülmeyen projeksiyonlar gösterildiğinde; model piksel desenlerini not eder ve planları bu projeksiyonu üretebilecek tüm olası sinyallere takip eder.  Ardından, projeksiyondaki tüm verileri ve sinyaldeki tüm verileri birleştiren yeni görüntüler sentezler.  Bu, yüksek boyutlu sinyali yeniden yaratır.

 Bir deney için, araştırmacılar; belirli bir alanda yürüyen 30 kişiden 35 video veri seti topladı.  Tüm kareleri; modeli eğitmek ve test etmek için kullandıkları projeksiyonlara daralttı.  Model; görünmeyen altı çıkıntıdan oluşan bir setten, kişinin yürüyüşünün 24 karesini, bacaklarının pozisyonuna ve kişinin fotoğraf makinesine doğru ya da uzaklaşırken ölçtüğü boyuta kadar doğru bir şekilde yeniden yarattı.  Örneğin, model zamanla koyulaşan ve genişleyen piksellerin muhtemelen kameraya yakın olan bir kişiye karşılık geldiğini biliyor gibi görünüyor.

 Araştırmacılar; modellerini tıbbi görüntüler üzerinde test etmediler.  Fakat  Cornell Üniversitesi meslektaşları ile birlikte çalışarak, X-ışınları gibi 2D tıbbi görüntülerden 3D anatomik bilgileri; ek maliyet gerektirmeden, daha fakir ülkelerde daha ayrıntılı tıbbi görüntülemeyi mümkün kılacak. 

Kaynak:
MIT
Etiketler
1 Oy2 Oy3 Oy4 Oy5 Oy (1 oy verildi, Ortalama: 5 üzerinden 5,00 oy )
Loading...

Benzer Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgini Çekebilir

Close
Close