HSE Üniversitesinden bir bilim insanı; analoglardan % 40 daha hızlı çalışan bir görüntü tanıma algoritması geliştirdi. Bu algoritma; video tabanlı görüntü tanıma sistemlerinin gerçek zamanlı işlenmesini hızlandırabilir. Çalışmanın sonuçları Information Sciences dergisinde yayınlandı. Bir dizi evrişimli sinir ağları (CNN’ler), bilgisayarla görmede yaygın olarak kullanılmaktadır. Bir ağdaki her katmanın bir girişi ve bir çıkışı vardır. Görüntünün dijital tanımı; birinci katmanın girişine gider ve çıktıda farklı bir sayı kümesine dönüştürülür. Sonuç, sonraki katmanın girişine gider ve bu şekilde, görüntüdeki nesnenin sınıf etiketi son katmanda tahmin edilinceye kadar devam eder. Örneğin bu sınıf; bir kişi, kedi veya sandalye olabilir. Bunun için bir CNN, bilinen bir sınıf etiketine sahip bir dizi görüntü üzerinde eğitilir. Veri kümesindeki her bir sınıfa ait görüntülerin sayısı ve değişkenliği ne kadar büyükse; eğitimli ağ; o kadar doğru olacaktır. Eğitim setinde sadece birkaç örnek varsa, sinir ağının ek eğitimi (ince ayar) kullanılır. CNN, orijinal sorunu çözen benzer bir veri kümesindeki görüntüleri tanımak üzere eğitilmiştir. Örneğin, bir sinir ağı yüzleri veya özniteliklerini (duygular, cinsiyet, yaş) tanımayı öğrendiğinde, ünlüleri fotoğraflarından ayırt etmek için önceden eğitilir. Geliştirilen bu sinir ağı; daha sonra ev video gözetim sistemlerinde ailenin veya akrabaların yüzlerini tanımlamak için, mevcut küçük veri setinde ince ayar yapılır. Bir CNN’de katmanların derinliği (sayısı) ne kadar fazlaysa, görüntüdeki nesnenin türünü o kadar doğru tahmin eder. Bununla birlikte, katman sayısı artarsa; nesneleri tanımak için daha fazla zaman gerekir.
Profesör Andrey Savchenko, deneylerinde 90-780 katmandan oluşan, keyfi mimariye sahip önceden eğitilmiş bir evrişimsel sinir ağının çalışmasını hızlandırmayı başardı. Sonuç, doğruluktaki kayıp % 0,5-1’den fazla olmayacak şekilde kontrol edilirken, tanıma hızında % 40’a varan bir artış oldu. Araştırmacı, sıralı analiz ve çoklu karşılaştırmalar (çoklu hipotez testi) gibi istatistiksel yöntemlere güvendi. Görüntü tanıma problemindeki karar, girdi olarak bir sayı dizisi (bir görüntünün özellikleri / yerleştirmeleri) alan ve görüntünün hangi sınıfa ait olduğu hakkında bir tahmin çıkaran özel bir matematik algoritması olan bir sınıflandırıcı tarafından verilir. Sınıflandırıcı, sinir ağının herhangi bir katmanının çıktılarını besleyerek uygulanabilir. ‘Basit’ görüntüleri tanımak için, sınıflandırıcının yalnızca sinir ağının ilk katmanlarından gelen verileri (çıktıları) analiz etmesi gerekir.
Profesör Savchenko: “Verilen kararın güvenilirliğinden zaten eminsek, daha fazla zaman kaybetmemize gerek yok. ‘Karmaşık’ resimler için, ilk katmanlar açıkça yeterli değildir, bir sonrakine geçmeniz gerekir. Bu nedenle, sınıflandırıcılar; sinir ağına birkaç ara katmanla eklenmiştir. Girdi görüntüsünün karmaşıklığına bağlı olarak, önerilen algoritma; onu tanımaya devam edip etmemeye veya tamamlamaya karar verdi. Böyle bir prosedürdeki hataları kontrol etmek önemli olduğu için, çoklu karşılaştırma teorisini uyguladım: Ara katmanın duracağı birçok hipotez getirdim ve bu hipotezleri sırayla test ettim.”
Birinci sınıflandırıcı, çoklu hipotez testi prosedürü tarafından güvenilir kabul edilen bir kararı zaten verdiyse; algoritma duruyor. Karar güvenilmez ilan edilirse, sinir ağındaki hesaplamalar ara katmana kadar devam eder ve güvenilirlik kontrolü tekrarlanır.
Savchenko’nun belirttiği gibi, sinir ağının son katmanlarının çıktıları için en doğru karar alınır. Erken ağ çıktıları çok daha hızlı sınıflandırılır, bu da doğruluktaki kaybı kontrol ederken tanımayı hızlandırmak için tüm sınıflandırıcıları aynı anda eğitmek gerektiği anlamına gelir. Örneğin, daha erken bir durdurmadan kaynaklanan hata % 1’den fazla olmamalıdır.
Profesör Savchenko: “Görüntü tanıma için yüksek doğruluk her zaman önemlidir. Örneğin, yüz tanıma sistemlerinde bir karar yanlış verilirse, o zaman ya dışarıdaki biri gizli bilgilere erişebilir ya da tam tersine, sinir ağı tanımlayamadığı için kullanıcının erişimi defalarca reddedilecektir. Hız bazen feda edilebilir, ancak bu önemlidir. Örneğin, gerçek zamanlı olarak, yani kare başına en fazla 20-30 milisaniyeden fazla karar vermenin çok istendiği video gözetim sistemlerinde bu olur. Bir video karesinde, doğruluğu kaybetmeden hızlı hareket etmek çok önemlidir. “
Comments