On kat daha büyük sinir ağlarını eğitmek için, işlem gücümüzü boşa harcıyoruz.
Yapay sinir ağları; derin öğrenmenin temel yazılımıdır. Çok yaygın olmalarına rağmen, çok az anlaşılmışlar. Araştırmacılar, ortaya çıkan özelliklerin ne olduğu veya neden çalıştıkları gibi sorulara, gözlemlerinde tam olarak cevap bulamadılar.
MIT‘den yeni bir makale bu soruyu cevaplamak için büyük bir adım attı. Bu süreçte araştırmacılar; basit ama çarpıcı bir keşifte bulundular.
Gerçekte ihtiyaç duyduğumuzdan çok daha büyük sinir ağları kullanıyoruz. Bazı durumlarda sinir ağları 10, hatta 100 kat daha büyüktür, bu nedenle onları eğitmek bize gerekenden daha fazla zaman ve hesaplama gücü sağlar.
Başka bir deyişle, her sinir ağının içinde, büyük boy veri ile aynı performansı elde etmek için eğitilebilecek çok daha küçük bir ağ bulunmaktadır. Bu, AI araştırmacıları için sadece heyecan verici bir haber değil. Bulgu aynı zamanda, günlük yaşamlarımızı iyileştirebilecek (bazılarını henüz anlayamadığımız) yeni uygulamaların kilidini açabilecek ve daha fazlasını sağlayacak.
Yapay Sinir Ağları Nasıl Çalışır?
Diyagramdaki gibi gösterilen sinir ağları; verideki kalıpları hesaplamak için bağlanmış basit işlemsel düğümlerin yığılmış katmanlarından oluşurlar.
Önemli olan bağlantılardır. Bir sinir ağı eğitilmeden önce, bu bağlantılara yoğunluklarını temsil eden 0 ile 1 arasında rasgele değerler atanır. (Buna “başlangıç” süreci denir.) Ağ bir dizi hayvan fotoğrafıyla beslendiği için eğitim sırasında, bu yoğunlukları büzüşür beyin; farklı nöron bağlantılarını güçlendirir veya tecrübe ve bilgi biriktirir. Eğitimden sonra, son bağlantı yoğunlukları; daha sonra yeni fotoğraflardaki hayvanları tanımak için sürekliliği kullanılır.
Sinir ağlarının mekaniği iyi anlaşılmış olsa da, yaptıkları gibi çalışma nedenleri gizemli kalmıştır. Bununla birlikte, birçok deney boyunca araştırmacılar, faydalı olduklarını ortaya koyan sinir ağlarının iki özelliğini gözlemlemişlerdir:
1. Gözlem: Eğitim sürecinden önce bir ağ başlatıldığında; rasgele atanan bağlantının güçlü olmasının, ele alınamaz bir yapılandırma ile sonuçlanma olasılığı her zaman vardır. Başka bir deyişle, sinir ağı ne kadar hayvan fotoğrafıyla beslesense de; iyi bir performans elde etmeyecek ve onu yeni bir yapılandırmaya yeniden başlatmak gerekecek. Ağ büyüdükçe (ne kadar çok katman ve düğüm varsa), o kadar az olasılığı olacak. Küçük bir sinir ağı, her beş başlatmadan sadece birinde eğitilebilirken; daha büyük bir ağ, her beş kişiden dördünde eğitilebilir olabilir. Yine, bunun neden bir sır olduğu ortaya çıktı, ancak bu yüzden araştırmacılar genellikle derin öğrenme görevleri için çok büyük ağlar kullanıyorlar. Başarılı bir modele ulaşma şanslarını artırmak istiyorlar.
2.Gözlem: Sonuç, sinir ağının genellikle olması gerekenden daha büyük bir şekilde başlamasıdır. Eğitim yapıldıktan sonra, genellikle bağlantılarının yalnızca bir kısmı güçlü kalır, diğerleri ise oldukça güçsüz kalır; o kadar zayıf ki ağın performansını etkilemeden onları gerçekten silebilir veya “budama” yapabilirsiniz.
Uzun yıllar boyunca, araştırmacılar eğitimden sonra zamanlarını ve işletme maliyetlerini azaltmak için ağlarını küçültmek için bu ikinci gözlemden faydalandılar. Ancak hiç kimse eğitimden önce ağlarını küçültmenin mümkün olduğunu düşünmedi. Büyük boy bir ağla başlamanız ve eğitim sürecinin konuyla ilgisiz bağlantılardan ayrılması için kursunu yürütmesi gerektiği varsayılmıştır.
Piyango Bileti Hipotezi
Keşif; başlatma sırasında atanan rasgele bağlantı kuvvetlerinin, aslında sonuçlarında rastlantısal olmadığı gerçeğine dayanıyor: Eğitimin gerçekleşmeden önce başarısız olmalarını veya başarılı olmaları için ağın farklı bölümlerini önceden belirlenmişler. Başka bir deyişle, ilk yapılandırma ağın hangi son yapılandırmaya ulaşacağını etkiler.
Araştırmacılar, bu düşünceye odaklanarak; eğitimden sonra aşırı büyük bir ağı ”budattığında”, sonuçta daha küçük olan ağı, yeni veriler üzerinde eğitim almak ve yüksek performansı korumak için (bu küçültülmüş ağdaki her bağlantıyı yeniden başlattıldığı sürece) yeniden kullanılabileceğini buldular.
Bu bulgudan sonra, Frankle ve MIT Yardımcı Doçenti Michael Carbin, “Piyango Bileti Hipotezi” olarak adlandırdıkları şeyleri önerdiler. Bir sinir ağının bağlantı güçleri rasgele başlatıldığında; neredeyse bir çanta piyango bileti satın almak gibi oluyor. Çantadaki kazanan bilet; eğitilmip, başarılı bir modelle sonuçlanması kolay bir başlangıç yapılandırmasıdır.
Bu aynı zamanda 1. gözlemin neden geçerli olduğunu da açıklar. Daha büyük bir ağla başlamak daha fazla piyango bileti satın almak gibidir. Derin öğrenme problemine harcanan gücü artırmıyor; basitçe kazanan bir konfigürasyona sahip olma olasılığını artırıyor. Böylece Kazanan yapılandırmayı bulduktan sonra, çekilişi tekrar oynatmaya devam etmek yerine, tekrar tekrar kullanılabiliyor.
Sonraki Adımlar
Bu, birçok soru ortaya çıkarıyor:
İlk soru; kazanan bilet nasıl bulunur? Makalelerinde Frankle ve Carbin, başka bir veri seti için kazanan bileti çıkarmak üzere; bir veri seti ile büyük bir ağa budama eğitimi almasını sağladı. Teoride, baştan beri kazanan bir konfigürasyon bulmanın (hatta tasarlamanın) çok daha etkili yolları olmalı…
İkincisi; kazanan bir yapılandırmanın eğitim sınırları nelerdir? Muhtemelen, farklı veri türleri ve farklı derin öğrenme görevleri farklı yapılandırmalar gerektirecektir.
Üçüncüsü; hala yüksek performans elde ederken, elde edebileceken küçük sinir ağı nedir? Frankle, yinelemeli bir eğitim ve budama süreci boyunca, başlangıç ağını sürekli olarak orijinal büyüklüğünün % 10 ila % 20’sine düşürdüğünü buldu. Ancak daha küçük olma şansı olduğunu düşünüyor.
Daha önce AI topluluğu içindeki birçok araştırma ekibi; takip çalışmaları yürütmeye başladı. Princeton’da bir araştırmacı yakın zamanda; ikinci soruyu ele alan bir makalenin sonuçlarını sundu. Über’deki bir ekip;metaforik piyango biletlerinin doğasını araştıran birkaç deney hakkında yeni bir bildiri yayınladı. En şaşırtıcı olanı; kazanan bir konfigürasyon bulunduktan sonra, herhangi bir eğitimden önce orijinal, eğitimsiz büyük boy ağdan çok daha iyi bir performans elde ettiğini bulmuşlardır. Başka bir deyişle; kazanan bir yapılandırmayı çıkarmak için, bir ağ budama eylemi, önemli bir eğitim yöntemidir.
Sinir Ağı Nirvanası
Frankle; araştırma topluluğunun bulduğu tüm farklı konfigürasyonların açık kaynaklı bir veritabanına sahip olacağı ve hangi görev için iyi oldukları ile ilgili açıklamaları olan bir gelecek hayal ediyor. Buna “Sinir Ağı Nirvanası” diyor. Eğitimin maliyetini ve hızını düşürerek ve dev veri sunucuları olmayan kişilerin bu işi doğrudan küçük dizüstü bilgisayarlarda ve hatta cep telefonlarında yapabilmelerini sağlayarak; AI araştırmalarını çarpıcı bir şekilde hızlandıracağını ve demokratikleştireceğine inanıyor.
Ayrıca AI uygulamalarının doğasını da değiştirebilir. Bir sinir ağını yerel olarak bulut yerine bir aygıtta eğitebilirseniz, eğitim sürecinin hızını ve verilerin güvenliğini artırabilirsiniz. Örneğin; hasta verilerini Google veya Amazon sunucularına göndermeye gerek kalmadan, kullanım yoluyla kendini geliştirebilecek bir makine öğrenmeye dayalı tıbbi bir cihaz oluşturulabilir.