Bir süper hesaplama sistemi kullanan MIT araştırmacıları, nadiren bağlanan ancak çekirdek web trafiğini (sağda) etkileyen, daha önce görülmeyen izole edilmiş bağlantılar (solda) da dahil olmak üzere, belirli bir günde global web trafiğinin nasıl görünebileceğini yakalayan bir model geliştirdi./MIT

Web trafiğini modellemek, siber güvenliğe, bilgisayar altyapı tasarımına, internet politikasına ve daha fazlasına yardımcı olabilir.

Süper bilgisayar sistemini kullanan MIT araştırmacıları; belirli bir günde web trafiğinin nasıl göründüğünü yakalayan, internet araştırması ve diğer birçok uygulama için bir ölçüm aracı olarak kullanılabilecek bir model geliştirdi.

Araştırmacılar, web trafiği modellerini bu kadar büyük bir ölçekte anlamanın; internet politikasını bilgilendirmek, kesintileri belirlemek ve önlemek, siber saldırılara karşı savunmak ve daha verimli bilgi işlem altyapısı tasarlamak için faydalı olduğunu söylüyor. Yaklaşımı açıklayan bu makale son IEEE Yüksek Performanslı Ekstrem Hesaplama Konferansında sunuldu.

Araştırmacılar çalışmaları için, halka açık en büyük internet trafiği veri setini bir araya getirmiş ve birkaç yıl boyunca dünya genelinde farklı yerlerde değiştirilen 50 milyar veri paketini içermektedir.

Verileri, MIT Lincoln Laboratuvarı ve Enstitü genelinde bilgi işlem kaynaklarını birleştiren bir sistem olan MIT SuperCloud’un 10.000 işlemcisinden oluşan yeni bir “sinir ağı” boru hattı üzerinden geçirdiler. Bu boru hattı otomatik olarak veri kümesindeki tüm bağlantıların, genel pinglerden Google ve Facebook gibi devlere, sadece kısa bir süre bağlantı veren ancak web trafiğini etkilediği görülmeyen bağlantılara kadar olan ilişkiyi yakalayan bir model geliştirdi.

Model; herhangi bir büyük ağ veri kümesini alabilir ve ağdaki tüm bağlantıların birbirini nasıl etkilediği hakkında bazı istatistiksel ölçümler üretebilir. Bu, birebir dosya paylaşımı; zorlayıcı IP adresleri ve spamları, kritik sektörlerdeki saldırıların dağılımı ve bilgi işlem kaynaklarını daha iyi tahsis etmek ve veri akışını sürdürmek için trafik darboğazları hakkında öngörüleri ortaya çıkarmak için kullanılabilir.

Konsept olarak, çalışma; uzaydaki kozmik mikrodalga arka planının ölçülmesi ile benzerdir. Bunlar; dış dünyadaki olayları incelemek için önemli bir bilgi kaynağı olan evrenimizin çevresinde dolaşan tek tip radyo dalgalarıdır.

MIT Lincoln Laboratory Süper Hesaplama Merkezi Araştırmacı Astronom Jeremy Kepner: “İnternetin sanal evreninin arka planını ölçmek için doğru bir model geliştirdik. Herhangi bir farkı veya anomaliyi tespit etmek istiyorsanız, iyi bir arka plan modeline sahip olmalısınız.”

İnternet araştırmalarında, uzmanlar web trafiğindeki anormallikleri örneğin siber tehditleri inceledi. Bunu yapmak için ilk önce normal trafiğin neye benzediğini anlamanıza yardımcı olur. Ancak, bunu yakalamak zordu. Geleneksel “trafik analizi” modelleri; yalnızca konumla sınırlı kaynaklar ve hedefler arasında değiştirilen küçük veri paketi örneklerini analiz edebilir. Bu modelin doğruluğunu azaltır.

Araştırmacılar, özellikle bu trafik analizi konusunu ele almak istemediler. Ancak MIT SuperCloud’da büyük ağ matrislerini işlemek için kullanılabilecek yeni teknikler geliştiriyorlardı. İnternet trafiği mükemmel bir test durumuydu.

Ağlar genellikle grafikler şeklinde, düğümler tarafından temsil edilen aktörler ve düğümler arasındaki bağlantıları temsil eden bağlantılar ile incelenir. İnternet trafiğinde; düğümler boyutlara ve konumlara göre değişir. Büyük alt bölümler Google veya Facebook gibi popüler merkezlerdir. Yaprak düğümleri bu üst düğümden yayılmış ve birbiriyle ve üst düğüme birden çok bağlantısı var. Dıştaki üst kısımların ve yaprak düğümlerinin “çekirdeği” dışında bulunan ve nadiren birbirine bağlanan izole düğümler ve bağlantılardır.

Bu grafiklerin tamamını yakalamak, geleneksel modeller için mümkün değildir. Kepner, “Bu verilere bir süper bilgisayara erişmeden dokunamazsınız” diyor.

Birkaç Japon üniversitesi tarafından kurulan Yaygın Entegre Dağıtılmış Çevre (WIDE) Projesi ve Kaliforniya’daki Uygulamalı İnternet Veri Analizi Merkezi (CAIDA) ile ortaklaşa olarak çalışan MIT araştırmacıları; dünyanın en büyük paket yakalama veri setini internet trafiği için yakaladılar. Anonimleştirilmiş veri kümesi; (Japonya ve ABD’deki çeşitli konumlarda rasgele günlerde) 2015 yılına kadar uzanan tüketiciler ve çeşitli uygulamalar ve hizmetler arasında yaklaşık 50 milyar benzersiz kaynak ve hedef veri noktası içerir.

Bu veriler üzerinde herhangi bir model eğitmeden önce; bazı kapsamlı ön işlemler yapmaları gerekiyordu. Bunu yapmak için, daha önce oluşturdukları, veri noktalarından çok daha fazla boş alan içeren “hypersparse data”larını verimli bir şekilde hesaplamak ve sıralamak için bazı ortalama tekniklerini kullanan Dinamik Dağıtılmış Boyutlu Veri Modu (D4M) adı verilen yazılımı kullandılar. Araştırmacılar, verileri 10.000 MIT SuperCloud işlemcisinde yaklaşık 100.000 paketlik birime böldü. Bu, kaynaklar ve hedefler arasında daha kompakt milyarlarca satır matrisi ve etkileşim sütunu üretti.

Aykırı Olanları Yakalamak

Ancak bu hipersparse veri setindeki hücrelerin büyük çoğunluğu hala boştu. Matrisleri işlemek için, ekip aynı 10.000 çekirdekte bir sinir ağı işletti. Sahnelerin ardında, deneme yanılma tekniği, verilerin doğruluğuna modeller yerleştirerek potansiyel olarak doğru modellerin olasılık dağılımını yaratmaya başladı.

Daha sonra, mümkün olduğunca fazla veri yakalamak için her bir modelin parametrelerini daha da hassaslaştırmak için değiştirilmiş bir hata düzeltme tekniği kullanıldı. Geleneksel olarak, makine öğreniminde hata düzeltme teknikleri, modeli genel bir şekilde daha doğru kılan normal bir olasılık dağılımına uydurmak için temel verilerin herhangi birindeki önemini azaltmaya çalışacaktır. Ancak araştırmacılar, modelin genel ölçümler için önemli olduğu gibi izole edilmiş bağlantılar gibi tüm temel verileri görmesini sağlamak için bazı matematik püf noktaları kullandılar.

Sonunda, sinir ağı esas olarak; internet trafiği veri setini tanımlayan, sadece gerçekten popüler olan düğümlerden yalıtılmış düğümlere ve aradaki her şeyin tam spektrumunu tanımlayan sadece iki parametreli basit bir model oluşturur.

Araştırmacılar, şimdi model için bir sonraki başvurusunu bulmak için bilimsel topluluğa uzanıyor. Örneğin, uzmanlar; deneylerinde bulunan araştırmacıların nadir bulunan ancak çekirdek düğümlerdeki web trafiğini etkilediği görünen izole edilmiş bağlantıların önemini inceleyebilir.

İnternetin ötesinde, sinir ağları boru hattı, biyolojik ve sosyal ağlar gibi herhangi bir aşırı ağı analiz etmek için kullanılabilir.

Kepner: “Artık bilimsel topluluğa daha sağlam ağlar oluşturmak veya ağların anormalliklerini tespit etmek isteyen insanlar için harika bir araç sağladık. Bu anormallikler, kullanıcıların yaptıklarının normal davranışları olabilir veya istemediğiniz şeyleri yapan insanlar olabilir.”

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

You May Also Like

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

Cep telefonlarının, akıllı saatlerin ve diğer giyilebilir cihazların daha yeni bir model…

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Yeni teknoloji, yoğun bakım ünitesi (YBÜ) tedavisine ihtiyaç duyan hastaları belirleyerek COVID-19…

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

  Yapay zeka araştırma şirketi OpenAI, doğal dili programlama koduna çeviren bir…

AI’ye Karanlıkta Renkleri Tanımlamayı Öğretmek

California Üniversitesi‘ndeki bir araştırma ekibi, karanlıkta sınırlı renk görüşü sağlamak için derin…