Yazılım

Veri Bilimini Demokratikleştirmek

Araç, istatistikçi olmayanlar için otomatik olarak karmaşık veri kümelerinden bilgi toplayan modeller oluşturur

MIT araştırmacıları, veri biliminin demokratikleşmesini; durağan olmayanlar için otomatik olarak ham verileri analiz etmek için modeller oluşturan yeni bir araçla ilerletmeyi umuyor.

Veri bilimini demokratikleştirmek; çok az veya hiç uzmanlığı olmayan herkesin yeterli veri ve kullanıcı dostu analiz araçları sağlandığı takdirde; veri bilimini yapabildiği fikridir. Bu fikri destekleyen yeni araç, veri kümelerini alır ve verideki temel kalıpları analiz etmek, yorumlamak ve tahmin etmek için tipik olarak uzmanlar tarafından kullanılan, karmaşık istatistiksel modeller oluşturur.

Araç şu anda; kullanıcıların, tarayıcılarında etkileşimli olarak programları çalıştırmalarına izin veren, açık kaynaklı bir web çerçevesi olan Jupyter Notebook’ta* aktiftir. Kullanıcıların, örneğin; finansal eğilimler, hava yolculuğu, oy kullanma biçimleri, hastalığın yayılması ve diğer eğilimler gibi öngörüleri ortaya çıkarmak için yalnızca birkaç satır kod yazması gerekmektedir.

ACM SIGPLAN Programlama Dilleri İlkeleri Sempozyumu’nda sunulan bir bildiride; araştırmacılar, araçlarının kalıpları doğru şekilde çıkarabildiğini ve gerçek dünya veri kümelerinden tahminlerde bulunabildiklerini ve hatta bazı veri analitik görevlerinde manuel olarak oluşturulmuş modellerden daha iyi performans gösterdiğini açıkladılar.

Elektrik Mühendisliği ve Bilgisayar bilimi (EECS) Doktora Öğrencisi Feras Saad: “Üst düzey hedef, veri bilimini istatistik konusunda uzman olmayan insanlara erişilebilir kılmaktır. İnsanların etrafında çok fazla veri kümesi var ve hedefimiz, insanların bu veriler hakkında sorular sormak için kullanabilecekleri modelleri otomatik olarak almalarını sağlayan sistemler oluşturmak.”

Olasılıksal Bilgi İşlem Projesini yürüten Beyin ve Bilişsel Bilimler Bölümünde (BCS) araştırmacı Vikash Mansinghka: “Sonuçta, araç veri bilimi alanındaki bir tıkanıklığı gideriyor. Verileri daha iyi nasıl modelleyeceğini bilen çok sayıda insan var. Bu; hükümetlerde, kar amacı gütmeyen sektörde ve insanların veri bilimcilerini karşılayamayacağı yerlerde bir sorun.”

Çalışmayı yürüten diğer araştırmacılar, EECS Doktora öğrencisi Marco Cusumano-Towner; Olasılıksal Bilgi İşlem Projesi ile BCS sonrası doktora yapan Ulrich Schaechtle; ve Bilgisayar Bilimleri ve Yapay Zeka Laboratuarında bir EECS profesörü ve araştırmacısı olan Martin Rinard’tır.

Bayes Modeli

Çalışma, bu değişken hakkında daha fazla bilgi edinildikçe, değişken olasılığını sürekli olarak güncelleyen bir istatistik yöntemi olan Bayes** modellemeyi kullanıyor. Örneğin, istatistikçi ve yazar Nate Silver, popüler web sitesi FiveThirtyEight için Bayes merkezli modelleri kullanıyor. Bir cumhurbaşkanlığı seçimine liderlik eden sitenin modelleri, çeşitli anketlere ve diğer ekonomik ve demografik verilere dayanarak adaylardan birinin kazanacağına dair ilk tahminde bulunuyor. Bu tahmin değişkendir. Seçim Günü geldiğinde, model bir adayın kazanma olasılığını sürekli olarak güncellemek için bu bilgileri kullanır ve gelen oyları ve diğer verileri ölçer.

Daha genel bir ifadeyle, Bayes modelleri; “tahmin etmek” (veri setinde bilinmeyen bir değeri tahmin etmek) ve verideki kalıpları ve değişkenler arasındaki ilişkileri ortaya çıkarmak için kullanılabilir. Çalışmalarında araştırmacılar, iki veri setine odaklandı: zaman serileri, kronolojik sıraya göre bir veri noktaları dizisi; ve her satırın ilgilenilen bir varlığı temsil ettiği ve her sütunun bir niteliği temsil ettiği tablo verileri.

Zaman serisi veri setleri, gelecek aylarda veya yıllarda havayolu trafiğini tahmin etmek için kullanılabilir. Olasılıklı bir model, tarihsel trafik verilerinin puanlarını hesaplar ve çizgi boyunca işaretlenen gelecekteki trafik düzenlerini içeren bir zaman serisi tablosu oluşturur. Model ayrıca, yılın zamanları gibi diğer değişkenlerle ilişkilendirilen periyodik dalgalanmaları da ortaya çıkarabilir.

Öte yandan, sosyolojik araştırmalar için kullanılan bir tablo veri seti; her biri ayrı bir kişiyi temsil eden, iş, maaş, ev konumu ve anket sorularının cevaplarını tanımlayan değişkenleri olan yüzlerce milyonlarca satırı içerebilir.

Olasılıklı modeller; bir kişinin mesleğine ve ev konumuna göre veya bir kişinin yaşına ve mesleğine göre, maaşını tahmin etmek gibi birbirini bilgilendiren değişkenleri tanımlamak gibi eksik değişkenleri doldurmak için  kullanılabilirler.

İstatistikçiler, Bayes modellemeyi verilerden modeller oluşturmak için altın bir standart olarak görüyorlar. Fakat Bayes modelleme çok zaman alıcı ve zordur. İstatistikçiler ilk önce, problem ve veriler hakkındaki genel bilgiye dayanarak gerekli model yapısı ve parametrelerinde eğitimli bir tahmin yaparlar. Örneğin, R gibi istatistiksel bir programlama ortamı kullanıldığında; bir istatistikçi daha sonra modeller oluşturur, parametrelere uyar, sonuçları kontrol eder ve modelin karmaşıklığını ve model kalitesini karşılayan uygun bir performan buluncaya kadar süreci tekrarlar.

Araştırmacıların aracı, bu sürecin önemli bir bölümünü otomatikleştiriyor. Mansinghka: “Genç bir istatistikçiye veya veri bilimcisine sahip olduğunuz bir yazılım sistemine iş veriyoruz. Yazılım, verilerden soruları otomatik olarak (tahmin etmek veya yapının ne olduğunu söylemek) ve çok titiz bir şekilde yanıtlayabilir. Ayrıca nicel belirsizlik önlemlerini rapor eder. Veri bilimini daha erişilebilir hale getirmeye çalışıyorsak, bu otomasyon ve titizlik seviyesi önemlidir.”

Bayes Sentezi

Yeni yaklaşımla, kullanıcılar ham verinin konumunu ayrıntılandıran bir kod satırı yazar. Araç, bu verileri yükler ve her biri, verinin Bayes modelini temsil eden birden fazla olasılıklı programlar oluşturur. Tüm bu otomatik olarak üretilen modeller, belirli bir veri türü için Bayes modellerini temsil etmek için optimize edilmiş, alana özgü olasılıklı programlama dillerinde (belirli uygulamalar için geliştirilen kodlama dilleri) yazılmıştır.

Bu araç, otomatik olarak veri verilen bilgisayar programları ve içinde çalışmak için bir dil oluşturan “program sentezi” adlı tekniğin değiştirilmiş bir versiyonunu kullanarak çalışır. Teknik temelde bilgisayar programlamanın tersidir: Bir dizi girdi-çıktı örneği verildiğinde, program sentezi geriye doğru çalışarak boşlukları doldurup örnek girdilere dayanan örnek çıktıları üreten bir algoritma oluşturmak için boşlukları doldurur.

Yaklaşım, normal program sentezinden iki şekilde farklıdır. İlk olarak, araç, veri için Bayes modellerini temsil eden olasılıksal programları sentezlerken, geleneksel yöntemler hiç veri modellemeyen programlar üretir. İkincisi, araç aynı anda birden fazla programı sentezlerken, geleneksel yöntemler bir seferde yalnızca bir tane üretiyor. Kullanıcılar hangi modellerin uygulamalarına en uygun olduğunu seçebilirler.

Mansinghka: “Sistem bir model yaptığında, bu alana özgü olasılıklı programlama dillerinden birinde yazılmış bir kod parçasını yayınlar; insanların anlayabileceği ve yorumlayabileceği… Örneğin, kullanıcılar havayolu trafiği hacmi gibi bir zaman serisi veri kümesinin sadece kodu okuyarak mevsimsel olarak değişip değişmediğini kontrol edebilir; black-box makinesi öğrenme ve istatistik yöntemlerinden farklı olarak, kullanıcıların bir modelin tahminlerine güvenmek zorunda oldukları ancak yapısını anlamak için okuyamayacakları modeller.”

Olasılıklı programlama, programlama dillerinin, yapay zekanın ve istatistiklerin kesişiminde ortaya çıkan bir alandır. Bu yıl, MIT; Microsoft, Uber ve Google gibi olasılıklı programlarda önde gelen endüstri oyuncuları da dahil olmak üzere 200’den fazla katılımcının bulunduğu ilk Uluslararası Olasılık Programlama Konferansı’na ev sahipliği yaptı.

Araştırmaya dahil olmayan bir Google araştırmacısı Ryan Probabilistic: “Google AI’daki ekibim, TensorFlow’un üstüne olasılıklı programlama araçları oluşturuyor. Olasılıklı programlama Google için önemli bir alandır ve zaman serisi modellemesi, Google’da ve Google’ın kullanıcıları için birçok kullanım durumuyla ümit verici bir uygulama alanıdır.”

Araştırmacıların makalesi; bu önemli sorunu çözmek için olasılıklı programlamanın nasıl uygulanacağını gösterir ve olasılık programlarının insanlar tarafından yazılmak yerine verilerden nasıl sentezlenebileceğini göstererek, başlamak için gereken çabayı azaltır.

 

*Jupyter çeşitli programlama dilleri için etkileşimli bir ortam sağlayan yazılımdır. Orijinal olarak IPython (interactive python) adıyla, Python programlama dili için geliştirildi ancak daha sonra kurucuları Jupyter projesini başlatıp IPython’ın birçok tarafını Jupyter’e kaydırdı. Ayrıca Jupyter Notebook, aldığınız notları ve hesaplamalarınızı bir arada tutmak için kullanabileceğiniz en başarılı araçlardan biridir. Tekrar edilebilir araştırmada ve veri biliminde sıkça kullanılır.

**Bayes teoremi: 18. yüzyıl İngiliz matematikçisi Thomas Bayes’in adını verdiği koşullu olasılığı belirlemek için kullanılan matematiksel bir formüldür. Bir olayın meydana gelme olasılığının, olaya yönelik ek bilgi edinilmesi halinde nasıl değişeceğini gösteren bir teoremdir. Başka bir ifadeyle örneklem uzayı a’dan b’ye daraldığında elde ettiğimiz ek bilginin olasılıklar üzerindeki etkisini ortaya koymaktır.

Bayes Formülü: p(b|a) = p(a|b).p(b)/p(a)

 

Kaynak:
MIT NewsEurekAlert!TechXplore
Etiketler
1 Oy2 Oy3 Oy4 Oy5 Oy (4 oy verildi, Ortalama: 5 üzerinden 5,00 oy )
Loading...

Benzer Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgini Çekebilir

Close
Close