MIT – DataCebo; gerçek verileri taklit eden sentetik veriler oluşturarak şirketlerin veri setlerini güçlendirmelerine yardımcı oluyor.
Üretken yapay zeka, metin ve görüntü oluşturma becerisiyle büyük ilgi görüyor. Ancak bu medya, bugün toplumumuzda çoğalan verilerin yalnızca bir kısmını temsil ediyor. Bir hasta tıbbi bir sistemden her geçtiğinde, bir fırtına bir uçuşu etkilediğinde veya bir kişi bir yazılım uygulamasıyla etkileşime girdiğinde veri üretilir.
Bu senaryolar; etrafında gerçekçi sentetik veriler oluşturmak için üretici yapay zeka kullanmak, özellikle gerçek dünya verilerinin sınırlı veya hassas olduğu senaryolarda, kuruluşların hastaları daha etkili bir şekilde tedavi etmesine, uçakları yeniden yönlendirmesine veya yazılım platformlarını iyileştirmesine yardımcı olabilir.
Son üç yıldır MIT – DataCebo, kuruluşların yazılım uygulamalarını test etmek ve makine öğrenimi modellerini eğitmek gibi amaçlarla sentetik veriler oluşturmasına yardımcı olmak için Sentetik Veri Kasası adı verilen üretken bir yazılım sistemi sunuyor.
Sentetik Veri Kasası veya SDV, 1 milyondan fazla kez indirildi ve 10.000’den fazla veri bilimcisi sentetik tablo verileri oluşturmak için açık kaynaklı kütüphaneyi kullanıyor. Kurucular – Baş Araştırma Bilimcisi Kalyan Veeramachaneni ve Neha Patki şirketin başarısının SDV’nin yazılım testlerinde devrim yaratma yeteneğinden kaynaklandığına inanıyor.
SDV viral oluyor
2016 yılında Veeramachaneni’nin Data to AI Lab’deki grubu, kuruluşların gerçek verilerin istatistiksel özellikleriyle eşleşen sentetik veriler oluşturmasına yardımcı olmak için bir dizi açık kaynaklı üretken yapay zeka aracını tanıttı.
Şirketler, veri noktaları arasındaki istatistiksel ilişkileri korurken, programlarda hassas bilgiler yerine sentetik verileri kullanabilir. Şirketler ayrıca sentetik verileri, yeni yazılımları halka sunmadan önce nasıl performans gösterdiğini görmek için simülasyonlar aracılığıyla çalıştırmak için de kullanabilir.
Veeramachaneni’nin grubu bu sorunla karşılaştı, çünkü araştırma için verilerini paylaşmak isteyen şirketlerle çalışıyordu.
Patki: “MIT tüm bu farklı kullanım alanlarını görmenize yardımcı oluyor. Finans şirketleriyle ve sağlık şirketleriyle çalışıyorsunuz ve tüm bu projeler sektörler arasında çözümler formüle etmek için yararlı oluyor.”
Araştırmacılar 2020 yılında, daha büyük kuruluşlar için daha fazla SDV özelliği oluşturmak üzere DataCebo’yu kurdu. O zamandan bu yana, kullanım örnekleri çeşitli olduğu kadar etkileyici de oldu.
Örneğin DataCebo’nun yeni uçuş simülatörü sayesinde havayolu şirketleri, yalnızca geçmiş verileri kullanarak nadir hava olaylarına karşı planlama yapabiliyor. Bir başka uygulamada SDV kullanıcıları, kistik fibrozisli hastaların sağlık sonuçlarını tahmin etmek için tıbbi kayıtları sentezledi. Yakın zamanda Norveç’ten bir ekip, çeşitli kabul politikalarının meritokratik ve önyargısız olup olmadığını değerlendirmek üzere sentetik öğrenci verileri oluşturmak için SDV’yi kullandı.
2021 yılında veri bilimi platformu Kaggle, tescilli verileri kullanmaktan kaçınmak amacıyla sentetik veri setleri oluşturmak için SDV kullanan veri bilimcileri için bir yarışma düzenledi. Yaklaşık 30.000 veri bilimci katılarak şirketin gerçekçi verilerine dayalı çözümler geliştirdi ve sonuçları tahmin etti.
Yazılım testlerini güçlendirmek
Açık kaynak araçları çeşitli kullanım alanları için kullanılıyor olsa da, şirket yazılım testi alanındaki ilgisini artırmaya odaklanmış durumda.
Veeramachaneni: “Bu yazılım uygulamalarını test etmek için veriye ihtiyacınız var. Geleneksel olarak, geliştiriciler sentetik veri oluşturmak için manuel olarak komut dosyaları yazarlar. SDV kullanılarak oluşturulan üretken modellerle, toplanan bir veri örneğinden öğrenebilir ve ardından büyük hacimli sentetik verileri (gerçek verilerle aynı özelliklere sahip) örnekleyebilir veya belirli senaryolar ve uç durumlar oluşturabilir ve verilerinizi uygulamanızı test etmek için kullanabilirsiniz.”
Örneğin, bir banka içinde para olmayan hesaplardan yapılan transferleri reddetmek için tasarlanmış bir programı test etmek isterse, aynı anda işlem yapan birçok hesabı simüle etmesi gerekir. Bunu manuel olarak oluşturulan verilerle yapmak çok zaman alırdı. DataCebo’nun üretken modelleri sayesinde müşteriler test etmek istedikleri her türlü uç durumu oluşturabilir.
Patki: “Sektörlerin bir şekilde hassas verilere sahip olması yaygın bir durum. Hassas verilerin bulunduğu bir alanda genellikle düzenlemelerle karşı karşıya kalırsınız ve yasal düzenlemeler olmasa bile, kimin hangi zamanda neye erişebileceği konusunda özenli olmak şirketlerin yararınadır. Dolayısıyla, sentetik veriler gizlilik açısından her zaman daha iyidir.”
Sentetik verilerin ölçeklendirilmesi
Veeramachaneni, DataCebo’nun sentetik kurumsal veri ya da büyük şirketlerin yazılım uygulamalarındaki kullanıcı davranışlarından elde edilen veriler olarak adlandırdığı alanda ilerleme kaydettiğine inanıyor.
Veeramachaneni: “Bu tür kurumsal veriler karmaşıktır ve dil verilerinin aksine evrensel olarak erişilebilir değildir. İnsanlar kamuya açık yazılımımızı kullandıklarında ve belirli bir kalıp üzerinde çalışıp çalışmadığını bildirdiklerinde, bu benzersiz kalıpların çoğunu öğreniyoruz ve bu da algoritmalarımızı geliştirmemize olanak sağlıyor. Bir açıdan bakıldığında, bu karmaşık örüntülerden oluşan bir külliyat oluşturuyoruz ki bu külliyata dil ve görüntüler için kolayca ulaşılabiliyor. “
DataCebo ayrıca kısa süre önce SDV’nin kullanışlılığını artırmak için SDMetrics kütüphanesi adı verilen ve üretilen verilerin “gerçekçiliğini” değerlendiren araçların yanı sıra SDGym adı verilen modellerin performanslarını karşılaştırmanın bir yolunu da içeren özellikler yayınladı.
Veeramachaneni: “Bu, kuruluşların bu yeni verilere güvenmesini sağlamakla ilgili (araçlarımız) programlanabilir sentetik veriler sunuyor, yani işletmelerin daha şeffaf modeller oluşturmak için kendi özel içgörülerini ve sezgilerini eklemelerine izin veriyoruz.”
Her sektörden şirketler yapay zeka ve diğer veri bilimi araçlarını benimsemek için acele ederken, DataCebo nihayetinde bunu daha şeffaf ve sorumlu bir şekilde yapmalarına yardımcı oluyor.
Veeramachaneni: “Önümüzdeki birkaç yıl içinde, üretken modellerden elde edilen sentetik veriler tüm veri çalışmalarını dönüştürecek. Kurumsal operasyonların yüzde 90’ının sentetik verilerle yapılabileceğine inanıyoruz.”
Kaynak: //news.mit.edu/2024/using-generative-ai-improve-software-testing-datacebo-0305