Sentetik ağlar, Penn Eyalet istatistikçisine göre; bireysel ya da kurumsal mahremiyeti korurken, bazı verilerin kullanılabilirliğini artırabilir.
Penn Eyaleti Eberly Bilim Koleji, İstatistik Profesörü Aleksandra Slavkoviç: “Çalışmamızın kilit noktası; gizli verilerin bilimsel keşfe yardımcı olacak şekilde daha geniş alanlarda paylaşılmasını sağlayacak metodoloji geliştirmektir. Amacımız, gizli verileri hassas bilgilerin keşfi için ölçülebilir minimum riskle paylaşabilmek ve aynı zamanda istatistiksel doğruluk ve dürüstlüğü sağlamaktır.”
Slavkoviç, özellikle bilgisayar ve sosyal bilimcilerle, disiplinlerarası bir işbirliği ile bu veri gizliliği sorununa çözümler bulmuştur. Araştırmaları, bireyler veya kurumlar gibi varlıklar arasındaki ilişki bilgilerini alan ağ verileri de dahil olmak üzere çeşitli verilere odaklanmaktadır. Diferansiyel gizlilik hakkı; bireylere mahremiyet kaybı seviyesinin matematiksel olarak kanıtlanabilir bir garantisini sunar.
Bilim insanları araştırmaları için başkaları tarafından toplanan verilere erişmek istemektedir; ancak bu tür bir erişim aynı zamanda kişisel olarak tanımlanabilir verilerin çıkarılmasından sonra bile kişisel mahremiyeti tehlikeye atabilir.
Slavkoviç: “Veri toplama ve kayıt bağlantısındaki metodolojik ve teknolojik gelişmeler; eldeki veri kümesiyle bağlantılı olabilecek çeşitli veri kaynaklarına, daha kolay erişim ve veri paylaşımı için kurumlara fon sağlama gereklilikleri sayesinde, veri gizliliği risklerini artırmaktadır. Gizlilik kaybını yönetmek, sağlam ve bilimsel keşifler sağlamak için çok önemlidir.”
Örneğin bir HIV ilacı hakkında yapılan bir ilaç denemesinden açıkça elde edilen bilgiler; tedavi grubunda ve kontrol grubunda kimlerin bulunduğunu gösterir. Tedavi grubu sadece HIV tanısı konan insanları içerecektir ve veri sahipleri bu veri setinden kişisel özelliklerini saklasalar bile, bazı tanımlayıcı bilgiler kalacaktır. Günümüzde çevrimiçi olarak sosyal medyada ve diğer veri kümelerinde çok fazla bilgi bulunduğundan; noktaları birleştirmek ve insanları tanımlamakla, potansiyel olarak HIV durumlarını ortaya çıkarmak mümkündür.
Slavkoviç: “İki veri setini birbirine bağlama teknikleri, seçmen kayıtları ve sağlık sigortası verileri büyük ölçüde gelişti. İlk bulgulardan birinde, Latanya Sweeny (şu anda Harvard’da), bu tür verileri birbirine bağlayarak, 1990’dan itibaren ABD Nüfus Sayımı’ndaki kişilerin yüzde 87’sini doğum tarihlerine, cinsiyetlerine ve 5 haneli posta kodlarına göre tanımlayabildiğinizi gösterdi. Son zamanlarda araştırmacılar, kullanıcıları yüzde 96,7 doğrulukla tanımlayabildiklerini göstermek için tweet’leri ve ilişkili Twitter meta verilerini kullandılar.”
Bir veri kümesindeki bilgiler ile sosyal medyadaki bilgiler arasındaki bağlantılar ciddi bir mahremiyete yol açabilir. HIV durumu veya cinsel yönelim gibi bir şey ortaya çıktığında bunun ciddi sonuçları olabilir.
Gizlilik önemli olmakla birlikte, toplanan veri kümeleri araştırmacılar için önemli bir bilgi kaynağı oluşturur. Şu anda, verilerin istisnai olarak hassas olduğu bazı durumlarda; araştırmacılar, araştırma yapmak için fiziksel olarak veri havuzlarına gitmelidir.
Slavkoviç ağ verileriyle ilgileniyor: İnsanların veya kurumların (düğümler) birbirleriyle olan bağlantılarını ve düğümler arasındaki bağlantıları gösteren bilgiler. Yaklaşımı biraz değişmiş, yansıtılmış ağ veri kümeleri oluşturmaktır.
Slavkoviç: “Amaç, sıkı diferansiyel gizlilik gereksinimlerini karşılayan yeni ağlar oluşturmak ve aynı zamanda istatistiki özelliklerin çoğunu orijinal ağdan yakalamaktır.”
Bu sentetik veri setleri, bazı araştırmacıların araştırma ihtiyaçlarını karşılaması için yeterli olabilir. Diğerleri için, veri depolama alanına gitmeden önce yaklaşımlarını ve hipotezlerini test etmek yeterli olacaktır. Araştırmacılar, orjinal verileri depo sitesinde kullanmak için izin beklerken, kodları test edebilir, keşif araştırması yapabilir ve belki de temel analiz yapabilirler.
Slavkoviç: “Tüm istatistiksel analiz taleplerini aynı tür değiştirilmiş verilerle karşılayamıyoruz. Bazı insanlar orijinal verilere ihtiyaç duyacaktır ancak diğerleri, sentetik ağlar gibi sentetik verilerle uzun sürebilir.”