Algoritma, tıbbi ve biyolojik çalışmalar için yeni bilgiler sağlayabilecek tek bir “panoramaya” birden fazla veri seti dikiyor.
MIT araştırmacıları tarafından geliştirilen yeni bir algoritma; panoramik fotoğrafçılıktan büyük, çeşitli hücre veri kümelerini birleştirmeye, tıbbi ve biyolojik çalışmalar için kullanılabilecek tek bir kaynağa işaret ediyor.
Tek hücreli veri setleri; insan sağlığı ve nöronlar, kaslar ve bağışıklık hücreleri gibi insan hücrelerinin gen ifadelerini profilleyerek insan sağlığı ve hastalığının tedavisi hakkında fikir edinir. Veri kümeleri; çeşitli laboratuvarlar ve teknolojiler tarafından üretilir ve çok çeşitli hücre tipleri içerir. Bu veri kümelerini tek bir veri havuzunda birleştirmek; yeni araştırma olanakları açabilir, ancak bunu etkili ve verimli bir şekilde yapmak zordur.
Geleneksel yöntemler; örneğin laboratuvar veya teknolojiler, biyolojik olmayan yapılara dayanarak, hücreleri bir araya getirme ya da aynı görünen birbirine benzemeyen hücreleri yanlışlıkla birleştirme eğilimindedir. Bu hataları düzelten yöntemler; büyük veri kümelerine iyi ölçeklenemez ve birleştirilmiş tüm veri kümelerinin en az bir ortak hücre türünü paylaşmasını gerektirir.
MIT araştırmacıları, 20’den fazla farklı hücre tipi veri setini daha büyük bir “panorama” olarak, verimli bir şekilde birleştirebilen bir algoritmayı tanımlamaktadır. “Scanorama” adı verilen bu algoritma; paylaşılan hücreyi otomatik olarak bulur ve iki veri kümesi arasındaki türleri (örtüşen piksellerin panoramik bir fotoğraf oluşturmak üzere görüntülerde birleştirilmesi gibi) diker.
Başka bir veri kümesi, son panoramada herhangi bir veri kümesiyle bir hücre türünü paylaştığı sürece, birleştirilebilir. Ancak tüm veri kümelerinin ortak bir hücre tipine sahip olmaları gerekmez. Bu şekide algoritma; her veri kümesine özgü tüm hücre türlerini korur.
Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı Hesaplama ve Biyoloji (CSAIL) Bölümü Araştırmacı Brian Hie: “Geleneksel yöntemler; hücre türlerinin ne olduğuna bakılmaksızın hücreleri hizalanmaya zorlar. Yapısız bir blok yaratıyorlar, bu şekilde tüm biyolojik farkları kaybedebiliyorsunuz. Scanorama’ya birlikte hizalanmaması gereken veri kümeleri verebilir ve algoritma veri kümelerini biyolojik farklılıklara göre ayıracaktır.”
Araştırmacılar; makalelerinde başarılı bir şekilde geniş bir yelpazede insan hücreleri içeren, 26 veri setinden 100.000’den fazla hücreyi birleştirerek, tek ve çeşitli bir veri kaynağı oluşturdular. Geleneksel yöntemlerle; bu işlem yaklaşık bir gün süren bir hesaplama yapar, ancak Scanorama görevi yaklaşık 30 dakikada tamamladı. Araştırmacılar, çalışmanın şimdiye kadar birleştirilmiş en fazla veri kümesini temsil ettiğini söylüyor.
Karşılıklı Komşuları Bağlama
İnsanlarda yüzlerce temel ve alt hücre kategorisi vardır ve her hücre farklı bir gen dizisini ifade eder. RNA dizilimi gibi teknikler; çok boyutlu uzayda yayılan bilgiyi yakalar. Hücreler, alanın etrafına dağılmış noktalardır ve her boyut, farklı bir genin ifadesine karşılık gelir.
Scanorama; iki hesaplama alanında en yakın (en benzer) noktaları bulan “karşılıklı en yakın komşu eşleştirme” olarak adlandırılan değiştirilmiş bir bilgisayarlı görüntü algoritması kullanır. CSAIL’de geliştirilen algoritma; başlangıçta farklı fotoğraflarda renk düzeyleri gibi eşleşen özelliklere sahip pikselleri bulmak için kullanıldı. Bu; bilgisayarların bir görüntüdeki nesneyi temsil eden bir piksel düzeltme ekini, nesnenin konumunun büyük ölçüde değiştirildiği başka bir görüntüdeki aynı piksel düzeltme ekiyle eşleştirmesine yardımcı olabilir. Bir panoramada çok farklı görüntüleri bir arada dikmek için de kullanılabilir.
Araştırmacılar; örtüşen piksel özellikleri yerine örtüşen gen ekspresyonu olan hücreleri ve iki yerine çoklu veri kümelerini bulmak için algoritmayı yeniden kullandılar. Bir hücrede gen ekspresyonunun seviyesi; fonksiyonunu ve buna bağlı olarak hesaplama uzayındaki konumunu belirler. Birbiri üstüne istiflenmişse; benzer veri ifadesine sahip hücreler, farklı veri kümelerinden olsalar bile, aynı konumlarda olacaklardır.
Her veri kümesi için, Scanorama ilk önce bir veri setindeki her hücreyi; tüm veri kümeleri arasındaki en yakın komşusuna bağlar. Bu da büyük olasılıkla benzer yerleri paylaşacakları anlamına gelir. Ancak, algoritma yalnızca her iki veri kümesindeki hücrelerin birbirlerinin en yakın komşusu olduğu bağlantıları (karşılıklı bağlantıyı) korur. Örneğin, A hücresinin en yakın komşusu B hücresiyse ve B hücresi A hücresi ise, o bir koruyucudur. Bununla birlikte, B hücresinin en yakın komşusu ayrı bir C hücresiyse, C hücresi ile B arasındaki bağlantı atılır.
Karşılıklı bağlantıların sürdürülmesi; hücrelerin aslında aynı hücre tipleri olma olasılığını artırır. Öte yandan; gereksiz bağlantıları koparmak, her veri kümesine özgü hücre türlerinin yanlış hücre türleriyle birleşmesini önler. Tüm karşılıklı bağlantılar bulunduktan sonra; algoritma tüm veri kümesi dizilerini bir araya getirir. Bunu yaparken, aynı hücre tiplerini birleştirir; ancak hücre türlerini, birleştirilmiş hücrelerden ayrılmış herhangi bir veri kümesine özgü tutar.
Berger: “Karşılıklı bağlantılar, veri kümeleri arasında (doğru) hücre uyumunu sağlayan çapalar oluşturuyor.”
Veri Küçültme, Ölçeklendirme
Scanorama’nın büyük veri setlerine ölçeklenmesini sağlamak için araştırmacılar; iki optimizasyon tekniği kullandılar. Birincisi; veri kümesi boyutluluğunu azaltır. Bir veri kümesindeki her bir hücre potansiyel olarak 20.000’e kadar gen ekspresyon ölçümüne ve birçok boyuta sahip olabilir. Araştırmacılar; hayati bilgileri korurken, yüksek boyutlu veri matrislerini az sayıdaki özelliklerle özetleyen matematiksel bir teknik kullandılar. Temel olarak, bu boyutlarda 100 kat azalmaya yol açtı.
Ayrıca; en yakın karşılıklı komşuları daha hızlı bulmak için popüler bir karma tekniği kullandılar. Geleneksel olarak; azaltılmış numuneler üzerinde bile hesaplama yapmak saatler alacaktır. Ancak karma tekniği temel olarak, en yüksek olasılıklarıyla en yakın komşuları oluşturur. Algoritma; karşılıklı bağlantıları bulmak için yalnızca en yüksek olasılıklıları aramaya ihtiyaç duyar, bu da arama alanını azaltır ve işlemi daha az hesaplama açısından daha yoğun hale getirir.
Ayrı bir çalışmada araştırmacılar, Scanorama’yı; 500.000’den fazla hücrenin iki saatten sekiz dakikaya kadar birleştirilmesi süresini azaltan kapsamlı hücre veri setlerinin kapsamlı örnekleri veya “taslaklarını” üreten başka bir teknikle birleştirdiler. Bunu yapmak için “geometrik taslaklar” ürettiler. Üzerlerine Scanorama çalıştılar ve geometrik skeçleri daha büyük veri setleriyle birleştirmek hakkında öğrendikleri şeyleri belirlendiler. Bu tekniğin kendisi, Berger’in grubu tarafından geliştirilen, sıkıştırıcı genomikten kaynaklanmaktadır.