Araştırmacıların raporda verilen yönergeleri kullanarak, birleşik verileri (örneğin, doğrudan karşılaştırılabilir veriler) toplamayı planladığı veri noktalarını gösteren bir dünya haritası./ OpenStreetMap. Forkel ve diğ. 2018/Science Daily

Max Planck İnsanlık Bilimi Enstitüsü tarafından yönetilen Karşılaştırmalı Dil Veri Formatları Girişimi (CLDF) üyesi uluslararası araştırmacı ekip; daha kolay olması için dilbilimsel veri formatlarında yeni kurallar önerisi hazırladı. Araştırmacılar; Dünya çapındaki büyük dilbilim veritabanları arasında paylaşım ve veri karşılaştırmaları yaptılar. Format olan bu yazılım paketi; temel bir ontoloji ve kullanım örnekleri sunar.

Potansiyel karşılaştırmalı çalışmalar için geniş ağ olasılığını dünya çapında giderek artıran dilsel veri tabanları bulunmaktadır. Ancak, bu veritabanları genellikle birbirinden bağımsız olarak oluşturulur ve çoğu zaman benzersiz ve dar bir odağa sahiptir. Bu, verileri kodlamak için kullanılan formatların genellikle farklı olduğu ve verilerin veritabanları arasında etkili bir şekilde karşılaştırılmasında gerçek zorluklar yarattığı anlamına gelir.

Bu sorunları çözmek için, Çapraz Dil Veri Formatları Girişimi (CLDF) oluşturuldu. Scientific Data‘da yayınlanan makalede CLDF; dilsel veri tabanlarında standartlaştırılmış bir format için önerilen yönergeleri ortaya koymaktadır. Ayrıca bu yazılım paketi; temel bir ontoloji ve en iyi uygulamaların kullanım örneklerini de sunmaktadır. Bu çabanın amacı; karşılaştırmalı dilbilimdeki verileri paylaşmak ve yeniden kullanımını kolaylaştırmaktır.

Paylaşımı ve yeniden kullanımı kolaylaştırmak için veri formatlarını standart hale getirme:

 

CLDF; basit, ancak anlamlı olmayı amaçlayan önerilerinin altında bir veri modeli sunmaktadır ve daha önce Karşılaştırmalı Dilbilgisel Veri Projesi için geliştirilen veri modeline dayanmaktadır. Bu modelin dört ana unsuru vardır:

– Diller;

-Parametreler;

-Değerler;

-Kaynaklar.

Modelde, her bir Değer; bir Parametre ve bir Dil ile ilgilidir ve çoklu Kaynaklara dayanabilir. Kaynaklar için Ek Kaynaklar vardır ve Referanslar da İçeriğe sahip olabilir. (Örneğin, basılı referanslar için sayfa numaraları olacaktır.)

CLDF veri modeli; bir veri kümesinin, tablo içeren bir dizi veri dosyasından ve tabloların arasındaki ilişkileri tanımlayan açıklayıcı bir dosyadan oluşan paket biçimdir. Her bir dil veri türü; bir CLDF modülüne ve ek bileşenlere sahiptir ve bu da modülde birden fazla veri türüne karşılık gelen verilerin yönü olacaktır. CLDF modülleri ayrıca CLDF ontolojisinden de terimler içerecektir. Ontoloji; karşılaştırmalı dilbilimdeki iyi bilinen semantiklerle nesneleri ve özellikleri temsil eden bir kelime listesidir. Bu, kullanıcıların bu terimleri tekdüze bir şekilde göndermelerini mümkün kılar.

Doğrulama ve manipülasyonu mümkün kılan bir yazılım paketi:

 

CLDF spesifikasyonları; yaygın olarak desteklenen, CSV, JSON ve BibTeX gibi yaygın dosya formatlarını kullanır. Bu dosyalar, birçok platformda kolayca okunabilir ve yazılabilir.

Daha da önemlisi, standartlaştırılmış format programlama becerisine sahip olmayan araştırmacıların; mevcut araçları kullanarak, önceden mevcut araçlarla veriye erişmelerine ve bunları manipüle etmelerine olanak sağlayacaktır. Bunu kolaylaştırmak için CLDF; CLDF spesifikasyonlarıyla kullanımda komut dosyaları için bir “yemek kitabı” (cookbook) deposu yaratmıştır.

Johann-Mattis, İnsanlık Tarihi Biliminde Max Planck Enstitüsü’nün listesini açıklarken çalışmayı şöyle özetliyor: “Bu verilerle; mümkün olduğunca çok araştırmacıyla karşılaştırma olanağı sunmak istiyoruz. CLDF girişiminin ardındaki itici güçlerden biri olan Robert Forkel; CLDF formatının sadece dilbilimsel verilerle sınırlı olmadığını; aynı zamanda kültürel ve coğrafi verilerin veri tabanlarını da içerebileceğini belirtiyor. CLDF; dilbilimsel ve kültürel evrimde dilsel, kültürel ve çevresel faktörler arasındaki etkileşimle ilgili soruların test edilmesini büyük ölçüde kolaylaştırabilir.”

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

You May Also Like

Mühendisler LEGO Benzeri Yapay Zeka Çipi İnşa Ediyor

Cep telefonlarının, akıllı saatlerin ve diğer giyilebilir cihazların daha yeni bir model…

AI; doktorların COVID-19 salgını sırasında yoğun bakım yataklarından en iyi şekilde yararlanmalarına yardımcı olabilir

Yeni teknoloji, yoğun bakım ünitesi (YBÜ) tedavisine ihtiyaç duyan hastaları belirleyerek COVID-19…

Doğal Dili Programlama Koduna Çeviren Bir Yapay Zeka Sistemi: Codex

  Yapay zeka araştırma şirketi OpenAI, doğal dili programlama koduna çeviren bir…

AI’ye Karanlıkta Renkleri Tanımlamayı Öğretmek

California Üniversitesi‘ndeki bir araştırma ekibi, karanlıkta sınırlı renk görüşü sağlamak için derin…