Büyük Verinin Kaynakları 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Büyük Verinin Kaynakları

Sonuç

Yapısal veriler, arama motoru pazarlamasının geleceğidir. Büyülü anahtar kelime sayımlarının veya backlinklerin arama motoru sıralamasının başarısını garantilediği günler artık geride kalmış bulunmaktadır.

 

 

2. Yarı yapısal veri: Yarı yapısal veya kendi kendini açıklayan (self-describing) veri, yapısal bir veri türünü yansıtmakla birlikte özünde sadece katı bir modeli barındırmamaktadır. Diğer bir ifadeyle yarı yapısal veri, yapısallığın tanımlandığı modellerin yanı sıra belirli ögeleri ve verideki farklı alanların hiyerarşik bir gösterimini tanımlamak adına kullanılan etiketler ve işaretler gibi çeşitli meta modelleri de bulundurmaktadır. Yarı yapısal verinin en çok bilinen örnekleri arasında XML (Extensible Markup Language) ve JSON (JavaScript Object Notation) programlama dilleri yer almaktadır.

3. Yapısal olmayan veri: Yapısal olmayan veri, tanımlı bir format haricinde sunulan ve depolanan kayıt türleridir. Genellikle, kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim, ses ve video gibi medya dosyalarından oluşmaktadır. Bu türdeki verinin katı bir şekilde sunulmasının zor olması, veri işleme süreçlerinde NoSQL (Not only SQL) gibi yeni mekanizmaların ortaya çıkmasına neden olmuştur.

Bugün düne göre daha fazla veri kaynağının varlığı söz konusudur. Akıllı telefonlar, tablet bilgisayarlar, sensörler, tıbbi ekipmanlar, web trafiği kayıtları, sosyal ağlardaki etkileşimler ve eczacılık, meteoroloji, simülasyon gibi alanlarda çözümler sunan bilimsel araştırmalar gibi birçok kaynak, büyük veriyi beslemektedir (Schneider, 2012, s. 6). Bununla birlikte web ortamının artan heterojenliği, web sayfaları üzerinde farklı medyalarda (örneğin metin, resim ve video), türlerde (örneğin ansiklopedi, haber, bloglar) ve konularda (örneğin eğlence, spor, teknoloji) büyük veri içeriğinin sağlanmasına neden olmaktadır (Achsas ve Nfaoui, 2017, s. 1).

Büyük veri çeşitliliğinin artmasında çok sayıda veri kaynağı etkili olmaktadır. Bu kaynaklardan bir kısmı tamamen yeni veri kaynağı olabilmekteyken, bazı veri kaynakları da mevcut verinin ayrışması, diğer bir ifadeyle mevcut kaynakların sayısal ortama aktarılması sonucu ortaya çıkmaktadır. Birçok endüstriyel alan, yeni veri üretimi ve mevcut verinin sayısallaştırılması şemsiyesi altına girmekte ve her biri ayrı bir büyük veri kaynağını oluşturmaktadır. Büyük veriyi büyüten endüstriler aşağıdaki gibi sıralanabilir (Ohlhorst, 2013, s. 41):

•Taşımacılık, lojistik, perakendecilik, kamu hizmeti ve telekomünikasyon: Taşımacılık, lojistik, perakendecilik, kamu hizmeti ve telekomünikasyon endüstriyel alanlarında kullanılan GPS alıcı- vericileri, RFID etiket okuyucuları, akıllı sayaçlar ve telefonlarda yer alan sensörler vasıtasıyla gittikçe artan bir hızda veri toplanmaktadır. Toplanan bu veri, operasyonları optimize etmek, anlık olarak ortaya çıkan iş fırsatlarının farkına varmak ve örgütsel iş zekâsını (business intelligence) çalıştırmak amaçlı kullanılabilmektedir.

• Sağlık hizmetleri: Sağlık hizmetleri endüstrisi, hızlı bir şekilde elektronik tıbbi görüntüleme ve raporlamadan yararlanmaya doğru hareket etmektedir. Elektronik tıbbi görüntüleme ve raporlama verisine, kısa dönemli halk sağlığının gözlemlenmesinde ve uzun dönemli salgın hastalıkların araştırılmasında kullanılmak üzere ihtiyaç duyulmaktadır.

• Devlet: Birçok devlet kuruluşu, nüfus sayımı, enerji kullanımı, bütçe raporları, kanunsal yaptırım sonuçları, seçim sonuçları gibi halka ait raporları sayısal ortama aktarmakta ve halkın erişimine sunmaktadır. Bu tarz veri, kamu kuruluşları ve bölgesel topluluklar tarafından tutulan ve geniş yelpazede faaliyet gösteren iş ve yönetim uygulamalarında kullanılabilen veridir. Bu verinin büyük çoğunluğu web ortamında serbestçe erişilebilecek durumdayken bazıları da belirli bir ücret karşılığı elde edilebilmektedir.

• Eğlence medyası: Kitap, gazete, magazin, televizyon, radyo, film, sinema, müzik ve oyun gibi birçok alanda hizmet veren eğlence endüstrisi, son 5 yılda artan bir hızda sayısal kayıt, üretim ve dağıtıma doğru bir geçiş sergilemiştir. Bugün eğlence medyasında kişi ve toplumların davranışlarını gözlemleyen geniş içerikte veri toplanmaktadır.

• Yaşam bilimleri: Yaşam bilimleri endüstrisindeki veri üretimine örnek olarak düşük maliyetli gen sayımı verilebilir. 1.000 Amerikan dolarından daha düşük maliyette gerçekleştirilebilen gen sayımı, genetik çeşitliliği araştırmada ve potansiyel tedavi etkinliğini belirlemede analiz edilebilecek onlarca terabaytlık veriyi oluşturmaktadır.

•Video görüntüleme: Video görüntüleme endüstrisinde, alt yazılı televizyon teknolojisinden IP temelli televizyon kameralarına ve kayıt sistemlerine doğru ilerleme kaydedilmiştir. IP temelli yeni teknolojik kamera verisi, güvenlik ve servis hizmetlerinin geliştirilmesi amacıyla analiz edilmek üzere toplanmaktadır.

Büyük verinin diğer veri setlerinden ayrılan en önemli kısmı çok farklı kaynaklardan çok hızlı bir şekilde besleniyor olmasıdır. Temel olarak büyük verinin kaynaklarını (i) dolaşan veriler, (ii) sosyal medya uygulamaları üzerinden toplanan veriler ve (iii) kamuya açık veri tabanları olmak üzere üçe ayırarak ifade etmek mümkündür.

Dolaşan veri ile ifade edilmek istenen, anlık olarak operasyonlar sırasında elde edilen bir ağ ya da formlar üzerinden süreçler içerisinde akan veridir. Veri madenciliğinin ilgi alanına giren bu akışlarda genel olarak bir sınıflandırma yolu ile yarar elde edilmektedir. Örneğin, anlık olarak bir internet sitesinin kullanımının konum bazlı olarak sınıflandırılması, bu sınıflandırmanın daraltılıp genişletilmesi veri madenciliği konusudur.

Sosyal medya uygulamaları üzerinden ise genellikle pazarlama, satış ve destek hizmetlerinin geliştirilmesi amacı ile sosyal medya etkileşim verileri kullanılmaktadır.

Kamuya açık veri tabanları ise genellikle istatistiki olarak bilgi paylaşımı yapan ve belirli bir grup verinin anlamlı bir sonucu olarak sunulmuş veri setleri olarak tanımlanmaktadır. Örneğin, Amerika Birleşik Devletleri yaklaşık 15 farklı kategoride derlediği birçok veri yığınını kamuya açık tutmaktadır. Yine Amerika Birleşik Devletleri vatandaşlarının sağlık alanındaki verilerini nüfus, coğrafi ve eğitim tabanlı veri setleri üzerinden kamuya açıklanmaktadır. Benzer kamuya açık veri setleri Avrupa Birliği, Birleşik Krallık ve Türkiye tarafından da paylaşılmaktadır. Google, Facebook, Amazon, Wikipedia gibi teknoloji şirketleri de kamuya açık veri tabanlarını yönetmektedirler.

 



Поделиться:


Последнее изменение этой страницы: 2024-07-06; просмотров: 42; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.196 (0.005 с.)