DevVeri.com

Boğulacaksan büyük veride boğul!

Apache Nutch

Tarihçe ve Tanım Dev veriden bahsedildiğinde Hadoop’un başlangıç projesi olan Nutch’tan söz etmemek olmaz. “Hadoop nasıl başladı?” sorusunun cevabı bizi Nutch isimli Apache projesine götürür. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı. Peki Nutch için HDFS ve MapReduce neden gerekli? […]

, ,

Apache Spark

Apache Spark bugünlerde ismini daha sık duymaya başladığımız, büyük veri işleme amaçlı bir diğer proje. Hadoop’tan 100 kat daha hızlı olmak gibi bir iddia ile birlikte, gelişmiş “Directed Acyclic Graph” motoruna sahip, Scala dili ile yazılmış ve bellek-içi (in-memory) veri işleme özellikleriyle bu iddiayı boşa çıkartmıyor gibi görünüyor. Özellikle Yapay Öğrenme algoritmalarının dağıtık implementasyonu konusunda Hadoop’tan daha performanslı olduğunu söyleyebiliriz. […]

, , , , , ,

ElasticSearch ve Pig Entegrasyonu

Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]

, , ,

Apache Pig – Domuzcuğun Hikayesi

Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]

, ,

Malaysia Airlines Flight 370

Pekin’e varmak üzere 8 Mart 2014 de Kuala Lumpur’dan havalanan 153 ü Çin vatandaşı olmak üzere 15 ülkeden 227 yolcu ve 12 mürettebat olmak üzere toplam 239 kişi taşıyan Boeing 777-200 tipi yolcu uçağı oniki gündür kayıp. Uçağın ve yolcuların akıbeti konusunda somut bir açıklama henüz yok. Olayın ilk günlerinde, bilinmeyen bir nedenle düştüğü düşünülen […]

,

Büyük Veri, Veri Bilimi ve Ontoloji

Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]

, , ,

Hive ile HBase Entegrasyonu

Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]

, ,

Apache Flume ile Veri Toplama

Devveri, big data, büyük ölçekli veri analizi sözkonusu olduğunda artık Hadoop hızlıca konu başlığı olur durumda. Nerdeyse konu sadece Hadoop ile ilgili, “devveri” başlığı ise sadece nezaketen söylenen bir genelleme gibi. Hadoop dendiğinde ise konu doğrudan MapReduce ve bazen HDFS oluyor. Durum, tarihsel oluşum sebebiyle normal olmakla beraber devveri konusunun sadece MapReduce ve HDFS’ten ibaret […]

, , ,

Apache Pig

Apache Pig, Hadoop üzerindeki verileri işlemek için geliştilmiş, Pig Latin olarak adlandırılan basit bir dile sahip, açık kaynaklı bir projedir. 2006 yılında Yahoo tarafından geliştirilmeye başlanmıştır. MapReduce ile yapmak istediğiniz analizleri Pig ile daha kolay geliştirebilirsiniz. Ayrıca geliştirdiğiniz Pig kodları MapReduce programlarına dönüşmeden önce optimize edildiğinden normalden daha performanslı çalışacaktır. Pig’in en büyük özelliği ise, […]

, ,

Apache Hive

Apache Hive projesi SQL benzeri bir arayüz yardımıyla Hadoop üzerinde Java kullanmadan sorgulama ve analiz işlemlerini yapmak amacıyla Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir. Özellikle Veri Ambarı (Datawarehouse) uygulamalarını Hadoop kümeleri üzerinde geliştirebilmek için Hive projesi birçok firma tarafından kullanılmaktadır. Hive kurulumuna geçmeden önce Hadoop kurulumunun nasıl yapıldığını buradan inceleyebilirsiniz. […]

, ,

MongoDB ile MapReduce Kullanımı

MongoDB document-oriented mimariye sahip NoSQL veritabanıdır. MongoDB üzerinde bildiğimiz klasik veritabanlarındaki gibi tablo yapısına sahip değil. Verilerimizi BSON(Binary JSON) şeklinde tutuyor. Tablo yapısı yok onun yerine collectionlar mevcut. (bkz: MongoDB NoSQL Veritabanı) MongoDB üzerinde MapReduce işlemleri javascript ile yapılmaktadır. Klasik veritabanlarındaki count, sum, having gibi işlemleri yapmak için MongoDB üzerinde MapReduce kullanıyoruz. (bkz: MapReduce Nedir?) Örnek product collectionında bulunan verilerim aşağıdaki […]

, ,

MongoDB NoSQL Veritabanı

MongoDB döküman tabanlı bir NoSQL veritabanı sistemidir (bkz: NoSQL nedir?). MongoDB yapısal verileri JSON benzeri dökümanlarlarda (BSON = Binary JSON) tutar. Her türlü sorgulama ve yönetim işleri JavaScript formatında yapılır. MongoDB  2007 yılında 10gen firması tarafından geliştirilmeye başlandı. Şu anda 2.0.5 sürümüyle oldukça stabil hale gelmiş durumda ve foursquare, Craigslist, MTV Networks gibi birçok büyük firma tarafından ciddi şekilde […]

, ,

Eclipse Pig Entegrasyonu

Apache Pig projesi ile ilgili detaylı bir yazı yazmayı planlıyoruz fakat bundan önce Pig script geliştirmeyi kolaylaştıracak bir paylaşım yapmak istedim. Bu yazıda Pig scriptlerini Eclipse üzerinden nasıl çalıştırdığımı paylaşacağım, umarım işinize yarar.Eclipse üzerinden Pig geliştirmek için kullanmak için öncelikle PigEditor eklentisini kurdum. Bu eklenti kodları renklendirip yazım hatalarını gösteriyor. Bunun dışında pek bir özelliği yok. […]

, ,

Big Data

“Big Data” yani Türkçesi “Büyük Veri” (biz Dev Veri diyoruz), tanımı sadece “diskte çok fazla yer kaplayan veri” anlamına değil, aynı zamanda geleneksel yöntem ve araçlarla işlenemeyen veri anlamına da geliyor.Teknolojinin ilerlemesi, internetin gelişmesi ve sosyal medya devrimi sayesinde bilginin gücünün öne çıkması iş yapma şeklimizi kökten değiştirdi. Firmalar bir adım öne geçebilmek için fark […]

Yazarlar

“Big Data” kavramının Türkçe karşılığından ismini alan sitemiz, Big Data, NoSQL, Doğal Dil İşleme, Ölçeklenebilirlik gibi konularda Türkçe kaynak eksikliğine çare olmak isteyen, bu sırada da kendini geliştirmeyi hedefleyen kişilerin bir araya gelmesiyle oluştu. Amacımız bu konulardaki bilgi paylaşımını olabildiğince arttırmak. Eğer siz de Büyük Veri, Veri Madenciliği, Veri Bilimi, Hadoop, Hive, Pig, HCatalog, Storm, Mahout, […]

Previous Posts Next posts