Facebook Presto
Presto, Facebook tarafından geliştirilmiş ve açık kaynaklı hale getirilmiş bir proje. Presto da diğer Dağıtık SQL motoru çözümleriyle (Impala, Drill, Spark SQL) aynı amacı güdüyor ve mimari olarak da olduça benzer. Hive projesini de Facebook’un geliştirdiğini düşünecek olursak projeden beklentimiz oldukça yüksek. Ancak arkasında bir topluluk veya ticari bir firma olmadığı için de geleceği konusunda kafamızda bir […]
Spark SQL
Apache Spark projesinin yeteneklerinden birisi de SQL ve HiveQL arayüzleri ile veri işleyebilmesi. Yazıyı yayınlamadan önce bu proje Shark olarak isimlendiriliyordu, ancak ismi değiştirilerek Spark SQL olarak adlandırıldı ve mevcut projeye dahil edildi. Spark SQL Hive, Impala, Drill projelerine bir alternatif oluşturuyor. JSON, Parquet vs gibi populer tüm veri tiplerini destekliyor. Ayrıca Hive metadata’sını da […]
Apache Nutch
Tarihçe ve Tanım Dev veriden bahsedildiğinde Hadoop’un başlangıç projesi olan Nutch’tan söz etmemek olmaz. “Hadoop nasıl başladı?” sorusunun cevabı bizi Nutch isimli Apache projesine götürür. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı. Peki Nutch için HDFS ve MapReduce neden gerekli? […]
Apache Spark
Apache Spark bugünlerde ismini daha sık duymaya başladığımız, büyük veri işleme amaçlı bir diğer proje. Hadoop’tan 100 kat daha hızlı olmak gibi bir iddia ile birlikte, gelişmiş “Directed Acyclic Graph” motoruna sahip, Scala dili ile yazılmış ve bellek-içi (in-memory) veri işleme özellikleriyle bu iddiayı boşa çıkartmıyor gibi görünüyor. Özellikle Yapay Öğrenme algoritmalarının dağıtık implementasyonu konusunda Hadoop’tan daha performanslı olduğunu söyleyebiliriz. […]
ElasticSearch ve Pig Entegrasyonu
Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]
Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi
Dilişim 6-9 Mayıs 2014 tarihlerinde İstanbul’da Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi. Eğitim CCDH (Cloudera Certified Developer for Apache Hadoop) sertifikalı İsmail Keskin tarafından verildi. Eğitim sırasında aşağıdaki konular uygulamalı olarak işlendi: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak ve iş akışı ve yaygın algoritmaların gerçekleştirilmesi […]
Apache Pig – Domuzcuğun Hikayesi
Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]
Büyük Veri, Veri Bilimi ve Ontoloji
Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]
Pig üzerinden Hadoop ile MongoDB Entegrasyonu
Açık kaynaklı büyük veri teknolojilerinin en beğendiğim özelliği, birden fazla projeyi birlikte kullanabilmek. Bu sayede, farklı projelerin güçlü olduğu taraflardan faydalanarak ortaya daha büyük bir değer çıkartmak mümkün oluyor. Bu yazıda MongoDB ile Hadoop‘u Pig üzerinden entegre ederek nasıl kullanabileceğimize bir örnek vermeye çalışacağız. Hazırlık MongoDB’nin geliştirdiği connector sayesinde, MongoDB’deki verileri Hadoop üzerine taşımak ya da […]
Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama
Hadoop üzerindeki verileri SQL arayüzü ile analiz etmek amacıyla Hive projesi yaygın bir şekilde kullanılıyor. Hive ile yazılan SQL sorguları Hadoop mimarisinde dağıtık bir şekilde çalıştırılmak amacıyla MapReduce kodlarına çevriliyor. Bu sayede klasik RDBMS’lerin çoğunun cevap dahi veremeyeceği sorgular Hive ile kısa bir zamanda tamamlanabiliyor. Örneğin sağlam bir donanıma da sahip olsa tek bir MySQL sunucusu […]
Sqoop ile Veritabanı Hadoop Arasında Veri Aktarımı
Hadoop platformunun en büyük özelliklerinden birisi de farklı kaynaklardan farklı formatlarda gelen verilerin saklanması ve analiz edilebilmesini sağlaması. İlişkisel veritabanında saklanan verilerin Hadoop üzerinde efektif biçimde işlenebilmesi için bu verilerin HDFS üzerine aktarılması gerekiyor. Sqoop, ilişkisel veritabanları ile Hadoop arasında veri aktarımı için tasarlanmış bir açık kaynaklı bir araç olarak karşımıza çıkıyor. Zaten ismi de Sql-to-Hadoop kelimelerinden […]
ElasticSearch Solr Karşılaştırması
Bu yazıda Solr gibi Lucene tabanlı bir full text search engine olan ElasticSearch‘ü genel hatlarıyla inceleyeceğiz. Ancak öncelikle popüler bir tartışma olan ElasticSearch mü Solr mı değinelim. Daha önce full text search engine araştırıp Solr’ı seçtiyseniz, konfigurasyon dosyasında boğulmuş, türkçe karakterlerde sıkıntı çekmiş olabilirsiniz. (v 3.6.2’ye kadar) ElasticSearch’de bunların hiçbirini yaşamayacağınızı belirterek öncelikle içinizi rahatlatayım. […]
Hadoop Kitap Önerileri
Hadoop: The Definitive Guide MapReduce, HDFS ve bunların çalışma mantığı, Hadoop’un küme olarak nasıl yapılandırıldığı, bu kümelerin yönetimi ve bakımı, giriş seviyesinde Pig, Hive, HBase konularını işleyen, Hadoop konusunda merak edebileceğiniz tüm temel konuları içeren, başucu eseri diyebileceğimiz 3. baskısını yapan bir kitap. Hadoop Operations Geçtiğimiz yılın sonunda yayınlanan ve Hadoop Definitive Guide’dan sonra yayınlanan […]
Apache Pig
Apache Pig, Hadoop üzerindeki verileri işlemek için geliştilmiş, Pig Latin olarak adlandırılan basit bir dile sahip, açık kaynaklı bir projedir. 2006 yılında Yahoo tarafından geliştirilmeye başlanmıştır. MapReduce ile yapmak istediğiniz analizleri Pig ile daha kolay geliştirebilirsiniz. Ayrıca geliştirdiğiniz Pig kodları MapReduce programlarına dönüşmeden önce optimize edildiğinden normalden daha performanslı çalışacaktır. Pig’in en büyük özelliği ise, […]
Hadoop MapReduce Örnek Uygulama
Bu yazımızda Cloudera CDH3 Hadoop Kurulumu yazımızın devamı olarak Hadoop üzerinde Java dili ile örnek bir MapReduce uygulamasının nasıl yazıldığını incelemeye çalışacağız. Hadoop platformu da Java dili ile geliştirildiği için MapReduce uygulamaları da temelde Java ile geliştiriliyor. Ancak Hadoop streaming özelliği sayesinde C, Python gibi dillerin yanı sıra Pig diliyle de yüksek seviyede MapReduce uygulamaları yazmak […]