ElasticSearch ve Pig Entegrasyonu
Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]
Apache Pig – Domuzcuğun Hikayesi
Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]
Pig üzerinden Hadoop ile MongoDB Entegrasyonu
Açık kaynaklı büyük veri teknolojilerinin en beğendiğim özelliği, birden fazla projeyi birlikte kullanabilmek. Bu sayede, farklı projelerin güçlü olduğu taraflardan faydalanarak ortaya daha büyük bir değer çıkartmak mümkün oluyor. Bu yazıda MongoDB ile Hadoop‘u Pig üzerinden entegre ederek nasıl kullanabileceğimize bir örnek vermeye çalışacağız. Hazırlık MongoDB’nin geliştirdiği connector sayesinde, MongoDB’deki verileri Hadoop üzerine taşımak ya da […]
Pig ve Hive ile Hadoop Üzerinde Veri Analizi
Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunuma buradan ulaşabilirsiniz: Pig ve Hive ile Hadoop üzerinde Veri Analizi from Hakan Ilter Sunumdan bir fotoğraf:
Apache Pig
Apache Pig, Hadoop üzerindeki verileri işlemek için geliştilmiş, Pig Latin olarak adlandırılan basit bir dile sahip, açık kaynaklı bir projedir. 2006 yılında Yahoo tarafından geliştirilmeye başlanmıştır. MapReduce ile yapmak istediğiniz analizleri Pig ile daha kolay geliştirebilirsiniz. Ayrıca geliştirdiğiniz Pig kodları MapReduce programlarına dönüşmeden önce optimize edildiğinden normalden daha performanslı çalışacaktır. Pig’in en büyük özelliği ise, […]
Eclipse Pig Entegrasyonu
Apache Pig projesi ile ilgili detaylı bir yazı yazmayı planlıyoruz fakat bundan önce Pig script geliştirmeyi kolaylaştıracak bir paylaşım yapmak istedim. Bu yazıda Pig scriptlerini Eclipse üzerinden nasıl çalıştırdığımı paylaşacağım, umarım işinize yarar.Eclipse üzerinden Pig geliştirmek için kullanmak için öncelikle PigEditor eklentisini kurdum. Bu eklenti kodları renklendirip yazım hatalarını gösteriyor. Bunun dışında pek bir özelliği yok. […]
Amazon EMR
Amazon EMR Nedir? Amazon Elastic MapReduce (EMR), büyük veri işlemeyi kolaylaştırmak amacıyla Amazon tarafından yönetilen, içerisinde Hadoop, Spark gibi açık kaynaklı büyük veri teknolojilerini içeren bir servistir. Aslında temelde AWS üzerinde Hadoop kümesi kurmak için tek tek sunucuları açmak, gerekli yazılımları yüklemek gibi işlemleri otomatik olarak yapmaktadır. Bu sayede tek tık ile bir kümeyi kurabileceğiniz […]
Cloudera Data Analyst Eğitimi Ankara
Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Cloudera Data Analist eğitimini 24-27 Şubat 2015 tarihlerinde ANKARA’da gerçekleştirecek. Eğitmen eşliğinde alıştırmalar ile katılımcılar aşağıdaki konulara yoğunlaşacaktır: Pig, Hive ve Impala’nın veri alma, saklama ve analiz etme özellikleri Apache Hadoop ve ETL’in (extract, transform, load) temel özellikleri Pig, Hive ve Impala ile veri […]
Cloudera Hadoop Developer Eğitimi
Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Apache Hadoop geliştirici eğitimini 22-25 Eylül 2014 tarihlerinde İstanbul’da gerçekleştirecek. Eğitim süresince: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak, iş akışı ve yaygın algoritmaların gerçekleştirilmesi için en iyi pratikler Hive, Pig, Sqoop, Flume, Oozie, Mahout ve […]
Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi
Dilişim 6-9 Mayıs 2014 tarihlerinde İstanbul’da Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi. Eğitim CCDH (Cloudera Certified Developer for Apache Hadoop) sertifikalı İsmail Keskin tarafından verildi. Eğitim sırasında aşağıdaki konular uygulamalı olarak işlendi: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak ve iş akışı ve yaygın algoritmaların gerçekleştirilmesi […]
Hadoop Kitap Önerileri
Hadoop: The Definitive Guide MapReduce, HDFS ve bunların çalışma mantığı, Hadoop’un küme olarak nasıl yapılandırıldığı, bu kümelerin yönetimi ve bakımı, giriş seviyesinde Pig, Hive, HBase konularını işleyen, Hadoop konusunda merak edebileceğiniz tüm temel konuları içeren, başucu eseri diyebileceğimiz 3. baskısını yapan bir kitap. Hadoop Operations Geçtiğimiz yılın sonunda yayınlanan ve Hadoop Definitive Guide’dan sonra yayınlanan […]
Hadoop MapReduce Örnek Uygulama
Bu yazımızda Cloudera CDH3 Hadoop Kurulumu yazımızın devamı olarak Hadoop üzerinde Java dili ile örnek bir MapReduce uygulamasının nasıl yazıldığını incelemeye çalışacağız. Hadoop platformu da Java dili ile geliştirildiği için MapReduce uygulamaları da temelde Java ile geliştiriliyor. Ancak Hadoop streaming özelliği sayesinde C, Python gibi dillerin yanı sıra Pig diliyle de yüksek seviyede MapReduce uygulamaları yazmak […]
Hadoop
Hadoop, sıradan sunuculardan (commodity hardware) oluşan küme (cluster) üzerinde büyük verileri işlemek amaçlı uygulamaları çalıştıran ve Hadoop Distributed File System (HDFS) olarak adlandırılan bir dağıtık dosya sistemi ile Hadoop MapReduce özelliklerini bir araya getiren, Java ile geliştirilmiş açık kaynaklı bir kütüphanedir. Daha yalın bir dille anlatmak gerekirse, Hadoop, HDFS ve MapReduce bileşenlerinden oluşan bir yazılımdır. HDFS sayesinde sıradan sunucuların diskleri […]
Big Data
“Big Data” yani Türkçesi “Büyük Veri” (biz Dev Veri diyoruz), tanımı sadece “diskte çok fazla yer kaplayan veri” anlamına değil, aynı zamanda geleneksel yöntem ve araçlarla işlenemeyen veri anlamına da geliyor.Teknolojinin ilerlemesi, internetin gelişmesi ve sosyal medya devrimi sayesinde bilginin gücünün öne çıkması iş yapma şeklimizi kökten değiştirdi. Firmalar bir adım öne geçebilmek için fark […]
Yazarlar
“Big Data” kavramının Türkçe karşılığından ismini alan sitemiz, Big Data, NoSQL, Doğal Dil İşleme, Ölçeklenebilirlik gibi konularda Türkçe kaynak eksikliğine çare olmak isteyen, bu sırada da kendini geliştirmeyi hedefleyen kişilerin bir araya gelmesiyle oluştu. Amacımız bu konulardaki bilgi paylaşımını olabildiğince arttırmak. Eğer siz de Büyük Veri, Veri Madenciliği, Veri Bilimi, Hadoop, Hive, Pig, HCatalog, Storm, Mahout, […]