DevVeri.com

Boğulacaksan büyük veride boğul!

Hadoop

Apache Pig – Domuzcuğun Hikayesi

Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]

, ,

Büyük Veri, Veri Bilimi ve Ontoloji

Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]

, , ,

Hive ile HBase Entegrasyonu

Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]

, ,

Hive JDBC Bağlantısı

Hive üzerindeki verilere erişmenin birkaç yöntemi var. Bu yöntemlerden birisi de JDBC sürücüsünü kullanmak. Hive JDBC sürücüsü ile verileri programatik olarak sorgulamak ve bir SQL arayüzü (örneğin SQuirreL) kullanmak mümkün hale geliyor. Hive tarafından yönetilen verilerin dışarı açılmasını HiveServer2 uygulaması sağlıyor. Önceden HiveServer (ya da ThriftServer) olarak adlandırılan bu uygulama aynı anda sadece tek bir […]

, ,

Pig üzerinden Hadoop ile MongoDB Entegrasyonu

Açık kaynaklı büyük veri teknolojilerinin en beğendiğim özelliği, birden fazla projeyi birlikte kullanabilmek. Bu sayede, farklı projelerin güçlü olduğu taraflardan faydalanarak ortaya daha büyük bir değer çıkartmak mümkün oluyor. Bu yazıda MongoDB ile Hadoop‘u Pig üzerinden entegre ederek nasıl kullanabileceğimize bir örnek vermeye çalışacağız. Hazırlık MongoDB’nin geliştirdiği connector sayesinde, MongoDB’deki verileri Hadoop üzerine taşımak ya da […]

, , ,

Apache Flume ile Veri Toplama

Devveri, big data, büyük ölçekli veri analizi sözkonusu olduğunda artık Hadoop hızlıca konu başlığı olur durumda. Nerdeyse konu sadece Hadoop ile ilgili, “devveri” başlığı ise sadece nezaketen söylenen bir genelleme gibi. Hadoop dendiğinde ise konu doğrudan MapReduce ve bazen HDFS oluyor. Durum, tarihsel oluşum sebebiyle normal olmakla beraber devveri konusunun sadece MapReduce ve HDFS’ten ibaret […]

, , ,

Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama

Hadoop üzerindeki verileri SQL arayüzü ile analiz etmek amacıyla Hive projesi yaygın bir şekilde kullanılıyor. Hive ile yazılan SQL sorguları Hadoop mimarisinde dağıtık bir şekilde çalıştırılmak amacıyla MapReduce kodlarına çevriliyor. Bu sayede klasik RDBMS’lerin çoğunun cevap dahi veremeyeceği sorgular Hive ile kısa bir zamanda tamamlanabiliyor. Örneğin sağlam bir donanıma da sahip olsa tek bir MySQL sunucusu […]

, , , , ,

Hadoop 2.0 – YARN

Apache Hadoop 2.0 sürümünde alt proje olarak yayınlanan YARN (Yet Another Resource Negotiator) kaynak yönetimi ile veri işleme bileşenlerini ayırıp, mimarideki eksikleri ve yeni ihtiyaçları da gözeterek, Hadoop’un gücünü bir sonraki adıma taşımayı hedefliyor.YARN, bu yeni mimari ile HDFS üzerinde çalışacak MapReduce, HBase, Giraph, Storm gibi uygulamaların temelini oluşturacak. Bu sayede MapReduce’e bağımlı kalmadan diğer yeteneklere de […]

, ,

Sqoop ile Veritabanı Hadoop Arasında Veri Aktarımı

Hadoop platformunun en büyük özelliklerinden birisi de farklı kaynaklardan farklı formatlarda gelen verilerin saklanması ve analiz edilebilmesini sağlaması. İlişkisel veritabanında saklanan verilerin Hadoop üzerinde efektif biçimde işlenebilmesi için bu verilerin HDFS üzerine aktarılması gerekiyor. Sqoop, ilişkisel veritabanları ile Hadoop arasında veri aktarımı için tasarlanmış bir açık kaynaklı bir araç olarak karşımıza çıkıyor. Zaten ismi de Sql-to-Hadoop kelimelerinden […]

, , ,

Pig ve Hive ile Hadoop Üzerinde Veri Analizi

Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunuma buradan ulaşabilirsiniz: Pig ve Hive ile Hadoop üzerinde Veri Analizi from Hakan Ilter Sunumdan bir fotoğraf:

, , ,

Hadoop Kitap Önerileri

Hadoop: The Definitive Guide MapReduce, HDFS ve bunların çalışma mantığı, Hadoop’un küme olarak nasıl yapılandırıldığı, bu kümelerin yönetimi ve bakımı, giriş seviyesinde Pig, Hive, HBase konularını işleyen, Hadoop konusunda merak edebileceğiniz tüm temel konuları içeren, başucu eseri diyebileceğimiz 3. baskısını yapan bir kitap. Hadoop Operations Geçtiğimiz yılın sonunda yayınlanan ve Hadoop Definitive Guide’dan sonra yayınlanan […]

,

Apache Pig

Apache Pig, Hadoop üzerindeki verileri işlemek için geliştilmiş, Pig Latin olarak adlandırılan basit bir dile sahip, açık kaynaklı bir projedir. 2006 yılında Yahoo tarafından geliştirilmeye başlanmıştır. MapReduce ile yapmak istediğiniz analizleri Pig ile daha kolay geliştirebilirsiniz. Ayrıca geliştirdiğiniz Pig kodları MapReduce programlarına dönüşmeden önce optimize edildiğinden normalden daha performanslı çalışacaktır. Pig’in en büyük özelliği ise, […]

, ,

Apache Hive

Apache Hive projesi SQL benzeri bir arayüz yardımıyla Hadoop üzerinde Java kullanmadan sorgulama ve analiz işlemlerini yapmak amacıyla Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir. Özellikle Veri Ambarı (Datawarehouse) uygulamalarını Hadoop kümeleri üzerinde geliştirebilmek için Hive projesi birçok firma tarafından kullanılmaktadır. Hive kurulumuna geçmeden önce Hadoop kurulumunun nasıl yapıldığını buradan inceleyebilirsiniz. […]

, ,

Hadoop 1.0.3 Kurulumu Adım Adım

Daha önceki yazımızda Cloudera’nın CDH3 sürümü olan Hadoop kurulumundan bahsetmiştik. Bu yazımızda da Apache‘nin son stabil sürümü olan 1.0.3 sürümünü paket kullanmadan elle nasıl kurulduğundan bahsedeceğiz. CDH3 kurulumunda sorun yaşayanlar da bu yazıdan faydalanabilirler. 1. Kurulumun öncesinde sisteminizde yüklü Java olması ve openssh-server ve rsync paketlerinin kurulması gerekiyor. sudo apt-get install ssh sudo apt-get install […]

, ,

Hadoop MapReduce Örnek Uygulama

Bu yazımızda Cloudera CDH3 Hadoop Kurulumu yazımızın devamı olarak Hadoop üzerinde Java dili ile örnek bir MapReduce uygulamasının nasıl yazıldığını incelemeye çalışacağız. Hadoop platformu da Java dili ile geliştirildiği için MapReduce uygulamaları da temelde Java ile geliştiriliyor. Ancak Hadoop streaming özelliği sayesinde C, Python gibi dillerin yanı sıra Pig diliyle de yüksek seviyede MapReduce uygulamaları yazmak […]

,

Previous Posts Next posts