DevVeri.com

Boğulacaksan büyük veride boğul!

Hadoop

Apache Hadoop 3.0

Uzun zamandır 2.x sürümüyle devam eden Hadoop projesinde 13 Aralık 2017 tarihinde yeni sürüm olan Hadoop 3.0 yayınlandı. Bu yeni sürümde ne gibi özellikler olduğunu bu yazıda özetlemeye çalışacağız; Java Update: Bütün proje minimum Java sürümü Java 8 olacak şekilde derlendi. Dolayısı ile Hadoop 3.0 kullanmak isteyenlerin Java sürümünü de yükseltmesi gerekecek. HDFS Erasure Coding: Yeni […]

, , ,

Hive Veritabanları Arası Tablo Taşıma

Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]

,

Apache Sentry ile Yetkilendirme

Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]

, , , ,

Hive İç İçe Sorgu Kullanımı

Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]

, , ,

Hadoop Workshop Etkinliği

İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden […]

, , ,

Hadoop Nereden Başlamalıyım?

Devveri.com takipçileri arasında Hadoop teknolojileri ile ilgilenen, kendini bu konuda geliştirmek isteyenlerden birçok email alıyorum. En çok sorulan soru “Nereden başlamalıyım?” oluyor. Bu konularda kendinizi geliştirmek istiyorsanız önünüzde çok fazla seçenek var. 1. Eğitim Bir konuyu hızlıca öğrenmek, hemen uygulamaya dökmek isterseniz en iyi yolu bu konuda tecrübeli kişilerden eğitim almak. Cloudera ve Hortonworks firmalarının […]

, ,

Apache Nutch

Tarihçe ve Tanım Dev veriden bahsedildiğinde Hadoop’un başlangıç projesi olan Nutch’tan söz etmemek olmaz. “Hadoop nasıl başladı?” sorusunun cevabı bizi Nutch isimli Apache projesine götürür. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı. Peki Nutch için HDFS ve MapReduce neden gerekli? […]

, ,

Apache Pig – Domuzcuğun Hikayesi

Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]

, ,

Hive ile HBase Entegrasyonu

Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]

, ,

Hive JDBC Bağlantısı

Hive üzerindeki verilere erişmenin birkaç yöntemi var. Bu yöntemlerden birisi de JDBC sürücüsünü kullanmak. Hive JDBC sürücüsü ile verileri programatik olarak sorgulamak ve bir SQL arayüzü (örneğin SQuirreL) kullanmak mümkün hale geliyor. Hive tarafından yönetilen verilerin dışarı açılmasını HiveServer2 uygulaması sağlıyor. Önceden HiveServer (ya da ThriftServer) olarak adlandırılan bu uygulama aynı anda sadece tek bir […]

, ,

Pig üzerinden Hadoop ile MongoDB Entegrasyonu

Açık kaynaklı büyük veri teknolojilerinin en beğendiğim özelliği, birden fazla projeyi birlikte kullanabilmek. Bu sayede, farklı projelerin güçlü olduğu taraflardan faydalanarak ortaya daha büyük bir değer çıkartmak mümkün oluyor. Bu yazıda MongoDB ile Hadoop‘u Pig üzerinden entegre ederek nasıl kullanabileceğimize bir örnek vermeye çalışacağız. Hazırlık MongoDB’nin geliştirdiği connector sayesinde, MongoDB’deki verileri Hadoop üzerine taşımak ya da […]

, , ,

Apache Flume ile Veri Toplama

Devveri, big data, büyük ölçekli veri analizi sözkonusu olduğunda artık Hadoop hızlıca konu başlığı olur durumda. Nerdeyse konu sadece Hadoop ile ilgili, “devveri” başlığı ise sadece nezaketen söylenen bir genelleme gibi. Hadoop dendiğinde ise konu doğrudan MapReduce ve bazen HDFS oluyor. Durum, tarihsel oluşum sebebiyle normal olmakla beraber devveri konusunun sadece MapReduce ve HDFS’ten ibaret […]

, , ,

Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama

Hadoop üzerindeki verileri SQL arayüzü ile analiz etmek amacıyla Hive projesi yaygın bir şekilde kullanılıyor. Hive ile yazılan SQL sorguları Hadoop mimarisinde dağıtık bir şekilde çalıştırılmak amacıyla MapReduce kodlarına çevriliyor. Bu sayede klasik RDBMS’lerin çoğunun cevap dahi veremeyeceği sorgular Hive ile kısa bir zamanda tamamlanabiliyor. Örneğin sağlam bir donanıma da sahip olsa tek bir MySQL sunucusu […]

, , , , ,

Hadoop 2.0 – YARN

Apache Hadoop 2.0 sürümünde alt proje olarak yayınlanan YARN (Yet Another Resource Negotiator) kaynak yönetimi ile veri işleme bileşenlerini ayırıp, mimarideki eksikleri ve yeni ihtiyaçları da gözeterek, Hadoop’un gücünü bir sonraki adıma taşımayı hedefliyor.YARN, bu yeni mimari ile HDFS üzerinde çalışacak MapReduce, HBase, Giraph, Storm gibi uygulamaların temelini oluşturacak. Bu sayede MapReduce’e bağımlı kalmadan diğer yeteneklere de […]

, ,

Sqoop ile Veritabanı Hadoop Arasında Veri Aktarımı

Hadoop platformunun en büyük özelliklerinden birisi de farklı kaynaklardan farklı formatlarda gelen verilerin saklanması ve analiz edilebilmesini sağlaması. İlişkisel veritabanında saklanan verilerin Hadoop üzerinde efektif biçimde işlenebilmesi için bu verilerin HDFS üzerine aktarılması gerekiyor. Sqoop, ilişkisel veritabanları ile Hadoop arasında veri aktarımı için tasarlanmış bir açık kaynaklı bir araç olarak karşımıza çıkıyor. Zaten ismi de Sql-to-Hadoop kelimelerinden […]

, , ,

Previous Posts