Hive
Hive Veritabanları Arası Tablo Taşıma
Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]
Apache Sentry ile Yetkilendirme
Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]
Hive İç İçe Sorgu Kullanımı
Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]
Facebook Presto
Presto, Facebook tarafından geliştirilmiş ve açık kaynaklı hale getirilmiş bir proje. Presto da diğer Dağıtık SQL motoru çözümleriyle (Impala, Drill, Spark SQL) aynı amacı güdüyor ve mimari olarak da olduça benzer. Hive projesini de Facebook’un geliştirdiğini düşünecek olursak projeden beklentimiz oldukça yüksek. Ancak arkasında bir topluluk veya ticari bir firma olmadığı için de geleceği konusunda kafamızda bir […]
Spark SQL
Apache Spark projesinin yeteneklerinden birisi de SQL ve HiveQL arayüzleri ile veri işleyebilmesi. Yazıyı yayınlamadan önce bu proje Shark olarak isimlendiriliyordu, ancak ismi değiştirilerek Spark SQL olarak adlandırıldı ve mevcut projeye dahil edildi. Spark SQL Hive, Impala, Drill projelerine bir alternatif oluşturuyor. JSON, Parquet vs gibi populer tüm veri tiplerini destekliyor. Ayrıca Hive metadata’sını da […]
Hive ile HBase Entegrasyonu
Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]
Hive JDBC Bağlantısı
Hive üzerindeki verilere erişmenin birkaç yöntemi var. Bu yöntemlerden birisi de JDBC sürücüsünü kullanmak. Hive JDBC sürücüsü ile verileri programatik olarak sorgulamak ve bir SQL arayüzü (örneğin SQuirreL) kullanmak mümkün hale geliyor. Hive tarafından yönetilen verilerin dışarı açılmasını HiveServer2 uygulaması sağlıyor. Önceden HiveServer (ya da ThriftServer) olarak adlandırılan bu uygulama aynı anda sadece tek bir […]
Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama
Hadoop üzerindeki verileri SQL arayüzü ile analiz etmek amacıyla Hive projesi yaygın bir şekilde kullanılıyor. Hive ile yazılan SQL sorguları Hadoop mimarisinde dağıtık bir şekilde çalıştırılmak amacıyla MapReduce kodlarına çevriliyor. Bu sayede klasik RDBMS’lerin çoğunun cevap dahi veremeyeceği sorgular Hive ile kısa bir zamanda tamamlanabiliyor. Örneğin sağlam bir donanıma da sahip olsa tek bir MySQL sunucusu […]
Sqoop ile Veritabanı Hadoop Arasında Veri Aktarımı
Hadoop platformunun en büyük özelliklerinden birisi de farklı kaynaklardan farklı formatlarda gelen verilerin saklanması ve analiz edilebilmesini sağlaması. İlişkisel veritabanında saklanan verilerin Hadoop üzerinde efektif biçimde işlenebilmesi için bu verilerin HDFS üzerine aktarılması gerekiyor. Sqoop, ilişkisel veritabanları ile Hadoop arasında veri aktarımı için tasarlanmış bir açık kaynaklı bir araç olarak karşımıza çıkıyor. Zaten ismi de Sql-to-Hadoop kelimelerinden […]
Pig ve Hive ile Hadoop Üzerinde Veri Analizi
Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunuma buradan ulaşabilirsiniz: Pig ve Hive ile Hadoop üzerinde Veri Analizi from Hakan Ilter Sunumdan bir fotoğraf:
Apache Hive
Apache Hive projesi SQL benzeri bir arayüz yardımıyla Hadoop üzerinde Java kullanmadan sorgulama ve analiz işlemlerini yapmak amacıyla Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir. Özellikle Veri Ambarı (Datawarehouse) uygulamalarını Hadoop kümeleri üzerinde geliştirebilmek için Hive projesi birçok firma tarafından kullanılmaktadır. Hive kurulumuna geçmeden önce Hadoop kurulumunun nasıl yapıldığını buradan inceleyebilirsiniz. […]