Hive Veritabanları Arası Tablo Taşıma
Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]
Hive İç İçe Sorgu Kullanımı
Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]
Hive ile HBase Entegrasyonu
Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]
Hive JDBC Bağlantısı
Hive üzerindeki verilere erişmenin birkaç yöntemi var. Bu yöntemlerden birisi de JDBC sürücüsünü kullanmak. Hive JDBC sürücüsü ile verileri programatik olarak sorgulamak ve bir SQL arayüzü (örneğin SQuirreL) kullanmak mümkün hale geliyor. Hive tarafından yönetilen verilerin dışarı açılmasını HiveServer2 uygulaması sağlıyor. Önceden HiveServer (ya da ThriftServer) olarak adlandırılan bu uygulama aynı anda sadece tek bir […]
Pig ve Hive ile Hadoop Üzerinde Veri Analizi
Özgür Yazılım ve Linux Günleri 2013 organizasyonunda yaptığım sunuma buradan ulaşabilirsiniz: Pig ve Hive ile Hadoop üzerinde Veri Analizi from Hakan Ilter Sunumdan bir fotoğraf:
Apache Hive
Apache Hive projesi SQL benzeri bir arayüz yardımıyla Hadoop üzerinde Java kullanmadan sorgulama ve analiz işlemlerini yapmak amacıyla Facebook tarafından geliştirilmiş, daha sonrasında Apache’ye devredilmiş açık kaynaklı bir projedir. Özellikle Veri Ambarı (Datawarehouse) uygulamalarını Hadoop kümeleri üzerinde geliştirebilmek için Hive projesi birçok firma tarafından kullanılmaktadır. Hive kurulumuna geçmeden önce Hadoop kurulumunun nasıl yapıldığını buradan inceleyebilirsiniz. […]
Amazon EMR
Amazon EMR Nedir? Amazon Elastic MapReduce (EMR), büyük veri işlemeyi kolaylaştırmak amacıyla Amazon tarafından yönetilen, içerisinde Hadoop, Spark gibi açık kaynaklı büyük veri teknolojilerini içeren bir servistir. Aslında temelde AWS üzerinde Hadoop kümesi kurmak için tek tek sunucuları açmak, gerekli yazılımları yüklemek gibi işlemleri otomatik olarak yapmaktadır. Bu sayede tek tık ile bir kümeyi kurabileceğiniz […]
AWS ile Big Data
Bulut teknolojilerinin öncüsü olan Amazon Web Servisleri bize birçok büyük veri teknolojisini esnek ve uygun maliyetli olarak test etme ve kullanma şansı sağlıyor. Amazon’un bize sunduğu veri toplama, işleme, saklama, analiz etme ve arşivleme amacıyla tasarlanmış büyük veri servislerini şöyle listeleyebiliriz: Amazon Kinesis Amazon Elastic MapReduce (EMR) Amazon Athena Amazon Machine Learning Amazon DynamoDB Amazon […]
Apache Sentry ile Yetkilendirme
Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]
Veri analizinde yeni alışkanlıklar
Veri işlemede kullanılan alet ve yöntemler baş döndürücü bir hızla gelişip değişiyor. Bunun sonucu olarak, eski adet ve alışkanlıklar ile devam ettirmeye çalıştığımız iş süreçlerinde çıkan sıkıntılar ve çıkmazlar sıradanlaştı. Bu yazıda, özellikle veri analizi konusunda çıkan sıkıntıları aşmak için alet kutumuza girmesi gerekli olan göreceli yeni üç aletten; data notebooks ve polyglot dillerden ve […]
NoSQL’in Kısa Tarihi
1 NoSQL’in kısa tarihi 1.1 Eski Güzel Günlerin Bitişi Eskilerin geçmişi “ah o eski güzel günler” diye andığını ve yeniler için ise “o eski güzel günlerin” henüz gelmediğini bilerek yaşadığımızda, her yeni oluşumun kendine has güzellikleri ile geldiğini de bilmeliyiz. Bilgi teknolojileri dünyasının eski güzel günlerinde, eldeki problemin çözümü için gerekli olanlar az sayıda seçenek […]
R Programlama Dili
Bu yazımızda, veriyi anlamlandırmak için kullanılan analitik yöntemler için geliştirilmiş istatistiksel paket ve programlama dilleri içinde son yıllarda öne çıkan bir seçenek olan ve iki milyon kullanıcısı olduğu söylenen R programlama dili nin sağladığı avantajlara kısaca bakacağız. Özellikle büyük veri işlemede de etkin bir şekilde kullanımının örnekleri açıklandıkça bu dilin daha da popüler olacağı şüphesiz. […]
Cloudera Data Analyst Eğitimi Ankara
Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Cloudera Data Analist eğitimini 24-27 Şubat 2015 tarihlerinde ANKARA’da gerçekleştirecek. Eğitmen eşliğinde alıştırmalar ile katılımcılar aşağıdaki konulara yoğunlaşacaktır: Pig, Hive ve Impala’nın veri alma, saklama ve analiz etme özellikleri Apache Hadoop ve ETL’in (extract, transform, load) temel özellikleri Pig, Hive ve Impala ile veri […]
Apache Phoenix
Bu yazımızda size Apache Phoenix projesini tanıtmayı amaçlıyoruz. Apache Phoenix, HBase üzerindeki verileri SQL arayüzü ile yüksek performanslı bir şekilde sorgulamamızı sağlayan bir proje. Shell üzerinden kullanabileceğimiz gibi, bir JDBC sürücüsüne de sahip. Phoenix, HBase’in özelliklerini çok iyi kullanarak yüksek performans sağlamayı amaçlıyor. SQL sorgularını HBase üzerinde scan yapacak şekilde derliyor, bu scan işlemlerinin başlangıç – bitişlerini ve […]
Cloudera Hadoop Developer Eğitimi
Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Apache Hadoop geliştirici eğitimini 22-25 Eylül 2014 tarihlerinde İstanbul’da gerçekleştirecek. Eğitim süresince: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak, iş akışı ve yaygın algoritmaların gerçekleştirilmesi için en iyi pratikler Hive, Pig, Sqoop, Flume, Oozie, Mahout ve […]