DevVeri.com

Boğulacaksan büyük veride boğul!

Hadoop

Amazon EMR ile Spark

Bu yazıda Amazon EMR üzerinde bir Spark uygulamasının nasıl çalıştırabileceğinden bahsedeceğim. Eğer EMR ile ilgili bir önceki yazıyı okumadıysanız bu yazıyı, AWS Big Data teknolojileri ile ilgili genel bilgi için de bu yazıyı okuyabilirsiniz. EMR üzerinde çalıştıracağımız örnek uygulamada daha önce defalarca kullandığım NYSE verisini kullanacağım. Tab karakterleri ile ayrılmış bu dosya içerisinde günlük borsa […]

, , , , , ,

Amazon EMR

 Amazon EMR Nedir? Amazon Elastic MapReduce (EMR), büyük veri işlemeyi kolaylaştırmak amacıyla Amazon tarafından yönetilen, içerisinde Hadoop, Spark gibi açık kaynaklı büyük veri teknolojilerini içeren bir servistir. Aslında temelde AWS üzerinde Hadoop kümesi kurmak için tek tek sunucuları açmak, gerekli yazılımları yüklemek gibi işlemleri otomatik olarak yapmaktadır. Bu sayede tek tık ile bir kümeyi kurabileceğiniz […]

, , , , ,

Apache Hadoop 3.0

Uzun zamandır 2.x sürümüyle devam eden Hadoop projesinde 13 Aralık 2017 tarihinde yeni sürüm olan Hadoop 3.0 yayınlandı. Bu yeni sürümde ne gibi özellikler olduğunu bu yazıda özetlemeye çalışacağız; Java Update: Bütün proje minimum Java sürümü Java 8 olacak şekilde derlendi. Dolayısı ile Hadoop 3.0 kullanmak isteyenlerin Java sürümünü de yükseltmesi gerekecek. HDFS Erasure Coding: Yeni […]

, , ,

Big Data Teknolojilerine Hızlı Giriş

Özellikle bitirme projesinde Hadoop veya diğer Büyük Veri teknolojilerini kullanmak isteyen ama konu hakkında çok bilgi sahibi olmayan arkadaşlar için faydalı olmasını umduğum linkleri ufak bir yazı ile paylaşmak istedim. Hadoop’u kurmak yeni başlayanlar için biraz zahmetli olabiliyor. Aşağıdaki tutorial’ı adım adım takip ederseniz sorun çıkmaz: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html İsterseniz kurulum yapmak yerine hazır VM imajlarını kullanabilirsiniz, […]

, , , ,

Hive Veritabanları Arası Tablo Taşıma

Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]

,

Apache Sentry ile Yetkilendirme

Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]

, , , ,

Hive İç İçe Sorgu Kullanımı

Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]

, , ,

Hadoop Workshop Etkinliği

İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden […]

, , ,

Hadoop Nereden Başlamalıyım?

Devveri.com takipçileri arasında Hadoop teknolojileri ile ilgilenen, kendini bu konuda geliştirmek isteyenlerden birçok email alıyorum. En çok sorulan soru “Nereden başlamalıyım?” oluyor. Bu konularda kendinizi geliştirmek istiyorsanız önünüzde çok fazla seçenek var. 1. Eğitim Bir konuyu hızlıca öğrenmek, hemen uygulamaya dökmek isterseniz en iyi yolu bu konuda tecrübeli kişilerden eğitim almak. Cloudera ve Hortonworks firmalarının […]

, ,

Cloudera Data Analyst Eğitimi Ankara

Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Cloudera Data Analist eğitimini 24-27 Şubat 2015 tarihlerinde ANKARA’da gerçekleştirecek. Eğitmen eşliğinde alıştırmalar ile katılımcılar aşağıdaki konulara yoğunlaşacaktır: Pig, Hive ve Impala’nın veri alma, saklama ve analiz etme özellikleri Apache Hadoop ve ETL’in (extract, transform, load) temel özellikleri Pig, Hive ve Impala ile veri […]

, , ,

Apache Phoenix

Bu yazımızda size Apache Phoenix projesini tanıtmayı amaçlıyoruz. Apache Phoenix, HBase üzerindeki verileri SQL arayüzü ile yüksek performanslı bir şekilde sorgulamamızı sağlayan bir proje. Shell üzerinden kullanabileceğimiz gibi, bir JDBC sürücüsüne de sahip. Phoenix, HBase’in özelliklerini çok iyi kullanarak yüksek performans sağlamayı amaçlıyor. SQL sorgularını HBase üzerinde scan yapacak şekilde derliyor, bu scan işlemlerinin başlangıç – bitişlerini ve […]

, ,

Cloudera Hadoop Developer Eğitimi

Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Apache Hadoop geliştirici eğitimini 22-25 Eylül 2014 tarihlerinde İstanbul’da gerçekleştirecek. Eğitim süresince: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak, iş akışı ve yaygın algoritmaların gerçekleştirilmesi için en iyi pratikler Hive, Pig, Sqoop, Flume, Oozie, Mahout ve […]

, , , , ,

Apache Nutch

Tarihçe ve Tanım Dev veriden bahsedildiğinde Hadoop’un başlangıç projesi olan Nutch’tan söz etmemek olmaz. “Hadoop nasıl başladı?” sorusunun cevabı bizi Nutch isimli Apache projesine götürür. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı. Peki Nutch için HDFS ve MapReduce neden gerekli? […]

, ,

ElasticSearch ve Pig Entegrasyonu

Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]

, , ,

Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi

Dilişim 6-9 Mayıs 2014 tarihlerinde İstanbul’da Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi. Eğitim CCDH (Cloudera Certified Developer for Apache Hadoop) sertifikalı İsmail Keskin tarafından verildi. Eğitim sırasında aşağıdaki konular uygulamalı olarak işlendi: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak ve iş akışı ve yaygın algoritmaların gerçekleştirilmesi […]

, , , ,

Previous Posts