DevVeri.com

Boğulacaksan büyük veride boğul!

Hadoop Workshop Etkinliği

sparkİstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden 25 kişi katıldı. İTÜ Çekirdek Yönetimi’nin önceki etkinlikte olduğu gibi, seminer salonlarını Workshop için kullanıma sunmaları etkinliğin güzel bir ortamda gerçekleşmesine önemli katkı sağladı.

Etkinliği düzenleyen İSTG grubunun kurucularından olan Şafak Serdar Kapçı’nın, Hadoop’u tanıtan kısa sunumundan sonra yaklaşık üç saat süren uygulama kısmına geçildi. Bu kısım, Hadoop kurulumu için daha önceden Şafak Bey tarafından hazırlanan CentOS İşletim Sistemli sanal makinanın, her bir katılımcı tarafından kendi makinasında ayağa kaldırılması, geliştirme için gerekli olan Java ve IDE ortamı olan Eclipse in yüklenmesi ve Hadoop un son sürümü Hadoop.2.7.1 kurulumu ve gerekli konfigürasyonların yapılması ile tamamlandı. Bu adımda Hadoop un üç farklı çalışma şeklinden,

  1. Basit (Standalone mode)
  2. Sanki dağıtık (Pseudodistributed mode)
  3. Tam dağıtık (Fully distributed mode)

içinden, ikincisi olan sanki dağıtık mode a göre konfigürasyonlar yapıldı. Bu modda, hadoop un temel bileşenleri tek makinada sanki bir cluster varmışçasına çalıştırıldığı için, tek bir makine üzerinde olsa da gerçeğe mümkün olduğunca yakın bir Hadoop kurulumu yapılmış oldu.

Sonrasında Java projeleri olarak hazırlanmış örnek projelerin github üzerinden alınması ve Eclipse ortamında çalıştırılması şeklinde katılımcıların her birinin kendi makinası üzerinde kurduğu Hadoop ile uygulama denemeleri yaptığı aşamaya geçildi.

Detaylar

Uygulama örneklerinde kullanılmak üzere seçilen veri setleri şunlar oldu.

TCMB.txt veri seti : TC Merkez Bankası GBP ve USD döviz kurları 1950 den günümüze efektif alış ve satış kurları verileri.

NCDC.txt veri seti : National Climatic Data Center (NCDC) ın 1901 den bu yana dünyanın birçok bölgelerinde günlük olarak kayıt edilmiş sıcaklık değerleri verileri.

CDR.txt veri seti : Arama verilerinin bulunduğu örnek veri seti.

 

Şafak Bey in hazırladığı projeler şu şekilde kurgulanmıştı.

  1. TCMB => TCMB.txt veri setinden yıl ve İngiliz Sterlini Alış (gbpA) değerlerini Map eden bir Mapper class ı, her yıl için gün bazında map edilen bu değerlerden her yıl için maksimum değerleri üreten bir reducer class ı. Sonuçta <key, value> şeklinde yıl ve o yılki maksimum gbpA değerleri üretilmektedir.
  2. NCDC => NCDC.txt veri setinden yıl ve sıcaklık değerlerini Map eden bir Mapper class ı, her yıl için gün bazında map edilen bu değerlerden her yıl için maksimum sıcaklık değerlerini üreten bir reducer class ı. Sonuçta <key, value> şeklinde yıl ve o yılki maksimum sıcaklık değerleri üretilmektedir.
  3. CallData => CDR.txt veri setinden konuşma süresi değerlerini Map eden bir Mapper class ı, map edilen bu değerlerden ortalama konuşma süresini üreten bir reducer class ı. Sonuçta <key, value> şeklinde duration ve ortalama konuşma değeri üretilmektedir.

 

Bu adımların detaylarına github daki HadoopWorkShop dan ulaşabilirsiniz.

 

Şafak Serdar Kapçı, Hadoop’u tanıtan kısa bir sunum yaptı.

Şafak Serdar Kapçı, Hadoop’u tanıtan kısa bir sunum yaptı.

 

Çalışma boyunca Şafak Bey katılımcılar ile tek tek ilgilendi.

Çalışma boyunca Şafak Bey katılımcılar ile tek tek ilgilendi.

 

Uygulamalar için Eclipse olarak bilinen ve Java dünyasında yaygın olarak kullanılan Etkileşimli Geliştirme Ortamı – IDE (Integrated Development Environment) tercih edildi. Şafak Bey’in hazırladığı kodlar kullanılarak pratikte bir Hadoop uygulamasının veri işlemede nasıl kullanıldığı uygulamalı olarak gösterildi.

IDE olarak Eclipse ortamı kullanıldı.

IDE olarak Eclipse ortamı kullanıldı.

 

Kaynak Yöneticisi WEB kullanıcı ekranı

Kaynak Yöneticisi WEB kullanıcı ekranı

 

NameNode Web kullanıcı ekranı

NameNode Web kullanıcı ekranı

 

Bitiriş

Workshop boyunca Şafak Bey in sorulara tek tek cevap veriyor olması, dağıtık veri işleme gibi zor bir konunun Hadoop ile nasıl yapılabildiğinin anlaşılması açısından katılımcılar için iyi bir fırsat sunmuş oldu. Bu başarılı etkinlikte emeği geçenleri kutluyoruz.

, , ,

One thought on “Hadoop Workshop Etkinliği

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.