Hadoop Workshop Etkinliği
İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden 25 kişi katıldı. İTÜ Çekirdek Yönetimi’nin önceki etkinlikte olduğu gibi, seminer salonlarını Workshop için kullanıma sunmaları etkinliğin güzel bir ortamda gerçekleşmesine önemli katkı sağladı.
Etkinliği düzenleyen İSTG grubunun kurucularından olan Şafak Serdar Kapçı’nın, Hadoop’u tanıtan kısa sunumundan sonra yaklaşık üç saat süren uygulama kısmına geçildi. Bu kısım, Hadoop kurulumu için daha önceden Şafak Bey tarafından hazırlanan CentOS İşletim Sistemli sanal makinanın, her bir katılımcı tarafından kendi makinasında ayağa kaldırılması, geliştirme için gerekli olan Java ve IDE ortamı olan Eclipse in yüklenmesi ve Hadoop un son sürümü Hadoop.2.7.1 kurulumu ve gerekli konfigürasyonların yapılması ile tamamlandı. Bu adımda Hadoop un üç farklı çalışma şeklinden,
- Basit (Standalone mode)
- Sanki dağıtık (Pseudodistributed mode)
- Tam dağıtık (Fully distributed mode)
içinden, ikincisi olan sanki dağıtık mode a göre konfigürasyonlar yapıldı. Bu modda, hadoop un temel bileşenleri tek makinada sanki bir cluster varmışçasına çalıştırıldığı için, tek bir makine üzerinde olsa da gerçeğe mümkün olduğunca yakın bir Hadoop kurulumu yapılmış oldu.
Sonrasında Java projeleri olarak hazırlanmış örnek projelerin github üzerinden alınması ve Eclipse ortamında çalıştırılması şeklinde katılımcıların her birinin kendi makinası üzerinde kurduğu Hadoop ile uygulama denemeleri yaptığı aşamaya geçildi.
Detaylar
Uygulama örneklerinde kullanılmak üzere seçilen veri setleri şunlar oldu.
TCMB.txt veri seti : TC Merkez Bankası GBP ve USD döviz kurları 1950 den günümüze efektif alış ve satış kurları verileri.
NCDC.txt veri seti : National Climatic Data Center (NCDC) ın 1901 den bu yana dünyanın birçok bölgelerinde günlük olarak kayıt edilmiş sıcaklık değerleri verileri.
CDR.txt veri seti : Arama verilerinin bulunduğu örnek veri seti.
Şafak Bey in hazırladığı projeler şu şekilde kurgulanmıştı.
- TCMB => TCMB.txt veri setinden yıl ve İngiliz Sterlini Alış (gbpA) değerlerini Map eden bir Mapper class ı, her yıl için gün bazında map edilen bu değerlerden her yıl için maksimum değerleri üreten bir reducer class ı. Sonuçta <key, value> şeklinde yıl ve o yılki maksimum gbpA değerleri üretilmektedir.
- NCDC => NCDC.txt veri setinden yıl ve sıcaklık değerlerini Map eden bir Mapper class ı, her yıl için gün bazında map edilen bu değerlerden her yıl için maksimum sıcaklık değerlerini üreten bir reducer class ı. Sonuçta <key, value> şeklinde yıl ve o yılki maksimum sıcaklık değerleri üretilmektedir.
- CallData => CDR.txt veri setinden konuşma süresi değerlerini Map eden bir Mapper class ı, map edilen bu değerlerden ortalama konuşma süresini üreten bir reducer class ı. Sonuçta <key, value> şeklinde duration ve ortalama konuşma değeri üretilmektedir.
Bu adımların detaylarına github daki HadoopWorkShop dan ulaşabilirsiniz.
Uygulamalar için Eclipse olarak bilinen ve Java dünyasında yaygın olarak kullanılan Etkileşimli Geliştirme Ortamı – IDE (Integrated Development Environment) tercih edildi. Şafak Bey’in hazırladığı kodlar kullanılarak pratikte bir Hadoop uygulamasının veri işlemede nasıl kullanıldığı uygulamalı olarak gösterildi.
Bitiriş
Workshop boyunca Şafak Bey in sorulara tek tek cevap veriyor olması, dağıtık veri işleme gibi zor bir konunun Hadoop ile nasıl yapılabildiğinin anlaşılması açısından katılımcılar için iyi bir fırsat sunmuş oldu. Bu başarılı etkinlikte emeği geçenleri kutluyoruz.
Spark ile Tanışma Etkinliği Elasticsearch İle Metin İşleme
ellerine sağlık