Boğulacaksan büyük veride boğul! - DevVeri.comDevVeri.com | Boğulacaksan büyük veride boğul!

ElasticSearch ve Pig Entegrasyonu

24 Mayıs 2014 Hakan İlter ElasticSearch, 0

Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]

ElasticSearch, Hadoop, MapReduce, Pig

Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi

16 Mayıs 2014 Hakan İlter Haberler, 0

Dilişim 6-9 Mayıs 2014 tarihlerinde İstanbul’da Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi. Eğitim CCDH (Cloudera Certified Developer for Apache Hadoop) sertifikalı İsmail Keskin tarafından verildi. Eğitim sırasında aşağıdaki konular uygulamalı olarak işlendi: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak ve iş akışı ve yaygın algoritmaların gerçekleştirilmesi […]

Administrator, Cloudera, Developer, Eğitim, Hadoop

Büyük Veri İçerisinde Benzer Öğeleri Bulmak

07 Mayıs 2014 Hakan Sarıbıyık Veri Madenciliği, 0

Benzer Öğeleri Bulmak Büyük veri içindeki benzer öğeleri bulma, sıkça karşılaşılan ve çözülmesi kolay olmayan bir problem dizisi yaratmaktadır. Birbirine benzeyen bazı çözüm yolları içinden, biz bu yazıda çoğunlukla Mining of Massive Datasets [1] kitabının üçüncü bölümünde anlatılan çözümü temel alacağız. Bu çözümü anlamaya çalışan okuyucunun karşısına iki zorluk çıkmaktadır. Birincisi, çözüm temel olasılık, küme […]

Big Data, Data Mining, Jaccard, Locality Sensitive Hashing, Minhashing, ngram, Shingling, Text Mining

Büyük Veri İçindeki Nadir Görülen Olayların Keşfedilmesi

07 Nisan 2014 Hakan Sarıbıyık Big Data, 1

Bu yazımızda, veri madenciliği çalışmalarında sıkça karşılaşılan “büyük miktarda veri içinde nadir görülen olayların keşfedilmesi” problemlerini çözerken dikkat etmemiz gereken önemli bir konuyu ele alacağız. İstatistik literatüründe çoklu karşılaştırma problemi, çoklu hipotez testi gibi isimlerle anılan bu problemler veri madenciliği alanında aktif araştırma konuları içinde yer almaktadır [1]. Değişik uygulama alanları olmakla birlikte, biz burada […]

Bonferroni, Data Mining

Apache Solr ile Otomatik Tamamlama

27 Mart 2014 Ahmet Arslan Lucene / Solr, 0

Bu yazımızda Apache Solr kullanılarak otomatik tamamla ( bazen tavsiye olarak da isimlendiriliyor) nasıl yapılır onu anlatacağım. Bu örneği olabildiğince genel hazırlamak için solr dağıtımını indirdiğimizde içinden çıkan varsayılan örnek üzerine inşa edeceğiz. java –jar start.jar ile çalıştırdığımız. Schema.xml‘e yapılacak eklentiler: İki tane yeni alan ve tip ekleyelim ve bu alanları copyField ile dolduralım. <field […]

Auto Complete, Solr

Apache Pig – Domuzcuğun Hikayesi

27 Mart 2014 Ayhan Demirci Hadoop, 0

Apache Pig Apache Pig, Apache Hadoop üzerinde prosedurel bir data akışı yazmayı sağlayan bir veri işleme platformudur. Veri kullanıcılarına Hadoop’un güçlü, dağıtık ve esnek yapısına ileri seviye java kodları yazmadan daha üst bir katmandan erişim imkanı sağlayan bir yapıdır. Pig’in iki önemli bileşeninden Pig Latin dilini kullanarak kullanıcılar data akışı scriptleri yazabilirler ve Pig bunları […]

ETL, Hadoop, Pig

Malaysia Airlines Flight 370

20 Mart 2014 Hakan Sarıbıyık Big Data, 0

Pekin’e varmak üzere 8 Mart 2014 de Kuala Lumpur’dan havalanan 153 ü Çin vatandaşı olmak üzere 15 ülkeden 227 yolcu ve 12 mürettebat olmak üzere toplam 239 kişi taşıyan Boeing 777-200 tipi yolcu uçağı oniki gündür kayıp. Uçağın ve yolcuların akıbeti konusunda somut bir açıklama henüz yok. Olayın ilk günlerinde, bilinmeyen bir nedenle düştüğü düşünülen […]

Big Data, Data Mining

Büyük Veri, Veri Bilimi ve Ontoloji

07 Mart 2014 Hakan Sarıbıyık Big Data, 0

Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]

Big Data, Data Science, Hadoop, Veri Bilimi

Hive ile HBase Entegrasyonu

23 Şubat 2014 Hakan İlter Hadoop, 0

Hadoop ekosistemindeki projelerin en büyük avantajlardan birisi de birbirleriyle uyumlu olarak çalışabilmeleri. Bu yazımızda HBase üzerindeki verileri Hive üzerinden sorgulamayı inceleyeceğiz. HBase ile Hive’ı entegre edebilmek için ilk adım olarak gerekli kütüphanelerin classpath üzerinden erişilebilir olmasını sağlamak. Aşağıdaki jar dosyalarını (tabii ki uygun versiyon numaraları ile) Hive’ın ya da direkt olarak Hadoop’un lib dizini içerisine bulunması […]

Hadoop, HBase, Hive

Hive JDBC Bağlantısı

22 Şubat 2014 Hakan İlter Hadoop, 0

Hive üzerindeki verilere erişmenin birkaç yöntemi var. Bu yöntemlerden birisi de JDBC sürücüsünü kullanmak. Hive JDBC sürücüsü ile verileri programatik olarak sorgulamak ve bir SQL arayüzü (örneğin SQuirreL) kullanmak mümkün hale geliyor. Hive tarafından yönetilen verilerin dışarı açılmasını HiveServer2 uygulaması sağlıyor. Önceden HiveServer (ya da ThriftServer) olarak adlandırılan bu uygulama aynı anda sadece tek bir […]

Hadoop, Hive, JDBC

Pig üzerinden Hadoop ile MongoDB Entegrasyonu

26 Ocak 2014 Hakan İlter Hadoop, Nosql, 0

Açık kaynaklı büyük veri teknolojilerinin en beğendiğim özelliği, birden fazla projeyi birlikte kullanabilmek. Bu sayede, farklı projelerin güçlü olduğu taraflardan faydalanarak ortaya daha büyük bir değer çıkartmak mümkün oluyor. Bu yazıda MongoDB ile Hadoop‘u Pig üzerinden entegre ederek nasıl kullanabileceğimize bir örnek vermeye çalışacağız. Hazırlık MongoDB’nin geliştirdiği connector sayesinde, MongoDB’deki verileri Hadoop üzerine taşımak ya da […]

Hadoop, MapReduce, MongoDB, Pig

Apache Flume ile Veri Toplama

23 Ocak 2014 Erdem Ağaoğlu Hadoop, 0

Devveri, big data, büyük ölçekli veri analizi sözkonusu olduğunda artık Hadoop hızlıca konu başlığı olur durumda. Nerdeyse konu sadece Hadoop ile ilgili, “devveri” başlığı ise sadece nezaketen söylenen bir genelleme gibi. Hadoop dendiğinde ise konu doğrudan MapReduce ve bazen HDFS oluyor. Durum, tarihsel oluşum sebebiyle normal olmakla beraber devveri konusunun sadece MapReduce ve HDFS’ten ibaret […]

Chukwa, Flume, Hadoop, Scribe

Data Scientist kimdir?

19 Ocak 2014 Hakan İlter Big Data, 4

Data Scientist (Veri Bilimci) kavramını son yıllarda özellikle Facebook ve Linkedin firmalarından ötürü daha sık duymaya başladık. İş ilanlarında bu görev için adayların arandığına daha sık rastlar olduk. Peki ama Data Scientist kimdir, ne iş yapar? Data Scientist, bağlı bulunduğu kurum için değer yaratmak amacıyla büyük ve çeşitliliğe sahip veriyi uçtan uca analiz eder. Bu veriler […]

Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama

01 Aralık 2013 Hakan İlter Hadoop, 0

Hadoop üzerindeki verileri SQL arayüzü ile analiz etmek amacıyla Hive projesi yaygın bir şekilde kullanılıyor. Hive ile yazılan SQL sorguları Hadoop mimarisinde dağıtık bir şekilde çalıştırılmak amacıyla MapReduce kodlarına çevriliyor. Bu sayede klasik RDBMS’lerin çoğunun cevap dahi veremeyeceği sorgular Hive ile kısa bir zamanda tamamlanabiliyor. Örneğin sağlam bir donanıma da sahip olsa tek bir MySQL sunucusu […]

Cloudera, Hadoop, Hive, Impala, Presto, Stinger

Hadoop 2.0 – YARN