Big Data

Big Data Teknolojilerine Hızlı Giriş

19 Haziran 2017 Hakan İlter Big Data, 1

Özellikle bitirme projesinde Hadoop veya diğer Büyük Veri teknolojilerini kullanmak isteyen ama konu hakkında çok bilgi sahibi olmayan arkadaşlar için faydalı olmasını umduğum linkleri ufak bir yazı ile paylaşmak istedim. Hadoop’u kurmak yeni başlayanlar için biraz zahmetli olabiliyor. Aşağıdaki tutorial’ı adım adım takip ederseniz sorun çıkmaz: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html İsterseniz kurulum yapmak yerine hazır VM imajlarını kullanabilirsiniz, […]

AWS, Big Data, Büyük Veri, Hadoop, Spark

Apache Kafka

22 Eylül 2015 Emre Akış Big Data, 7

Günümüzde dev veri dediğimiz şey, artık her an(real-time) oluşabilen bir veri haline geldi. Her an her yerden gelen anlık veri bile devasa boyutlara ulaştı. Bunları hızlı , sorunsuz ve ölçeklenebilir bir şekilde nasıl tutarız ve bu veriye real time a yakın bir sürede nasıl tekrar ulaşabiliriz sorusu gündemi işgal etmeye başladı. Apache Kafka’da aslında bu […]

Elasticsearch İle Metin İşleme

15 Eylül 2015 Hakan Sarıbıyık Big Data, Doğal Dil İşleme, ElasticSearch, Nosql, 5

Bu yazıda, popüler doküman veri tabanlarından Elasticsearch (ES) ile metin işleme ve sorgulama konusunda bazı önemli noktaları sizlerle paylaşmak istiyorum. Java da yazılmış olan açık kaynak kodlu metin arama motoru olan Apache Lucene kullanılarak geliştirilen Elasticsearch, rakibi Apache Solr ile ciddi bir rekabet içinde. Bu yazı Türkçe kaynaklarda fazlaca değinilmediğini düşündüğüm, Elasticsearch ile metin verisinin […]

Doğal Dil İşleme, ElasticSearch, metin madenciliği

Hadoop Workshop Etkinliği

14 Ağustos 2015 Hakan Sarıbıyık Big Data, Haberler, Hadoop, 1

İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden […]

Hadoop, kurulum, meetup, Spark Tanışmaları Grubu

Facebook Presto

27 Ağustos 2014 Hakan İlter Big Data, 2

Presto, Facebook tarafından geliştirilmiş ve açık kaynaklı hale getirilmiş bir proje. Presto da diğer Dağıtık SQL motoru çözümleriyle (Impala, Drill, Spark SQL) aynı amacı güdüyor ve mimari olarak da olduça benzer. Hive projesini de Facebook’un geliştirdiğini düşünecek olursak projeden beklentimiz oldukça yüksek. Ancak arkasında bir topluluk veya ticari bir firma olmadığı için de geleceği konusunda kafamızda bir […]

Cassandra, Facebook, Hive, Impala, Presto

Spark SQL

24 Ağustos 2014 Hakan İlter Big Data, 0

Apache Spark projesinin yeteneklerinden birisi de SQL ve HiveQL arayüzleri ile veri işleyebilmesi. Yazıyı yayınlamadan önce bu proje Shark olarak isimlendiriliyordu, ancak ismi değiştirilerek Spark SQL olarak adlandırıldı ve mevcut projeye dahil edildi. Spark SQL Hive, Impala, Drill projelerine bir alternatif oluşturuyor. JSON, Parquet vs gibi populer tüm veri tiplerini destekliyor. Ayrıca Hive metadata’sını da […]

Hive, Shark, Spark

Apache Spark

28 Mayıs 2014 Hakan İlter Big Data, 2

Apache Spark bugünlerde ismini daha sık duymaya başladığımız, büyük veri işleme amaçlı bir diğer proje. Hadoop’tan 100 kat daha hızlı olmak gibi bir iddia ile birlikte, gelişmiş “Directed Acyclic Graph” motoruna sahip, Scala dili ile yazılmış ve bellek-içi (in-memory) veri işleme özellikleriyle bu iddiayı boşa çıkartmıyor gibi görünüyor. Özellikle Yapay Öğrenme algoritmalarının dağıtık implementasyonu konusunda Hadoop’tan daha performanslı olduğunu söyleyebiliriz. […]

GraphX, Mahout, MapReduce, MLlib, Scala, Shark, Spark

Büyük Veri İçindeki Nadir Görülen Olayların Keşfedilmesi

07 Nisan 2014 Hakan Sarıbıyık Big Data, 1

Bu yazımızda, veri madenciliği çalışmalarında sıkça karşılaşılan “büyük miktarda veri içinde nadir görülen olayların keşfedilmesi” problemlerini çözerken dikkat etmemiz gereken önemli bir konuyu ele alacağız. İstatistik literatüründe çoklu karşılaştırma problemi, çoklu hipotez testi gibi isimlerle anılan bu problemler veri madenciliği alanında aktif araştırma konuları içinde yer almaktadır [1]. Değişik uygulama alanları olmakla birlikte, biz burada […]

Bonferroni, Data Mining

Malaysia Airlines Flight 370

20 Mart 2014 Hakan Sarıbıyık Big Data, 0

Pekin’e varmak üzere 8 Mart 2014 de Kuala Lumpur’dan havalanan 153 ü Çin vatandaşı olmak üzere 15 ülkeden 227 yolcu ve 12 mürettebat olmak üzere toplam 239 kişi taşıyan Boeing 777-200 tipi yolcu uçağı oniki gündür kayıp. Uçağın ve yolcuların akıbeti konusunda somut bir açıklama henüz yok. Olayın ilk günlerinde, bilinmeyen bir nedenle düştüğü düşünülen […]

Big Data, Data Mining

Büyük Veri, Veri Bilimi ve Ontoloji

07 Mart 2014 Hakan Sarıbıyık Big Data, 0

Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]

Big Data, Data Science, Hadoop, Veri Bilimi

Data Scientist kimdir?

19 Ocak 2014 Hakan İlter Big Data, 4

Data Scientist (Veri Bilimci) kavramını son yıllarda özellikle Facebook ve Linkedin firmalarından ötürü daha sık duymaya başladık. İş ilanlarında bu görev için adayların arandığına daha sık rastlar olduk. Peki ama Data Scientist kimdir, ne iş yapar? Data Scientist, bağlı bulunduğu kurum için değer yaratmak amacıyla büyük ve çeşitliliğe sahip veriyi uçtan uca analiz eder. Bu veriler […]