Big Data
Big Data Teknolojilerine Hızlı Giriş
Özellikle bitirme projesinde Hadoop veya diğer Büyük Veri teknolojilerini kullanmak isteyen ama konu hakkında çok bilgi sahibi olmayan arkadaşlar için faydalı olmasını umduğum linkleri ufak bir yazı ile paylaşmak istedim. Hadoop’u kurmak yeni başlayanlar için biraz zahmetli olabiliyor. Aşağıdaki tutorial’ı adım adım takip ederseniz sorun çıkmaz: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html İsterseniz kurulum yapmak yerine hazır VM imajlarını kullanabilirsiniz, […]
Apache Kafka
Günümüzde dev veri dediğimiz şey, artık her an(real-time) oluşabilen bir veri haline geldi. Her an her yerden gelen anlık veri bile devasa boyutlara ulaştı. Bunları hızlı , sorunsuz ve ölçeklenebilir bir şekilde nasıl tutarız ve bu veriye real time a yakın bir sürede nasıl tekrar ulaşabiliriz sorusu gündemi işgal etmeye başladı. Apache Kafka’da aslında bu […]
Elasticsearch İle Metin İşleme
Bu yazıda, popüler doküman veri tabanlarından Elasticsearch (ES) ile metin işleme ve sorgulama konusunda bazı önemli noktaları sizlerle paylaşmak istiyorum. Java da yazılmış olan açık kaynak kodlu metin arama motoru olan Apache Lucene kullanılarak geliştirilen Elasticsearch, rakibi Apache Solr ile ciddi bir rekabet içinde. Bu yazı Türkçe kaynaklarda fazlaca değinilmediğini düşündüğüm, Elasticsearch ile metin verisinin […]
Hadoop Workshop Etkinliği
İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden […]
Facebook Presto
Presto, Facebook tarafından geliştirilmiş ve açık kaynaklı hale getirilmiş bir proje. Presto da diğer Dağıtık SQL motoru çözümleriyle (Impala, Drill, Spark SQL) aynı amacı güdüyor ve mimari olarak da olduça benzer. Hive projesini de Facebook’un geliştirdiğini düşünecek olursak projeden beklentimiz oldukça yüksek. Ancak arkasında bir topluluk veya ticari bir firma olmadığı için de geleceği konusunda kafamızda bir […]
Spark SQL
Apache Spark projesinin yeteneklerinden birisi de SQL ve HiveQL arayüzleri ile veri işleyebilmesi. Yazıyı yayınlamadan önce bu proje Shark olarak isimlendiriliyordu, ancak ismi değiştirilerek Spark SQL olarak adlandırıldı ve mevcut projeye dahil edildi. Spark SQL Hive, Impala, Drill projelerine bir alternatif oluşturuyor. JSON, Parquet vs gibi populer tüm veri tiplerini destekliyor. Ayrıca Hive metadata’sını da […]
Apache Spark
Apache Spark bugünlerde ismini daha sık duymaya başladığımız, büyük veri işleme amaçlı bir diğer proje. Hadoop’tan 100 kat daha hızlı olmak gibi bir iddia ile birlikte, gelişmiş “Directed Acyclic Graph” motoruna sahip, Scala dili ile yazılmış ve bellek-içi (in-memory) veri işleme özellikleriyle bu iddiayı boşa çıkartmıyor gibi görünüyor. Özellikle Yapay Öğrenme algoritmalarının dağıtık implementasyonu konusunda Hadoop’tan daha performanslı olduğunu söyleyebiliriz. […]
Büyük Veri İçindeki Nadir Görülen Olayların Keşfedilmesi
Bu yazımızda, veri madenciliği çalışmalarında sıkça karşılaşılan “büyük miktarda veri içinde nadir görülen olayların keşfedilmesi” problemlerini çözerken dikkat etmemiz gereken önemli bir konuyu ele alacağız. İstatistik literatüründe çoklu karşılaştırma problemi, çoklu hipotez testi gibi isimlerle anılan bu problemler veri madenciliği alanında aktif araştırma konuları içinde yer almaktadır [1]. Değişik uygulama alanları olmakla birlikte, biz burada […]
Malaysia Airlines Flight 370
Pekin’e varmak üzere 8 Mart 2014 de Kuala Lumpur’dan havalanan 153 ü Çin vatandaşı olmak üzere 15 ülkeden 227 yolcu ve 12 mürettebat olmak üzere toplam 239 kişi taşıyan Boeing 777-200 tipi yolcu uçağı oniki gündür kayıp. Uçağın ve yolcuların akıbeti konusunda somut bir açıklama henüz yok. Olayın ilk günlerinde, bilinmeyen bir nedenle düştüğü düşünülen […]
Büyük Veri, Veri Bilimi ve Ontoloji
Bu yazıda büyük veri ve işlenmesi için temel unsur haline gelen veri bilimcinin temel uğraş alanına ilişkin kendi fikirlerimi paylaşacağım. Okuyucu büyük verinin geçmişi, bugünü ve geleceğine ilişkin genel bir bilgi edinecek, konunun temel bileşenleri ve aralarındaki ilişkileri verilen referanslarla birlikte zenginleştirme ve kendi yorumunu oluşturma fırsatı bulacaktır. Konu hakkında bilgi ve tecrübesi olan kişiler […]
Data Scientist kimdir?
Data Scientist (Veri Bilimci) kavramını son yıllarda özellikle Facebook ve Linkedin firmalarından ötürü daha sık duymaya başladık. İş ilanlarında bu görev için adayların arandığına daha sık rastlar olduk. Peki ama Data Scientist kimdir, ne iş yapar? Data Scientist, bağlı bulunduğu kurum için değer yaratmak amacıyla büyük ve çeşitliliğe sahip veriyi uçtan uca analiz eder. Bu veriler […]