DevVeri.com

Boğulacaksan büyük veride boğul!

MongoDB Replica Set Kullanımı

MongoDB, şüphesiz son 5 yılın en iyi NoSQL veritabanı çözümlerinden bir tanesi. Foursquare gibi büyük firmalar tarafında kullanıldığı öğrenilince, insanlar kendi sistemlerinde ciddi veri saklama çözümleri için bir heyecanla MongoDB kullanmaya çalışıyor. Evet MongoDB bir çok alanda veri saklama işinde çok yararlı olabilir, ama inanın yanlış kullanıldığı takdirde sizin bir numaralı kabusunuz da olabilir…. MongoDB […]

, ,

NoSQL’in Kısa Tarihi

1 NoSQL’in kısa tarihi 1.1 Eski Güzel Günlerin Bitişi Eskilerin geçmişi “ah o eski güzel günler” diye andığını ve yeniler için ise “o eski güzel günlerin” henüz gelmediğini bilerek yaşadığımızda, her yeni oluşumun kendine has güzellikleri ile geldiğini de bilmeliyiz. Bilgi teknolojileri dünyasının eski güzel günlerinde, eldeki problemin çözümü için gerekli olanlar az sayıda seçenek […]

, , ,

R Programlama Dili

Bu yazımızda, veriyi anlamlandırmak için kullanılan analitik yöntemler için geliştirilmiş istatistiksel paket ve programlama dilleri içinde son yıllarda öne çıkan bir seçenek olan ve iki milyon kullanıcısı olduğu söylenen R programlama dili nin sağladığı avantajlara kısaca bakacağız. Özellikle büyük veri işlemede de etkin bir şekilde kullanımının örnekleri açıklandıkça bu dilin daha da popüler olacağı şüphesiz. […]

,

Hadoop Nereden Başlamalıyım?

Devveri.com takipçileri arasında Hadoop teknolojileri ile ilgilenen, kendini bu konuda geliştirmek isteyenlerden birçok email alıyorum. En çok sorulan soru “Nereden başlamalıyım?” oluyor. Bu konularda kendinizi geliştirmek istiyorsanız önünüzde çok fazla seçenek var. 1. Eğitim Bir konuyu hızlıca öğrenmek, hemen uygulamaya dökmek isterseniz en iyi yolu bu konuda tecrübeli kişilerden eğitim almak. Cloudera ve Hortonworks firmalarının […]

, ,

OrientDB – Graph ve NoSQL Çözümü

Populerliği günden güne artan Çizge (Graph) veritabanları dünyasında OrientDB yetenekleri ile öne çıkıyor. Piyasada en çok bilinen Neo4J’den farklı olarak, OrientDB açık kaynaklı. Ayrıca destek almak istediğinizde Orient Technologies firması tarafından desteklenen kurumsal bir sürümü de mevcut. OrientDB aslında sadece bir Çizge veritabanı değil, aynı zamanda döküman tabanlı bir NoSQL veritabanı. Tinkerpop Gremlin dilini desteklemesi, ACID, Multi-Master replikasyon, […]

, , , ,

Cloudera Data Analyst Eğitimi Ankara

Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Cloudera Data Analist eğitimini 24-27 Şubat 2015 tarihlerinde ANKARA’da gerçekleştirecek. Eğitmen eşliğinde alıştırmalar ile katılımcılar aşağıdaki konulara yoğunlaşacaktır: Pig, Hive ve Impala’nın veri alma, saklama ve analiz etme özellikleri Apache Hadoop ve ETL’in (extract, transform, load) temel özellikleri Pig, Hive ve Impala ile veri […]

, , ,

Apache Phoenix

Bu yazımızda size Apache Phoenix projesini tanıtmayı amaçlıyoruz. Apache Phoenix, HBase üzerindeki verileri SQL arayüzü ile yüksek performanslı bir şekilde sorgulamamızı sağlayan bir proje. Shell üzerinden kullanabileceğimiz gibi, bir JDBC sürücüsüne de sahip. Phoenix, HBase’in özelliklerini çok iyi kullanarak yüksek performans sağlamayı amaçlıyor. SQL sorgularını HBase üzerinde scan yapacak şekilde derliyor, bu scan işlemlerinin başlangıç – bitişlerini ve […]

, ,

Cloudera Hadoop Developer Eğitimi

Daha önce eğitimlerinden bahsedilen Cloudera’nın Türkiye’deki tek eğitim partneri olan Dilişim, Apache Hadoop geliştirici eğitimini 22-25 Eylül 2014 tarihlerinde İstanbul’da gerçekleştirecek. Eğitim süresince: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak, iş akışı ve yaygın algoritmaların gerçekleştirilmesi için en iyi pratikler Hive, Pig, Sqoop, Flume, Oozie, Mahout ve […]

, , , , ,

Facebook Presto

Presto, Facebook tarafından geliştirilmiş ve açık kaynaklı hale getirilmiş bir proje. Presto da diğer Dağıtık SQL motoru çözümleriyle (Impala, Drill, Spark SQL) aynı amacı güdüyor ve mimari olarak da olduça benzer. Hive projesini de Facebook’un geliştirdiğini düşünecek olursak projeden beklentimiz oldukça yüksek. Ancak arkasında bir topluluk veya ticari bir firma olmadığı için de geleceği konusunda kafamızda bir […]

, , , ,

Spark SQL

Apache Spark projesinin yeteneklerinden birisi de SQL ve HiveQL arayüzleri ile veri işleyebilmesi. Yazıyı yayınlamadan önce bu proje Shark olarak isimlendiriliyordu, ancak ismi değiştirilerek Spark SQL olarak adlandırıldı ve mevcut projeye dahil edildi. Spark SQL Hive, Impala, Drill projelerine bir alternatif oluşturuyor. JSON, Parquet vs gibi populer tüm veri tiplerini destekliyor. Ayrıca Hive metadata’sını da […]

, ,

Apache Nutch

Tarihçe ve Tanım Dev veriden bahsedildiğinde Hadoop’un başlangıç projesi olan Nutch’tan söz etmemek olmaz. “Hadoop nasıl başladı?” sorusunun cevabı bizi Nutch isimli Apache projesine götürür. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı. Peki Nutch için HDFS ve MapReduce neden gerekli? […]

, ,

Apache Spark

Apache Spark bugünlerde ismini daha sık duymaya başladığımız, büyük veri işleme amaçlı bir diğer proje. Hadoop’tan 100 kat daha hızlı olmak gibi bir iddia ile birlikte, gelişmiş “Directed Acyclic Graph” motoruna sahip, Scala dili ile yazılmış ve bellek-içi (in-memory) veri işleme özellikleriyle bu iddiayı boşa çıkartmıyor gibi görünüyor. Özellikle Yapay Öğrenme algoritmalarının dağıtık implementasyonu konusunda Hadoop’tan daha performanslı olduğunu söyleyebiliriz. […]

, , , , , ,

ElasticSearch ve Pig Entegrasyonu

Pig ile sadece Hadoop üzerindeki verileri değil, MongoDB gibi farklı veri kaynaklarını da analiz edebileceğimizden bir yazımızda bahsetmiştik. Pig ile ElasticSearch üzerindeki verileri de analiz etmemiz mümkün. Aynı şekilde Hadoop üzerindeki verileri Pig aracılığı ile ElasticSearch üzerinde kolayca indekslemeniz ve analizler yapmanız oldukça kolay. Hazırlık Pig ile ElasticSearch entegrasyonu ile ilgili projeye GitHub üzerinden erişmeniz mümkün. Proje ile sadece […]

, , ,

Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi

Dilişim 6-9 Mayıs 2014 tarihlerinde İstanbul’da Cloudera Apache Hadoop Geliştirici eğitimini başarıyla gerçekleştirdi. Eğitim CCDH (Cloudera Certified Developer for Apache Hadoop) sertifikalı İsmail Keskin tarafından verildi. Eğitim sırasında aşağıdaki konular uygulamalı olarak işlendi: Hadoop’un çekirdek teknolojileri HDFS ve MapReduce’un işleyişleri ve MapReduce kodu yazımı Hadoop geliştirmek, hata ayıklamak ve iş akışı ve yaygın algoritmaların gerçekleştirilmesi […]

, , , ,

Büyük Veri İçerisinde Benzer Öğeleri Bulmak

Benzer Öğeleri Bulmak Büyük veri içindeki benzer öğeleri bulma, sıkça karşılaşılan ve çözülmesi kolay olmayan bir problem dizisi yaratmaktadır. Birbirine benzeyen bazı çözüm yolları içinden, biz bu yazıda çoğunlukla Mining of Massive Datasets [1] kitabının üçüncü bölümünde anlatılan çözümü temel alacağız. Bu çözümü anlamaya çalışan okuyucunun karşısına iki zorluk çıkmaktadır. Birincisi, çözüm temel olasılık, küme […]

, , , , , , ,

Previous Posts Next posts