Boğulacaksan büyük veride boğul! - DevVeri.comDevVeri.com

Amazon EMR ile Spark

18 Ocak 2018 Hakan İlter Cloud, 1

Bu yazıda Amazon EMR üzerinde bir Spark uygulamasının nasıl çalıştırabileceğinden bahsedeceğim. Eğer EMR ile ilgili bir önceki yazıyı okumadıysanız bu yazıyı, AWS Big Data teknolojileri ile ilgili genel bilgi için de bu yazıyı okuyabilirsiniz. EMR üzerinde çalıştıracağımız örnek uygulamada daha önce defalarca kullandığım NYSE verisini kullanacağım. Tab karakterleri ile ayrılmış bu dosya içerisinde günlük borsa […]

AWS, Big Data, Cloud, EMR, Hadoop, S3, Spark

Amazon EMR

13 Ocak 2018 Hakan İlter Cloud, 0

Amazon EMR Nedir? Amazon Elastic MapReduce (EMR), büyük veri işlemeyi kolaylaştırmak amacıyla Amazon tarafından yönetilen, içerisinde Hadoop, Spark gibi açık kaynaklı büyük veri teknolojilerini içeren bir servistir. Aslında temelde AWS üzerinde Hadoop kümesi kurmak için tek tek sunucuları açmak, gerekli yazılımları yüklemek gibi işlemleri otomatik olarak yapmaktadır. Bu sayede tek tık ile bir kümeyi kurabileceğiniz […]

Amazon, AWS, Big Data, EMR, Hadoop, Spark

AWS ile Big Data

11 Ocak 2018 Hakan İlter Cloud, 0

Bulut teknolojilerinin öncüsü olan Amazon Web Servisleri bize birçok büyük veri teknolojisini esnek ve uygun maliyetli olarak test etme ve kullanma şansı sağlıyor. Amazon’un bize sunduğu veri toplama, işleme, saklama, analiz etme ve arşivleme amacıyla tasarlanmış büyük veri servislerini şöyle listeleyebiliriz: Amazon Kinesis Amazon Elastic MapReduce (EMR) Amazon Athena Amazon Machine Learning Amazon DynamoDB Amazon […]

Amazon, Athena, AWS, Big Data, DynamoDB, ElasticSearch, EMR, Kinesis, Machine Learning, Quicksight, Redshift

Apache Hadoop 3.0

10 Ocak 2018 Hakan İlter Hadoop, 0

Uzun zamandır 2.x sürümüyle devam eden Hadoop projesinde 13 Aralık 2017 tarihinde yeni sürüm olan Hadoop 3.0 yayınlandı. Bu yeni sürümde ne gibi özellikler olduğunu bu yazıda özetlemeye çalışacağız; Java Update: Bütün proje minimum Java sürümü Java 8 olacak şekilde derlendi. Dolayısı ile Hadoop 3.0 kullanmak isteyenlerin Java sürümünü de yükseltmesi gerekecek. HDFS Erasure Coding: Yeni […]

Erasure Coding, Hadoop, Hadoop 3.0, YARN

Big Data Teknolojilerine Hızlı Giriş

19 Haziran 2017 Hakan İlter Big Data, 1

Özellikle bitirme projesinde Hadoop veya diğer Büyük Veri teknolojilerini kullanmak isteyen ama konu hakkında çok bilgi sahibi olmayan arkadaşlar için faydalı olmasını umduğum linkleri ufak bir yazı ile paylaşmak istedim. Hadoop’u kurmak yeni başlayanlar için biraz zahmetli olabiliyor. Aşağıdaki tutorial’ı adım adım takip ederseniz sorun çıkmaz: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html İsterseniz kurulum yapmak yerine hazır VM imajlarını kullanabilirsiniz, […]

AWS, Big Data, Büyük Veri, Hadoop, Spark

Hive Veritabanları Arası Tablo Taşıma

18 Şubat 2016 Erkan Ülgey Hadoop, 0

Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]

Hadoop, Hive

Basit Lineer Regresyon

11 Şubat 2016 Yasemin Kaya Yapay Öğrenme, 5

Basit lineer regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. X ekseninde gösterilen 1.değişken tahmin edici, bağımsız değişkendir. Y ekseninde gösterilen 2.değişken ise tahmin edilen çıktı ise bağımlı değişkendir. Basit lineer regresyon ile bulunan bu ilişki, istatistiksel bir ilişkidir. Bu bağlamda istatistiksel ve deterministik ilişkiden bahsedelim. Deterministik ilişki, 2 değişken arasındaki ilişkiyi kesin […]

Apache Sentry ile Yetkilendirme

10 Ocak 2016 Erkan Ülgey Hadoop, 0

Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]

Hadoop, Hive, Impala, Security, Sentry

Hive İç İçe Sorgu Kullanımı

09 Aralık 2015 Erkan Ülgey Hadoop, 2

Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]

Hadoop, Hive, Nested Query, SQL

Kmeans ve Kmedoids Kümeleme

07 Aralık 2015 Yasemin Kaya Yapay Öğrenme, 0

Bu yazımda sizlere Veri Madenciliği’nin Kümeleme (Clustering) alt başlığının iki üyesi olan K-means ve K-medoids’ten bahsetmeye çalışacağım. Öğrenme Çeşitleri Gözetimli öğrenme, sonuçları bilinen veri seti ile modelin oluşturulması ve oluşan modele sonuçları bilinmeyen veri seti verildiğinde, sonuçların tahmin edilmesidir. Örneğin, çalışmada hasta kişiler tahmin edilecekse hasta olan ve olmayan kişilerin bilgisi ile model oluşturulur. Daha […]

Clustering, K-Means, K-Medoids, Kümeleme, Machine Learning, MLlib, Spark, Yapay Öğrenmen

Veri analizinde yeni alışkanlıklar

25 Kasım 2015 Hakan Sarıbıyık docker, Ölçeklenebilirlik, Polyglot, Veri Bilimi, Veri Madenciliği, 0

Veri işlemede kullanılan alet ve yöntemler baş döndürücü bir hızla gelişip değişiyor. Bunun sonucu olarak, eski adet ve alışkanlıklar ile devam ettirmeye çalıştığımız iş süreçlerinde çıkan sıkıntılar ve çıkmazlar sıradanlaştı. Bu yazıda, özellikle veri analizi konusunda çıkan sıkıntıları aşmak için alet kutumuza girmesi gerekli olan göreceli yeni üç aletten; data notebooks ve polyglot dillerden ve […]

Data Mining, Data Science, Scalability, Veri Bilimi

Daha İyi Bir Veri Bilimcisi Olmanız İçin 5 İnanılmaz Yol

02 Kasım 2015 Arif Ahmet Balık Veri Bilimi, 1

Bu yazı datasciencecentral.com adresindeki bir blog yazısının çevirisidir Çoğu veri bilimcisi, ellerinin mümkün olduğunda çabuk bir şekilde veri ile kirlenmesini isterler ama hemen modellemeye başlamadan önce projenin detaylarına girmek önemlidir. Aklında iş fikri olan bir veri bilimcisi bu işte yoluna çıkacak güç faktörleri, sorunları başarıya ulaşmak için hesaplamalıdır. Farklı aşamalarda çeşitli bilgilere, yöntemlere ihtiyacımız olur […]

Data Science, Veri Bilimi

R ile Korelasyon, Regresyon ve Zaman Serisi Analizleri

12 Ekim 2015 İmran Kocabıyık Veri Madenciliği, 3

KORELASYON Korelasyon rassal iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ifade eder. Bu konuda R ile bir çalışma yapalım. R’a yerleşik olarak gelen mtcars veri setini kullanarak korelasyon matrisi oluşturup bir takım uygulamalar gerçekleştirelim: mtcars, 1973-1974 model 32 aracın yakıt tüketimi, dizayn ve performans ölçülerini içeren bir data setidir. Detay için ?mtcars yazabilirsiniz. summary(mtcars) […]

Korelasyon, R, Regresyon, Teknik Analiz, Zaman Serileri

Data Driven Kavramı ve II. Faz

28 Eylül 2015 Ayhan Demirci Haberler, 0

2015 yılı itibariyle “Data Driven” kavramı dünyamızı kökten etkilemeye ve değiştirmeye devam ediyor. Şirketler artık hizmeti müşterinin ayağına götürmenin yeterli olmadığı, müşterilerini tanımaları, ihtiyaçlarını anlamalarının hiç olmadığı kadar kendi varlık sebepleri olacağı bir döneme girmiş durumdalar. Bunları yapabilmenin yoluda exponansiyel olarak artan veri yığınları ve kaynaklarından, bunları işleyip iş süreçlerine aktarabilmekten yani bigdata analitics dediğimiz […]

Apache Kafka

22 Eylül 2015 Emre Akış Big Data, 7

Günümüzde dev veri dediğimiz şey, artık her an(real-time) oluşabilen bir veri haline geldi. Her an her yerden gelen anlık veri bile devasa boyutlara ulaştı. Bunları hızlı , sorunsuz ve ölçeklenebilir bir şekilde nasıl tutarız ve bu veriye real time a yakın bir sürede nasıl tekrar ulaşabiliriz sorusu gündemi işgal etmeye başladı. Apache Kafka’da aslında bu […]