DevVeri.com

Boğulacaksan büyük veride boğul!

Günlük Hayatta Yapay Zekâ Teknikleri – Yazı Dizisi (1)

Bütün bilimlerin ve buluşların kaynağında, “insandan/doğadan esinlenme” bulunmaktadır. Mekanik (pistonlar v.s.) için insan kaslarına, görüntü ve video (fotoğraf makinesi, TV v.s.) için, göz’e, pompa için kalbe, sonar için kulaklara, filtre için akciğerine, skorsky helikopter için yusufcuk böceğine (helikopter böceği)… bakılabilir. Şüphesiz, yapay zeka yöntemlerinde de, insan beyninden esinlenilmiştir. Bir sorunu çözmek, bir olayı sınıflandırmak veya […]

, , , , ,

Hive Veritabanları Arası Tablo Taşıma

Merhaba arkadaşlar, Kısa bir aradan sonra BüyükVeri tarafında yeni bir blog yazımda, sizlere sıkça karşılacaşağımız bir problemin beni uğraştırmasından bahsedeceğim. Bildiğiniz gibi geliştirme safhasında tablolar yapı olarak sürekli değişime uğrar. Bu sebeple tabloyu yedekleyebilir miyiz şeklinde çok istek alırız. Peki Büyük Veri’de bu nasıl olacak? BüyükVeri dosya sistemi üzerinde kurulduğu için aslında tabloya ait dosyaları […]

,

Basit Lineer Regresyon

Basit lineer regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. X ekseninde gösterilen 1.değişken tahmin edici, bağımsız değişkendir. Y ekseninde gösterilen 2.değişken ise tahmin edilen çıktı ise bağımlı değişkendir. Basit lineer regresyon ile bulunan bu ilişki, istatistiksel bir ilişkidir. Bu bağlamda istatistiksel ve deterministik ilişkiden bahsedelim. Deterministik ilişki, 2 değişken arasındaki ilişkiyi kesin […]

Apache Sentry ile Yetkilendirme

Merhaba arkadaşlar, Bu yazıda Büyük Veri Güvenlik çözümlerinden Apache Sentry’den bahsetmek istiyorum. Apache Sentry kullanarak hadoop ekosisteminde rol bazlı yetkilendirme ile pekçok Büyük Veri aracı arasında güvenli iletişim sağlanabilir. Şimdi Sentry’nin hive, impala ve hdfs arasındaki çalışma şekillerine bakalım. Yazını devamında Sentry metadatasına inceleyip, hive üzerinde yetkilendirme uyarlamaları yapıyor olacağız. Hive aracı ile SQL komutları […]

, , , ,

Hive İç İçe Sorgu Kullanımı

Merhaba arkadaşlar, Bildiğiniz gibi HIVE aracı ile SQL kurallarına benzer bir dil ile sorgulamalar yapabiliyoruz. Ancak bu noktada ticari veritabanlarının sağlamış olduğu kadar fonksiyonel geliştirme yapamadığımız bir durumda söz konusu. Öncelikle, HIVE’ın veritabanı veya geliştirici kişiler için SQL kolaylığında sorgulama imkanı sağlamasına rağmen, Hadoop ekosisteminin büyük dosya yapıları üzerinde analiz yapma mantığı etrafında geliştiğini unutmamamız […]

, , ,

Kmeans ve Kmedoids Kümeleme

Bu yazımda sizlere Veri Madenciliği’nin Kümeleme (Clustering) alt başlığının iki üyesi olan K-means ve K-medoids’ten bahsetmeye çalışacağım. Öğrenme Çeşitleri Gözetimli öğrenme, sonuçları bilinen veri seti ile modelin oluşturulması ve oluşan modele sonuçları bilinmeyen veri seti verildiğinde, sonuçların tahmin edilmesidir. Örneğin, çalışmada hasta kişiler tahmin edilecekse hasta olan ve olmayan kişilerin bilgisi ile model oluşturulur. Daha […]

, , , , , , ,

Veri analizinde yeni alışkanlıklar

Veri işlemede kullanılan alet ve yöntemler baş döndürücü bir hızla gelişip değişiyor. Bunun sonucu olarak, eski adet ve alışkanlıklar ile devam ettirmeye çalıştığımız iş süreçlerinde çıkan sıkıntılar ve çıkmazlar sıradanlaştı. Bu yazıda, özellikle veri analizi konusunda çıkan sıkıntıları aşmak için alet kutumuza girmesi gerekli olan göreceli yeni üç aletten; data notebooks ve polyglot dillerden ve […]

, , ,

Daha İyi Bir Veri Bilimcisi Olmanız İçin 5 İnanılmaz Yol

Bu yazı datasciencecentral.com adresindeki bir blog yazısının çevirisidir Çoğu veri bilimcisi, ellerinin mümkün olduğunda çabuk bir şekilde veri ile kirlenmesini isterler ama hemen modellemeye başlamadan önce projenin detaylarına girmek önemlidir. Aklında iş fikri olan bir veri bilimcisi bu işte yoluna çıkacak güç faktörleri, sorunları başarıya ulaşmak için hesaplamalıdır. Farklı aşamalarda çeşitli bilgilere, yöntemlere ihtiyacımız olur […]

,

R ile Korelasyon, Regresyon ve Zaman Serisi Analizleri

KORELASYON Korelasyon rassal iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ifade eder. Bu konuda R ile bir çalışma yapalım. R’a yerleşik olarak gelen mtcars veri setini kullanarak korelasyon matrisi oluşturup bir takım uygulamalar gerçekleştirelim: mtcars, 1973-1974 model 32 aracın yakıt tüketimi, dizayn ve performans ölçülerini içeren bir data setidir. Detay için ?mtcars yazabilirsiniz. summary(mtcars) […]

, , , ,

Data Driven Kavramı ve II. Faz

2015 yılı itibariyle “Data Driven” kavramı dünyamızı kökten etkilemeye ve değiştirmeye devam ediyor. Şirketler artık hizmeti müşterinin ayağına götürmenin yeterli olmadığı, müşterilerini tanımaları, ihtiyaçlarını anlamalarının hiç olmadığı kadar kendi varlık sebepleri olacağı bir döneme girmiş durumdalar. Bunları yapabilmenin yoluda exponansiyel olarak artan veri yığınları ve kaynaklarından, bunları işleyip iş süreçlerine aktarabilmekten yani bigdata analitics dediğimiz […]

Apache Kafka

Günümüzde dev veri dediğimiz şey, artık her an(real-time) oluşabilen bir veri haline geldi. Her an her yerden gelen anlık veri bile devasa boyutlara ulaştı. Bunları hızlı , sorunsuz ve ölçeklenebilir bir şekilde nasıl tutarız ve bu veriye real time a yakın bir sürede nasıl tekrar ulaşabiliriz sorusu gündemi işgal etmeye başladı. Apache Kafka’da aslında bu […]

Elasticsearch İle Metin İşleme

Bu yazıda, popüler doküman veri tabanlarından Elasticsearch (ES) ile metin işleme ve sorgulama konusunda bazı önemli noktaları sizlerle paylaşmak istiyorum. Java da yazılmış olan açık kaynak kodlu metin arama motoru olan Apache Lucene kullanılarak geliştirilen Elasticsearch, rakibi Apache Solr ile ciddi bir rekabet içinde. Bu yazı Türkçe kaynaklarda fazlaca değinilmediğini düşündüğüm, Elasticsearch ile metin verisinin […]

, ,

Hadoop Workshop Etkinliği

İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu 25 Temmuz 2015 Cumartesi günü İstanbul’da yapılan çalışma etkinliği sonrası, planlanan diğer bir diğer etkinlik olan Hadoop ile Merhaba Dünya konulu workshop, 8 Ağustos 2015 Cumartesi günü Maslak taki İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden […]

, , ,

Spark ile Tanışma Etkinliği

İstanbul Spark Tanışmaları Grubu (İSTG) tarafından Spark ın tanıtımı ve kullanımı konulu çalışma toplantısı, 25 Temmuz 2015 Cumartesi günü İstanbul Maslak taki, İTÜ Teknokent’te gerçekleştirildi. Arı 3 Çekirdek Seminer Salonu’nda gerçekleştirilen etkinliğe değişik şirket ve sektörden 23 kişi katıldı. İTÜ Çekirdek Yönetimi’nin seminer salonlarını Workshop için kullanıma sunmaları etkinliğin güzel bir ortamda gerçekleşmesine önemli katkı […]

, , ,

MongoDB Replica Set Kullanımı

MongoDB, şüphesiz son 5 yılın en iyi NoSQL veritabanı çözümlerinden bir tanesi. Foursquare gibi büyük firmalar tarafında kullanıldığı öğrenilince, insanlar kendi sistemlerinde ciddi veri saklama çözümleri için bir heyecanla MongoDB kullanmaya çalışıyor. Evet MongoDB bir çok alanda veri saklama işinde çok yararlı olabilir, ama inanın yanlış kullanıldığı takdirde sizin bir numaralı kabusunuz da olabilir…. MongoDB […]

, ,

Previous Posts