AWS ile Big Data
Bulut teknolojilerinin öncüsü olan Amazon Web Servisleri bize birçok büyük veri teknolojisini esnek ve uygun maliyetli olarak test etme ve kullanma şansı sağlıyor. Amazon’un bize sunduğu veri toplama, işleme, saklama, analiz etme ve arşivleme amacıyla tasarlanmış büyük veri servislerini şöyle listeleyebiliriz:
- Amazon Kinesis
- Amazon Elastic MapReduce (EMR)
- Amazon Athena
- Amazon Machine Learning
- Amazon DynamoDB
- Amazon Redshift
- Amazon Elasticsearch Service
- Amazon Quicksight
Bu yazıda bu servislerden genel olarak bahsedeceğim.
Amazon Kinesis
Kinesis genel olarak gerçek zamanlı veri işleme amacıyla kullanılan AWS servisidir. Kinesis Streams, Kinesis Firehose ve Kinesis Analytics olarak üç başlıkta toplanır. Temelde aslında Apache Kafka projesini kullanmaktadır.
Kinesis Streams, terabyte’larca veriyi gerçek zamanlı olarak toplamanızı ve analiz etmenizi sağlar. Kinesis Stream üzerindeki veriyi S3, Redshift, EMR ve Lambda gibi diğer Amazon servislerine de kolayca gönderebilirsiniz.
Kinesis Firehose tamamen Amazon tarafından yönetilen, gerçek zamanlı verileri işlemeyi daha basite indirgeyen ve ölçeklenmeyi otomatik hale getiren bir servistir. Firehose ile verileri Lambda yardımıyla işleyip sonucunu S3, Elasticsearch veya Redshift’e yazabilirsiniz.
Kinesis Analytics ile Kinesis üzerindeki verileri standart SQL komutlarıyla işleyebilir, zaman serileri gibi birden fazla akan veriyi birleştirip analiz edebilirsiniz. Analiz edilen verileri tekrar akan veri haline dönüştürebilirsiniz.
Amazon EMR
Amazon Elastic Map Reduce (EMR), büyük veri işlemeyi kolaylaştırmak amacıyla Amazon tarafından yönetilen, açık kaynaklı büyük veri teknolojilerini içeren bir servistir. Aslında temelde AWS üzerinde Hadoop kümesi kurmak için tek tek sunucuları açmak, gerekli yazılımları yüklemek gibi işlemleri otomatik olarak yapmaktadır.
İçerisinde Hadoop, Spark, Hive, Flink, HBase, Zeppelin, Presto gibi birçok açık kaynaklı projeyi içermektedir ve AWS servisleriyle entegre çalışabilmektedir.
Amazon Athena
Amazon Athena tamamen Amazon tarafından yönetilen, S3 üzerinde saklanan verilerin SQL ile sorgulanmasını sağlayan bir büyük veri analiz servisidir. Mimari olarak Facebook’un geliştirdiği açık kaynaklı Presto teknolojisini kullanmaktadır. Yine bir başka AWS servisi olan AWS Glue veri kataloğu servisi ile entegre çalışmaktadır.
Athena ile herhangi bir küme kurulmu yapmanıza gerek olmadan direkt olarak sorgulama yapabilirsiniz. Sadece sorguladığınız veri miktarı kadar ücretlendirilirsiniz. Bu yüzden sıkıştırılmış, binary ve kolon tabanlı dosya formatları (Parquet, ORC gibi) ile kullanmanız tavsiye edilir.
Hali hazırda büyük veri teknolojileri kullanmayanların başlangıç noktası olabilir, özellikle de Redshift’ten daha hesaplı olması iyi bir avantajdır.
Amazon Machine Learning
Amazon ML herkesin predictive analytics ve yapay öğrenme teknolojilerini kullanmasını kolaylaştırmayı sağlayan bir araçtır. Amazon ML yapay öğrenme modellerini oluşturma sürecinde size rehberlik edecek görselleştirme araçları da sağlar. Modellerinizi hazırladıktan sonra bu modellerin deploy edilmesi ve API üzerinden kullanılmasını sağlar.
Burada geliştireceğiniz modellerle fraud kontrolü, ürün talep analizi, öneri sistemleri, kullanıcı hareketlerinin tahmin edilmesi, sosyal medya takibi gibi gerçek hayatta kullanılan uygulamalar geliştirebilirsiniz.
Amazon DynamoDB
Amazon DynamoDB tamamen Amazon tarafından yönetilen, teorik olarak sınırı olmayan miktarda veriyi saklayabilecek, hızlı, basit ve uygun maliyetli bir NoSQL veritabanıdır. İstenilen performans ve ölçeklenebilirlik sizin tarafınızdan ayarlanabildiği için her zaman öngörülebilir tek basamaklı milisaniye (<10ms) performansı elde etmek mümkün olmaktadır.
DynamoDB’nin kendine özgür bir mimarisi vardır. Veriler birincil anahtara göre dağınık olarak saklanır, ayrıca sort key ve global veya lokal indeksler yardımıyla veriye hızlı ulaşımı destekler. Ayrıca diğer Amazon servisleriyle kolay entegre olur.
Büyük miktarda veri toplanan IOT gibi projelerde tercih edilir. Eğer hali hazırda zaten AWS kullanılıyorsa kendinizin yöneteceği bir NoSQL yerine DynamoDB kullanmak çok daha mantıklı olacaktır.
Amazon Redshift
Amazon Redshift tamamen Amazon tarafından yönetilen petabyte seviyesinde verilerin işlenebileceği, birçok mevcut iş zekası yazılımları ile uyumlu bir veriambarı servisidir. Mimarisi PostgreSQL üzerine kuruludur.
İstediğiniz büyüklükte bir küme oluşturarak veriler üzerinde inanılmaz hızlı bir şekilde SQL komutları çalıştırmanızı sağlar. Sorguları kolon tabanlı dosyalar üzerinde paralel olarak (MPP) çalıştırabilir. Bakımı, yedeklenmesi ve monitör edilmesi tamamen otomatiktir.
Yeni duyurulan Redshift Spectrum isimli servis ile S3 üzerinde bulunan CSV, ORC, Parquet, SequenceFile gibi dosyalar da SQL sorguları ile analiz edilebilmektedir. Bu haliyle Hive, SparkSQL, Impala vs gibi bir çok teknolojiye iyi bir alternatif oluşturmaktadır.
Özellikle büyük veri teknolojilerine aşina olmayan kişiler için büyük miktarda veriyi SQL yardımıyla analiz etmek için çok uygundur.
Amazon Elasticsearch Service
Amazon Elasticsearch servisi, Amazon üzerinde otomatik olarak yönetilen ElasticSearch tabanlı bir servistir. ElasticSearch’ün bütün özelliklerini kullanabilmenin yanı sıra, dakikalar içerisinde bir küme kurulumu yapmak mümkündür.
Kendi yönettiğiniz bir ElasticSearch kümesinde çok da kolay bir şekilde yapılamayan dilediğiniz gibi ölçeklendirme bu servis sayesinde mümkündür. Ayrıca küme içerisindeki sunucularda problem olduğunda bu sunucular otomatik olarak yenilenir. Yedekleme, bakım gibi tüm işler de yine Amazon tarafından halledilir.
Amazon Quicksight
Amazon Quicksight 2015 yılında tanıtılan, bulut teknolojilerin gücünü kullanan, hızlı bir iş zekası aracıdır. Kolayca analizler, raporlar ve görselleştirmeler hazırlamanızı sağlar.
Quicksight mimarisinde yeni, süper hızlı, paralel ve in-memory çalışan SPICE motorunu kullanır. Aynı anda binlerce kullanıcının erişimini destekler ve geleneksel çözümlere göre onda bir oranında daha hesaplıdır.
Halihazırda zaten AWS kullanan bir firma için eğer kullandığı bir iş zekası aracı yoksa iyi bir alternatif olacaktır.
Kaynak: https://aws.amazon.com/products/analytics/