DevVeri.com

Boğulacaksan büyük veride boğul!

Big Data

“Big Data” yani Türkçesi “Büyük Veri” (biz Dev Veri diyoruz), tanımı sadece “diskte çok fazla yer kaplayan veri” anlamına değil, aynı zamanda geleneksel yöntem ve araçlarla işlenemeyen veri anlamına da geliyor.Teknolojinin ilerlemesi, internetin gelişmesi ve sosyal medya devrimi sayesinde bilginin gücünün öne çıkması iş yapma şeklimizi kökten değiştirdi. Firmalar bir adım öne geçebilmek için fark yaratmak zorundalar. Bu yüzden artık en ufak bir bilginin bile ne kadar önemli olduğu anlaşılmış durumda. Peki, bu kadar değerli olan bu veriler nerede?

Aslına bakarsanız bu veriler her yerde. Hatta biz hergün bunun bir parçası oluyoruz. İnternet kullanırken yaptığımız her tıklama çok önemli bir veri. RFID ve sensör teknolojileri giderek yaygınlaşıyor, bağlı bulundukları ortamlar ile ilgili sürekli veri topluyor. Gelecekte daha yaygın olacağı kesin ve şimdiden bazı otomobiller sürüş istatistiklerini toplamaya başladılar bile. İşte bütün bunlar, finansal veriler, medikal veriler, hepsi birleştiğinde dev veriyi oluşturuyor. Peki bu kadar çok veri nasıl saklanıyor?

Teknolojinin gelişmesi donanım fiyatlarının düşmesine sebep olduğu halde, saklanması gereken verilerin büyüklüğü ve çokluğu nedeniyle donanım maliyetlerini aşırı derecede yükseltebilir. Terrabyte büyüklüğündeki verileri saklayacak diskler ev kullanıcısına kadar inmişken dev veri petabyte, exabyte, belki zettabyte seviyesinde bile olabilir. 2000 yılında tüm dünyada 800,000 petabyte büyüklüğünde veri saklandı. 2020 yılında bu verinin 35 zetabyte olacağı tahmin ediliyor. Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her gün her saat TB’larca veri saklıyor. Ancak yüksek maliyetli donanımlarla saklayabileceğimiz bu dev veriyi daha az maliyetli, basit donanımların açık kaynaklı dağıtık dosya sistemleri ile birleştirilmesiyle oluşan dev veri çözümlerinde saklamak mümkün. Peki, bu dev boyuttaki veriler nasıl işlenebilir ve ihtiyaç duyulan bilgiler elde edilir?

Yüksek hacimli bir arama motoru hizmeti veren bir firma olduğumuzu varsayalım. Arama motorumuzda hergün milyonlarca kelime aranıyor, milyonlarca tıklama yapılıyor. Eğer klasik yöntemler kullanıyor olsaydık bu verileri saklayabilmek için büyük ihtimalle milyon dolarlık donanım üzerinde çalışan yüzbinlerce dolarlık veritabanı sistemine sahip olmamız gerekirdi. Diyelim ki bu sisteme sahibiz, birbiri ile ilişkili olan kelimelerin analizini yapmak istediğimiz zaman bunu SQL sorguları ile yapabilmemiz pek mümkün değildir. Sorgu işlemleri o kadar uzun sürebilir ki çıkartacağımız sonuç güncelliğini bile yitirebilir. Başka bir engel de, bu verilerin yapılandırılmamış (unstructured) olarak tutuluyor olması durumu. Yani klasik yöntemlerle dev verinin işlenebilmesi pek söz konusu değil. Dev veri, ancak dev veri çözümleri ile işlenebilir.

Google klasik yöntemleri kullanmayarak, ihtiyacı olan teknolojiyi kendisi geliştirerek başarıya ulaştı. Google milyarlarca internet sayfasının verisini Google File System üzerinde tutuyor, veritabanı olarak Big Table kullanıyor, dev veriyi işlemek için MapReduce kullanıyor. Bu teknolojilerin hepsi düşük maliyetli binlerce bilgisayarın bir araya gelerek oluşturduğu kümeler üzerinde çalışıyor.  Benzer bir şekilde Amazon da verilerini DynamoDB üzerinde tutuyor.

Google, Amazon gibi firmalar geliştirdiği teknolojiler ile ilgili yaptıkları çalışmalar ile ilgili akademik yazılar yayınlıyorlar. Yayınladıkları yazılardan esinlenen Doug Cutting gibi bazı yazılımcılar benzer teknolojileri açık kaynaklı olarak geliştiriyorlar. Bunların en güzel örnekleri genelde Apache projeleri olarak ortaya çıkan Lucene, Solr, Hadoop, HBase gibi projeler. Bu projelerin her biri dev veriyi kullanabilen başarılı projeler.

İkinci jenerasyon diyebileceğimiz firmalardan Facebook, Twitter, Linkedin gibi firmalar dev veri için geliştirdikleri projeleri kendilerine saklamayıp açık kaynaklı olarak yayınlayarak bir adım ileriye gidiyorlar. Cassandra, Hive, Pig, Voldemort, Storm, IndexTank projeleri bunlara örnek. Bunların dışında MongoDB, Riak, Redis gibi yüzlerce dev veri işlemek üzerine geliştirilmiş projeler mevcut ve neredeyse her gün buna bir yenisi katılıyor. Bu esnada dev verinin önem kazanmasıyla mevcut projeler de hem finansal destek buluyor, hem de teknolojik olarak olgunlaşıyor. Peki dev veri ile neler yapılabilir?

İhtiyacımız olan bilgiler dev verinin içerisinde mevcut. Bir bilgi teknolojileri şirketi sistemlerinin yaptığı her hareketi kaydedip, “hangi hatalar birbirleriyle ilişkili”, “hangi problem sisteminizin performansını ne kadar etkiliyor” gibi soruların cevaplarını bulabilir. Bir banka, müşterilerin hareketlerinden dolandırıcılık teşebbüsünü tespit edebilir. E-posta servis sağlayıcı tüm e-postaları analiz edilerek hangilerinin spam olduğu tespit edebilir. Sosyal paylaşım sitesi kullanıcılarının beğeni ve paylaşımlarını analiz ederek ona en uygun reklamları gösterebilir. Bir mağaza müşterilerinin aldığı ürünleri analiz ederek onlara en uygun ürünleri önerip satışlarını arttırabilir. Yani, dev veri geleceğe ışık tutar.

Sitemizde amacımız Dev Veri başlığı altında toplanan NoSQL, Hadoop ve Lucene gibi teknolojileri incelemek ve tecrübelerimizi paylaşmaktır.

20 thoughts on “Big Data

  • mecnun dedi ki:

    çok başarılı bir yazı olmuş, güzel anlatılmış tebrikler.

  • yusuf aytac dedi ki:

    teşekkürler,

  • Mustafa Kaya dedi ki:

    Siteniz ve yazılarınız gerçekten çok başarılı. Hepimiz için faydalı olacağını düşünüyorum. Bu konuda gerçekten başlangıç aşamasında bile sayılmam bu ve bu tür yazıların bize doğru ve en kısa yoldan bilgi edinmemizi sağlayacağına eminim.

    Master tezi ile ilgili olarak Big Data ve Hadoop ana başlığı altında bir çalışma yapmayı düşünüyorum. Uygulamadan ziyade daha çok araştırmaya yönelik bir çalışma olsun istiyorum. Fakat henüz bu konuda herhangi bir bilgi birikimim yok. Henüz bir konu başlığım bile yok ve nereden ve nasıl başlayacağım hiç bilemiyorum. Büyük veri kaynağı olarak sosyal medya araçlarını kullanmayı düşünüyorum. Berkeley Üniversitesi ve Twitter işbirliğinde Analysing Big Data with Twitter adında 2012 yılına ait bir ders mevcut. Yol göstermesi açısından izlemeye başladım. Fakat az önce de belirttiğim gibi konu başlığı noktasında ve ilerleme noktasında çok büyük sıkıntı yaşıyorum. Bu nedenle siz tecrübeli arkadaşların tavsiyelerini önemsediğimi belirtmek istiyorum.

    Nerden başlamalıyım, neler yapmalıyım , nasıl bir yol izlemem gerekir ve konu başlığı noktasında ve sonrasında süreç hangi aşamalardan oluşmalı.

    Gerçekten bu konuda siz yol gösterici arkadaşların yardımına ihtiyacım var.
    İlginiz için şimdiden teşekkürler..

  • Emre Şık dedi ki:

    Big data ile ilgili “type of files” hakkında bilgi verebilirmisiniz? Bir de “Big data vs business intelligence” biraz açıklayabilir misiniz?

  • Oğuzhan dedi ki:

    hoş bir paylaşım olmuş teşekkürler

  • bünyamin dedi ki:

    Manyetik ortamlarda veri depolama dönemi kapanmak üzere. Kristal depolama sistemleri geliyor. Bu teknoloji dünyamızda geçmiş zamanlarda da muazzam düzeyde kullanılıyordu. Hdd okuyucu kafası gibi kristal depolama ortamlarını okuyabilen okuyucular geliştirildiğinde bizden önce yaşayan ileri medeniyetlerin bizim için arşivlendiği milyonlarca yıllık süper ötesi verilere ulaşacağız. Öyle tahmin ediyorum ki bu teknoloji %40/50 oranında tamamlanmış durumda. Sadece şu bile bu teknolojinin varlığının ispatıdır biliyorsunuz ki cinler ortalama 1000 bin sene yaşarlar. Bu da tek seferde en az 1000 yıllık hafıza/kayıt demektir. Ve cinler de veri üreterek bir yerlere kaydederler sonraki nesillerine iletmek için. Bu verilerini kristal depolama ortamlarına kaydederler. Aynen bir diskin imajını alır gibi. Bunu binlerce yıl önce biz de yapıyorduk ve dünyanın her yeri bu kayıtlarla dolu. Yani anlayacağınız dijital teknoloji insanlığın teknolojisinin emekleme cağıdır.

    • özcan dedi ki:

      Bu konu hakkında hiç bir fikrim yok daha önce hiç duymamıştım ama yorumunuz bayağı ilgimi çekti. Merak ettiğim , eğer bu yöntem başarılı olursa 1000 yıllık veriyi -ne kadar büyük olduğunu tahmin bile edemiyoruz- nasıl okuyacağız , ne tür yöntemler kullanılacak ki ? Artık iş big big big data olacak herhalde 😀

  • bünyamin dedi ki:

    Kristal depolama ortamlarının yanında google vs. nin depolama sistemleri uzay gemisinin yaninda antika pikap gibi kalır. Düşünün bir elmas taşı onbinlerce yılda oluşur , deforme etmek çok zordur ve hiçbir manyetik ortamdan etkilenmez. Aslında hiç bir çevre koşulundan etkilenmez. Işığı belirli bir şekilde/oranda/değiştirerek icerisinden geçirir. Bundan daha mükemmel bir depolama ortamı olabilirmi. Belki duymuşsunuzdur ” taşların hafizası vardır ” sözünü. Düşünün geçmişten günümüze gelen her tarihi eser taşlara kaydedilmiş ve hala sağlam.

  • Engin dedi ki:

    Bünyamin kardeş söylediklerin çok harika şeyler. Aklıma birden simya ilmi geldi. Araştırılıp çok güzel fikirler üretilebilir.

  • salih dedi ki:

    Merhaba,
    Yazı için teşekkür ederim.Yazıda pek çok farklı projeden, dev veri çözümünden söz ediliyor. Ben, şimdilik hedef küçültmek istiyorum henüz bu konuya yeni eğilen biri olarak. Şöyle ki, iş hayatına şimdilik finans sektöründe iş analisti olarak devam eden ve ilerde de öncelikle finans ve telekomünikasyon sektöründe analist olarak devam etmek isteyen biri olarak takip etmem gereken en uygun big data çözüm tekniği hangisidir? Tabi, ben bu önerinin ardından bu konu hakkında kaynak kitaplar, varsa belki demo uygulaması gibi vs. araçları da incelemek için bulmaya çalışacağım için bu kısmı da dikkate alırsak eğer nasıl hareket etmem en uygunu olur? Big data uygulamalarını, tekniklerini kendi imkanlarıyla öğrenmek isteyen biri olduğumu da belirtmiş olayım. Tavsiyeleriniz için şimdiden teşekkürler

  • Öznur dedi ki:

    Yararlı bir yazı. Teşekkürler..

  • Ebubekir AYBEST dedi ki:

    Faydalı bir yazı. Teşekkür ederim.

    Google Cloud Platform ve Bigtable önemli değinirseniz sevinirim.

  • Aydın dedi ki:

    Oldukça bilgilendim bu konuda

  • Levent Cem Aydan dedi ki:

    Merhaba,

    Biz de big data konusunda herkesin kolayca konuyu anlamasını sağlayacak bir sunum hazırlayalım dedik. Bloğunuzda paylaşıp daha fazla kişiye ulaştırabilirseniz çok mutlu oluruz.

    Link:
    http://www.slideshare.net/Renerald/big-data-byk-veri-nedir-71012772

    Sevgiler

  • Caner dedi ki:

    Big Data bence çok büyük bir tehlike hem belgeselleri hemde farklı bir bakış açısı için yazıyıda okuya bilirsiniz

    http://www.canerbabatas.net/2017/02/11/buyuk-veri-big-data-nedir/

  • barış dedi ki:

    Big data analizi araçları nelerdir arıyorum tarıyorum bulamadım

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.