Data Driven Kavramı ve II. Faz
2015 yılı itibariyle “Data Driven” kavramı dünyamızı kökten etkilemeye ve değiştirmeye devam ediyor. Şirketler artık hizmeti müşterinin ayağına götürmenin yeterli olmadığı, müşterilerini tanımaları, ihtiyaçlarını anlamalarının hiç olmadığı kadar kendi varlık sebepleri olacağı bir döneme girmiş durumdalar. Bunları yapabilmenin yoluda exponansiyel olarak artan veri yığınları ve kaynaklarından, bunları işleyip iş süreçlerine aktarabilmekten yani bigdata analitics dediğimiz kavramdan geçiyor.
Dünyanın en büyük 500 şirketi sıralaması olan Fortune 500 listesie baktığımızda büyük değişimi görebiliyoruz. 1955’den bu yana %90 oranında listenin değişmesi ve en büyük değişiminde artarak son 20 yılda yaşanması artık ayakta kalmanın başlı başına bir başarı olduğunu ortaya koyuyor.
Tüm bu değişimin merkezinde yer alan “data driven şirketler” kavramı ise büyük veri analitik yeteneği kazanmış, algoritmaların sonuçlarını kendi iş süreçlerine entegre etmiş şirket kavramını ifade ediyor. Bu konuda kullanılan teknolojilere baktığımızda ise bu sitede de yazılarını okuduğumuz hadoop, spark, nosql, elasticsearch, R, Python gibi open-source teknolojiler yanında bu alandaki dev yazılım firmalarının sunduğu lisanslı çözümler de yer alıyor.
Büyük yazılım firmaları arasında ise Veri Analitiği konusunda halen liderliğini sürdüren SAS firması ön plana çıkıyor. 1970’lere uzanan analitik ürün geliştirme geçmişiyle SAS, analitik bakışı kendi üzerinde de uyguluyor görünüyor çünkü bu yeni çağa ayak uydurmaya çalışıyor. SAS gemisi bir yandan halen çok ihtişamlı görünüyor ancak bir yandan geminin üzerinde yol aldığı deniz artık eskisi kadar pürüzsüz ve sakin değil, bir yandan da etrafda daha ucuza yolcu taşıyan onlarca irili ufaklı gemicik belirdi. Zaman mağrurların, egoların, bana bir şey olmazların aleyhine işliyor, sen çevreye ayak uyduramazsan çevre seni yok ediyor.
Bu şartlarda SAS son yıllarda stratejisinde bazı değişimlere gitmeye başladı, zaten çok güçlü olduğu analitik alanındaki çözümlerinin, Hadoop, R gibi yeni teknolojilerle birlikte ve entegre çalışmasını sağlayan yöntemler ve entegrasyonlar sundu. In-memory çalışan, gizli patternlerin görsel keşfedilmesini sağlayan Visual Analitics ve Visual Statistics ürünlerini çıkarttı. Base SAS yada Data Step olarak isimlendirilen ve tamamen veri işleme üzerine kurgulanmış, SQL’e göre büyük avantajları olan programlama dilinin artık yeterli olmadığını anlayarak, Base SAS’ın yeni gelişmiş hali olarak Data Step 2 (DS2) yi çıkarttı. Büyük veri üzerinde analitik imkanlar sunan SAS High-Performance Analitik Server’a da yatırım yapmaya devam ediyor.
Bir diğer önemli oyuncu SPSS ise 2009 yılında IBM’in satın almasından sonra yeni gelişen dünyaya SAS’a göre daha yavaş bir reaksiyon vermiş durumda. SPSS kolay kullanımı, görsellikte ön plana çıkması, komple bir veri madenciliği paketi olarak sunulması ile ön plana çıkmıştı. Şu anda görünen SAS, R ve diğer analitik firmalara göre akademik çevrede halen bir ağırlığı olmasına rağmen SPSS’in eski popularitesi azalmış durumda.
Eski versionlarını ücretsiz veren RapidMiner, İsviçre Zurich’de üniversite kökenli bir grup tarafından geliştirilen Open source versiyonu da olan KNIME, Kaliforniya merkezli 700 den fazla musterisi olan Alterix de artık devreye girmiş durumda.
2013 sonunda SAP’ın KXEN’i, 2014 yılı mart ayında DELL’in Statsoft(Statistica)’yı satın alması, Microsoft’un ticari olarak R’ı müsterilerine sunan Revolution Analytics’i Nisan 2015’de yani sadece bir kaç ay önce bünyesine katması büyük veri analitiğinde daha yarışın yeni başladığını gösteriyor.
Bunu destekleyici tarzda Veri analizi ve analitiği konusunda yapılan bazı araştırma sonuçları ve grafikleri şimdi sizinle paylaşmak istiyorum.
Grafik 1. İlk grafikte Amerika’da 1000’den fazla kaynakta yayınlanan iş ilanlarını baz alarak araştırma sonuçları yayınlayan Indeed.com ‘un 2014/02 tarihli bir çalışması var. Grafikte halen Java, C, C++, Python gibi programlama dillerinin halen analitik yeteneklerle birlikte arandığını ortaya koyuyor. SAS’ın halen ikinci olması dikkat çekici.
Grafik2. Bir de analitik alanda yarışan R ile SPSS ve R ile SAS arasında karşılaştırmalı olarak geçmişten bugüne verilen iş ilanları trendlerine baktığımızda daha ilginç verilerle karşılaşıyoruz. İlk olarak SPSS ile R karşılaştırması aşağıda. Turuncu renk R, Mavi SPSS’i gösteriyor. R çoktan SPSS’i geçmiş durumda.
Grafik3. Aynı grafiğin SAS ile R karşılaştırması ise aşağıda. Turuncu renk R, Mavi SAS’i gösteriyor. SAS düşüş, R ise artış trendiyle devam ediyor.
Grafik4. Son dönemlerin popüler teknolojileri, R ve Python üzerinden aynı grafiğe baktığımızda ise görüntü aşağıda. İvme yukarı yönlü devam ediyor.
Grafik5. Bir diğer ilginç popülarite karşılaştırmasıda, Stackoverflow üzerinden geliyor. Haftalık olarak R ve SAS’la ilgili yapılan posting’lerin karşılaştırması aşağıda. 2009’dan sonra her şey değişmeye başlıyor.
Grafik6. Bu da Linkedin ve Quora.com verisi üzerinden alınmış bir grafik. 2013 sonu itibariyle konu bazlı açılan tartışma gruplarındaki üye sayıları dikkate alınmış durumda. Hepimizin üye olduğu Linkedin açısından ilginç bir grafik.
Bu grafiklere Programlama dillerinin popularitesini araştıran Tiobe Index ve Transparent Language Popularity Index sıralamalrınıda dahil edebiliriz. Bunların linkleride aşağıda ve R’ın özellikle SAS’a karşı yükselişi burada da görülüyor.
http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html
http://lang-index.sourceforge.net/
Yazının sonuna geldik sanıyorum, baştaki cümleyi tekrar ediyorum, data driven kavramı her şeyi değiştiriyor ve değiştirmeye devam edecek, tüm bu grafikler, karşılaştırmalar, indeksler, trendler, araştırmalar bunu gösteriyor. Eskinin yıkılmaz, dokunulmaz denilen kaleleri dört bir yandan çevrilmiş ve bu haliyle kaldıkları sürece varlıkları sorgulanır durumda. Açık olmadıkları zaman yok olacaklarını anlamış durumdalar.
SAS gibi veri analitiğinde dev bir firmanın 30-40 yıl sonra verdiği reaksiyonlar, dev firmaların veri analitiği firmalarını bir bir satın almaları, verinin exponansiyel artışı, Hadoop-Spark, internet of things kavramları hepsi birden Data scientistlerin damga vuracağı bilgi çağında ikinci fazın başladığını gösteriyor.
Kaynaklar
http://www.dell.com/learn/us/en/vn/secure/2014-03-17-dell-acquires-statsoft-data-analytics-software
http://lang-index.sourceforge.net/
http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html
http://r4stats.com/articles/popularity/
Apache Kafka R ile Korelasyon, Regresyon ve Zaman Serisi Analizleri