Data Scientist kimdir?
Data Scientist (Veri Bilimci) kavramını son yıllarda özellikle Facebook ve Linkedin firmalarından ötürü daha sık duymaya başladık. İş ilanlarında bu görev için adayların arandığına daha sık rastlar olduk. Peki ama Data Scientist kimdir, ne iş yapar?
Data Scientist, bağlı bulunduğu kurum için değer yaratmak amacıyla büyük ve çeşitliliğe sahip veriyi uçtan uca analiz eder. Bu veriler bazen ilişkisel veritabanlarında olabileceği gibi, bazen de log dosyaları, sensör verileri gibi değişik kaynaklardan toplanan veriler de olabilir. Data Scientist bu verileri analiz ederek, sonuçlarını yönetim ile paylaşıp aksiyon alınmasını sağlar ve “Veri Odaklı Uygulamalar” geliştirir. Bu uygulamaların birkaç önemli karakteristiği vardır:
- Bu uygulamalar veriden faydalanarak ortaya çıkar
- Bu uygulamaların kullanımı sonucunda yeni veriler ortaya çıkar
- Yeni çıkan bu veriler uygulamaların iyileştirilmesi için kullanılır
Veri odaklı uygulamalar, kullanıcıların ilgisini çekebilecek ürünleri önermek, pazar analizi, talep analizi, sahtekarlıkların tespit edilmesi gibi örneklendirilebilir.
Google veri odaklı uygulamaya örnek olarak verilebilir. İlk arama motoru Google değildi, Altavista, Yahoo ve benzeri siteler zaten mevcuttu, ancak PageRank algoritması ile Google öne çıktı ve pazar lideri oldu. Daha sonrasında AdSense, AdWords ve Analytics gibi diğer veri odaklı ürünleriyle başarısını ileriye taşıdı.
Linkedin de alanındaki ilk örnek değildi, ancak tanıyor olabileceğimiz kişileri göstermesi, ilgimizi çekebilecek grupları ya da iş fırsatlarını bize sunuyor olması gibi veri odaklı uygulamaları ile benzerlerinin arasından sıyrıldı ve öne çıktı.
Amazon yayına çıktığı ilk günden bu yana öneri sistemine sahip. Bunun dışında hangi ürüne bakan kullanıcıların daha sonrasında hangi ürünü aldığını göstermesi, bu ürünü alan kullanıcıların başka hangi ürünleri aldıkları gibi çok çeşitli veri odaklı uygulamayı da içinde barındırıyor.
eBay açık arttırmalı ürünlerin başlıklarının otomatik olarak doğrulanması, kaybedilen bir açık arttırma ardından kullanıcıya benzer ürünlerin önerilmesi, resim ile arama gibi farklı uygulamalara sahip.
Büyük ve çeşitliliğe sahip veriyi analiz etmek ve veri odaklı uygulamalar geliştirebilmek için birden fazla disiplinde bilgi ve tecrübe gereklidir. Bu nedenle Data Scientist, Yazılım Mühendisliği (belki biraz da Sistem Mühendisliği), İstatistik ve İş Alanı Deneyimi (Domain Experience) alanlarını bir araya getiren çoklu bir disiplindir. Data Scientist olmak isteyenlerin aşağıdaki yetenek ve tecrübelere sahip olması gerekir:
- Analitik bir zeka ve geniş bir matematik bilgisi
- Özellikle ölçeklendirilebilirlik başta olmak üzere Yazılım Mühendisliği bilgisi
- İlişkisel veritabanı sistemlerinde tecrübe
- Hem teknik (yazılım, sistem, veriambarı, vs) hem de teknik olmayan (pazarlama, satış, yönetim, vs) birimleriyle efektif bir şekilde iletişim kurabilme yeteneği
- İçinde bulunduğu sektör ile ilgili (finans, bankacılık, internet, vs) yeterli tecrübe
Yazılımcı açısından bakıldığında, Data Scientist genel amaçlı yazılım üretmekten ziyade soruları cevaplamak, sorunları çözmek amacıyla yazılımdan faydalanır. Bu sebeple daha ziyade script dilleri (özellikle Python yaygın olarak kullanılmakta) ve otomasyon üzerine odaklanırlar. Bunların dışında Yapay Öğrenme (Machine Learning) konularında bilgi ve tecrübe gereklidir.
Veri Analisti, İş Zekası Uzmanı veya İstatistikçi daha ziyade mevcut araçları kullanmaya odaklanmışken Data Scientist ise çok farklı kaynaklardan, daha fazla veri toplar ve bu veriyi işlemek için yeni araçlar geliştirir. Çoğunlukla mevcut araçların işleyemediği büyük miktarda, yapılandırılmamış ve kirli veriyle çalışır.
İş Analisti açısından ise, her ikisi de iş odağına sahipken Data Scientist kimseden yardım almadan sorularının cevaplarını bulabilecek teknik bilgiye sahiptir.
Son olarak, Data Scientist yaptığı analizlerin veya geliştirdiği veri odaklı uygulamanın sonuçlarınının görselleştirilmesinden de sorumludur. Bu sebeple görselleştirme konusundaki araçlar hakkında da bilgi sahibi olmalıdır.
Cloudera Impala: Hadoop üzerinde Gerçek Zamanlı Sorgulama Apache Flume ile Veri Toplama
Çok faydalı bir yazı olmuş elinize sağlık.
Merhaba,
Elinize sağlık. Bazı yorum ve eklemelerim olacak.
Uzun yıllar veri madenciliği yapmış bir kişi olarak data scientist, data miner ın revize edilmiş bütün süreci içine alan compact versiyonu olarak gözüküyor. Normalde veri madenciliği en az üç dört farklı pozisyonun katıldığı ve minimum üç aylık sürelerle gerçekleştirilen zor ve zahmetli bir süreçken, big data ve in-memory analytics gibi yeni data işleme tool larının verdiği imkanlarla bir kişinin üzerine yoğunlaştırılmış bir iş olmaya başladı. Ben yine de bir kişinin yukarıda bahsedilen konularda bilgi ve tecrübe sahibi olup belirttiğiniz fonksiyonu görmesini zor bulsam da, günümüzün trendi olan her şeyi yapabilen supermen yazılımcı tiplemesine uygun bir kahraman anlattığınız data scientist.
Selamlar,
Bu yazıda Data Scientist nedir, Türkçe olarak tanımını yapmak istedim. Tanımı yaparken de takip ettiğim kaynaklardan faydalandım. Yorumunuza katılıyorum, benim çevremde bütün bu özelliklerin hepsini birden barındıran bir kimse yok (olsun çok isterim) ama Cloudera, Linkedin vs gibi Big Data şirketleri Data Scientist’i bu şekilde tanımlıyorlar.
Bilgiler için teşekkürler. Peki bankada çalışanları ne yapıyor tam olarak?