Veri Bilimi 2018 Trendleri

28.7.2018 20:04:01

Veri bilimi hakkında yüzlerce hatta binlerce teknik tanım vardır. Benim en basit haliyle tanımım şöyle: Veri bilimi, ticari ve toplumsal konulardaki kararların duygulara değil gerçeklere(veriye) dayanmasına hizmet eden bir disiplindir.

Kaggle ise veri bilimiyle ilgilenen 1 milyondan fazla kullanıcının yarışmalara katıldığı, bilgilerini paylaştığı öğrenme serüveninizde yolunuzun mutlaka kesişeceği bir platform. Çalışma prensibi oldukça basit: Şirketler problemlerini, verilerini siteye yüklüyor ve belirli bir süre içinde problemleri çözen kişilere/gruplara nakdi ödüller veriyor.

Günün sonunda şirketlerin problemleri çözülüyor, veri bilimciler de iyi paralar kazanıyor. Yarışmalar süresince aktif olan tartışma gruplarının veri bilimindeki güncel problemleri, çözümleri takip etmek açısından faydalı olduğunu düşünüyorum.

Kaggle’da 7 -25 Ağustos 2017 tarihleri arasında anket düzenlendi ve ankete 171 ülkeden 16.716 katılımcı cevap verdi. Birçok oturumda cevap verilebilen anketin geçerli katılımcılarının harcadığı medyan zaman 16.4 dakika.

Katılımcıların veri bilimine giriş hikayelerini, bulundukları sektörleri, lisans derecelerini, veri biliminde öngörülen 2018 trendlerini ve bunun gibi bir çok sonucu interaktif Python Plotly kütüphanesiyle görselleştirmeye çalıştım.

Veri biliminin, profesyonel olarak bu alanda çalışmak istesin istemesin çağa tanıklık etmek isteyen herkesin fikir sahibi olması gereken bir konu olduğunu düşünüyorum ve giriş bölümünü çok uzatmadan anket sonuçlarını paylaşmaya başlıyorum.

Ülke

Katılımcıların yaklaşık 1/3'ü Birleşik Devletler’den ve Hindistan’dan, Türkiye ise 21. sırada. Ülkelerin 2017 GSYİH değerlerine baktığımızda sıralamanın aşağı yukarı benzer olduğunu görüyoruz, tahmin edileceği gibi güçlü ekonomiler geleceğe daha çok yatırım yapıyor.

Yaş

Sahte cevapların önüne geçmek için grafiği çizerken 10 yaş altını ve 85 yaş üstünü dahil etmedim. Veri biliminin yeni bir alan olduğunu düşündüğümüzde yaş dağılımının 20–30 arasında yoğunlaşması şaşırtıcı olmasa gerek.

Veri Bilimine Giriş Hikayesi ve En İyi Açık Kurslar (MOOC)

Katılımcıların %35.5'i veri bilimiyle Coursera, Udacity, Edx, DataCamp gibi kitlesel açık kurslar (MOOC) sayesinde tanışıyor. Andrew Ng’nin efsaneleşmiş makine öğrenmesi kursunda olsa gerek en iyi MOOC Coursera seçilmiş.

Üniversitede açılan derslerden ve açık kurslardan veri bilimiyle tanışan insanlar sonrasında Kaggle dünyasına daldığı için Kaggle’ın son sıradaki yeri yadırganmamalı.

En İyi Eğitim Platformları

Katılımcıların büyük çoğunluğu veri bilimindeki gelişmeleri Kaggle’dan, kitlesel açık kurslardan (MOOC) ve Stack Overflow sitesinden takip ediyor. Veri bilimiyle en yaygın 2. tanışıklık üniversite kursları olmasına rağmen ders kitapları ve üniversiteler veri bilimindeki gelişmelere ayak uyduramıyor olmalı ki fayda sıralanmasında 7. ve 8. sıraya geriliyorlar.

Ülkelere göre Maaş dağılımı

Her ülkenin yerel para birimiyle o gün geçerli olan döviz kurunu çarptıktan sonra elde edilen dolar cinsinden maaş dağılımında medyandan fazla kazanan 16 ülkeyi aşağıdaki grafikte çizdim. KDnuggets makalesine göre 2018 yılında iş dünyasının 1 milyon veri bilimciye ihtiyaç duyduğunu söyleyerek başvurularınızı yapmadan önce ülkelerin satın alma gücü paritelerine de bakmanızı öneririm :)

US ve Non-US Maaş ve Yaş Dağılımı

Glassdoor sitesinde Birleşik Devletlerdeki ‘Data Scientist’ maaşlarına baktığımızda ortalamanın yıllık 120.931 $ olduğunu görüyoruz. Anket sonuçlarına göre Birleşik Devletlerdeki yıllık ortalama maaş 116.450 $, yıllık medyan maaş ise 107.000 $. Ayrıca yaş ve medyan maaş arasında pozitif korelasyon olduğunu söyleyebiliriz.

Ünvanlara Göre Maaş Dağılımı ve İş Tatmini

Hem maaş hem iş tatmini olarak halinden en memnun ikili veri bilimcileri ve makine öğrenmesi mühendisleri olarak gözüküyor. Araştırmacılar maaş ortalaması düşük olmasına rağmen hayatlarından memnun gibiler. (Yeni şeyler öğrenmenin dayanılmaz hafifliği :) Programcılar ise görece sürekli aynı işleri yaptıklarından olsa gerek iş tatminleri en düşük grup.

Eğitim Durumu ve Bilgiyi Kanıtlama Yolu

Veri biliminde bilgiyi kanıtlamanın en iyi yolu bu alanda iş tecrübesine sahip olmak ve Kaggle yarışmalarında başarı göstermek. Master ve Doktora derecesine sahip katılımcıların yaklaşık %60'ı oluşturduğu ankette online kurs sertifikaları ve GitHub portfolyosu master ve doktora derecesinden önemli gözüküyor.

Fakat bu cevapların iş verenler tarafından değil çalışanlar tarafından verildiğini unutmamak lazım. En azından Türkiye’deki iş verenlerin gözünde Coursera sertifikasının PhD derecesinden önemli oldunu düşünmüyorum.

Nasıl İş Bulurum?

Madem bilgimizi kanıtlamanın en iyi yolu bu alanda bir işe girmek bu konuda yaklaşık yüzde %80'i çalışmakta olan katılımcıların tavsiyelerine kulak versek iyi olur. Her ne kadar yapay zeka, derin öğrenme, nesnelerin interneti gibi fiyakalı kavramlarla konuşsak da olay iş bulmaya gelince eş, dost, akraba imdada yetişiyor :) Tabii ki şaka yapıyorum, bunun literatürdeki ismi sosyal sermaye. Lisedeki, üniversitedeki yurt arkadaşlarınız, yetişmesi gereken ödevler/projeler için sabahladığınız veya en baba istatistik derslerini aldığınız Veli Efendi Hipodromundaki dostlarınız emin olun hayatınız boyunca çok değerli olacak.

2017 Veri Bilimi İçin Gereken Yetkinlikler

Duygusallığı bırakıp hemen 2017'de ne oldu 2018'de neler olacak bir bakalım. Etiketlenmiş veriyle yapılan makine öğrenmesi (Supervised) ve logistik regresyon geride bıraktığımız 2017 yılında en çok kullanılan yöntemler olarak gözüküyor. Destek Vektör Makinesi (SVM) ve çeşitli Karar Ağacı algoritmaları da en yakın zamanda öğrenmeniz gereken yöntemler. Bu yöntemlerin en azından kolay veri setleriyle yapılmış örneklerini ve arkasındaki matematiği teknik olmayan insanlara anlatacak kadar bilmek oldukça önemli. 2017 yılı için derin öğrenme yöntemlerinin alt sıralarda olduğunu görmekteyiz.

2018 Veri Bilimi Tahminleri

Tahminler tutarsa ki öyle gözüküyor 2018 derin öğrenme yılı olacak. Zaten iş ilanlarında ve son aylarda Kaggle’da derin öğrenme yöntemleriyle çözülmesi gereken yarışmaların sayısında gözle görülür bir artış var. Ayrıca zamanınız varsa Spark ve Hadoop gibi büyük veri platformlarını öğrenmenizi tavsiye ederim.

Veri Bilimindeki Problemler

Veri bilimcilerinin projelerde harcadıkları zamanın %60-%70'inin düşünüldüğü gibi karmaşık algoritmalar/modeller kurmak için değil kirli veriyle uğraşmak için olduğunu bilenler için aşağıdaki tablo şaşırtıcı olmamalı.

Karşılaşılan diğer problemlerin genelini ise veri bilimine değer vermeyen veya en iyi haliyle veri bilimindeki gelişmeleri takip edemeyen organizasyonlar olarak özetleyebiliriz.

Dil Tercihi: Python vs R

Veri bilimine başlamak isteyen insanların en büyük ikilemlerinden biri dil seçimi. Bu alanda iki tarikat var: Python ve R tarikatları. Bu cemaatlere mensup insanlar hangi bölümlerden mezun olur, hangi işlerde, hangi sektörlerde, hangi verilerle çalışırlar hepsini aşağıda deşifre ettim.

Tarafını seç ve savaşa katıl!

Python ve R Kullanıcılarının Bölüm Dağılımları

Aşağıdaki grafiklerden mühendislik kökenli katılımcıların Python diline, matematik, istatistik ve sosyal bilimlerden gelen katılımcıların R diline daha meyilli olduğunu söyleyebiliriz.

Python ve R Kullanıcılarının Meslek Dağılımları

R kullanıcıların büyük bir kısmının Python kullanıcılarından farklı olarak veri analisti, iş analisti, araştırmacı ve istatistikçi pozisyonlarında çalıştığını görüyoruz.

Python ve R Kullanıcılarının Çalıştığı Sektörler

Yukarıda bahsettiğimiz gibi araştırmacılar, istatistikçiler ve genel olarak akademi dünyası R dilini kendine daha yakın buluyor. Python kullanıcılarının ise büyük çoğunluğu bilişim dünyasından gelmekte.

Python ve R Dilinde Kullanılan Veri Tipleri

Daha önceki meslek, sektör ve kullanılan araç kıyaslamalarından çıkarabileceğimiz gibi Python kullanıcıları Doğal Dil İşleme, Yapay Sinir Ağları gibi alanlarda çalıştıkları için metin, görsel ve video verileriyle yoğun olarak çalışıyor.

R kullanıcılarının Python kullanıcılarına kıyasla kod yazmadan kullanıcı dostu arayüze sahip hazır araçları daha çok kullandığını az önce gördük. R kullanıcılarının hatırı sayılır bir kesiminin bankalarda, sigorta şirketlerinde ve devlette çalıştığını düşündüğümüzde ilişkisel verileri bu denli çok kullanmaları pek şaşırtıcı değil.

Kullanıcıların Dil Tavsiyeleri

Aşağıda bu cemaat üyelerinin dil tavsiyelerini görmekteyiz. R kullanan katılımcıların %21.2'si Python önerirken, Python kullanan katılımcıların sadece %1.8'i R öneriyor. Python makine öğrenmesi ve derin öğrenme kütüphanelerinin zenginliğinin yanı sıra genel amaçlı bir programlama dili olduğu için web ve ürünleştirme aşamalarında R’dan daha başarılı sayılıyor. Bu sebeplerden olsa gerek R cemaatinin biraz aklı karışmış gibi.

Python ve R Kullanıcılarının En Çok Kullandığı Araçlar

Eğer cemaatinize karar verdiyseniz en çok ihtiyaç duyacağınız araçları aşağıda sıraladım. Temel SQL bilgisi, dil seçiminden bağımsız olarak veri bilimi alanına girmek isteyen biri için olmazsa olmazsa. Python kullanıcılarının büyük çoğunluğunun bilgisayar mühendisi olduğunu düşünüldüğünde temel Unix komutlarına hakim olmak karşılaşılan problemlerde soru-cevap sitelerinden yardım almak ve kütüphaneleri kolaylıkla yüklemek için oldukça önemli.

Sonuç ve Öneriler

Yaptığım incelemeden ve anket süresince aktif olan tartışma gruplarından çıkan sonuçları ve tavsiyeleri önem sırası gözetmeksizin aşağıdaki gibi derleyebilirim.

  1. Kaggle, online kurslar ve stack & overflow veri bilimi için en iyi öğrenme platformları olarak gözüküyor. Üniversiteler ve ders kitapları 7. ve 8. sırada.
  2. Veri biliminde bilginizi kanıtlamanın en iyi yolu bu alanda işe girmek, kaggle yarışmalarını ve online kursları takip edip sertifika almak. Master ve doktora derecesine sahip olmak 5. ve 6. sırada. Katılımcıların %60'nın master ve doktora derecesine sahip insanlar olduğunu bildiğimizden sonuçlar biraz düşündürücü.
  3. Maaş ve iş tatmini anlamında veri bilimcileri ve makine öğrenmesi mühendisleri en üst sıralarda. Araştırmacıların ve istatistikçilerin maaşları ortalamadan düşük olmasına rağmen iş tatminleri oldukça yüksek.
  4. Logistik Regresyon, Karar Ağaçları ve Destek Vektör Makineleri sektörde en çok kullanılan yöntemler. Bu yöntemleri ve arkasındaki matematiği teknik olmayan insanlara anlatacak kadar bilmek önemli.
  5. 2018 Derin öğrenme yılı olacak gibi duruyor. Derin öğrenme metotlarını ve Spark, Hadoop gibi büyük veri platformlarını yatırım yapmanızı tavsiye ederim.
  6. Katılımcıların dil tavsiyelerindeki ilgi çekici gerçeği tekrarlayayım: R kullanıcılarının %21.2'si Python’ı tavsiye ederken Python kullanıcılarının sadece 1.8%’i R’ı tavsiye ediyor. Dil seçiminden bağımsız olarak SQL ve genel olarak veri tabanı bilgisi çok önemli.
  7. Üniversiteyi terk edip milyarder olma hayalleri bilişim dünyasında hala geçerli olsa da katılımcıların %90'ından fazlası en az lisans derecesine sahip. Nacizane tavsiyem IMDB 250 filmlerini izlemek ve iki haftalık yıllık izinde gezebileceğiniz yerlere gitme hayali kurmak için üniversiteyi bırakmayın.
  8. Veri temizleme zamanınızın çoğunu(%60-%70) alacak. Her gün iris veri setiyle çalışmayacaksınız, buna hazır olun.
  9. Günün sonunda veri görselleştirme ve modelinizin hikayesini basit, açık bir şekilde anlatmanız sahip olmanız gereken en önemli yeteneklerden olacak. Bu yeteneklerinizin gelişmesi için üniversite yıllarınızda bol bol sunum yapın ve mümkünse 1. sınıftan itibaren staj yapmaya başlayın.
  10. Müşterinizi ve isteklerini iyi analiz edin, yapamayacağınız sözler vermeyin. Fikirlerinizin ekonomik değerinin olup olmadığını anlamak için bu fikir dünyadaki bir problemi çözüyor mu sorusunu kendinize mutlaka sorun.

Çalışmanın Medium versiyonuna şuradan ulaşabilirsiniz.


Sorunuz olursa bana Linkedin veya Twitter hesaplarından yazabilirsiniz.


Etiketler:
analiz python r
Akademi Algo

Akademi Algo bir RiskTürk markasıdır

Risk Türk

İletişim

Adres Risk Yazılım Teknolojileri Ltd. Ş.T.İ. İstanbul Teknik Üniversitesi Ayazağa Kampüsü ARI-1 Teknopark Binası 13-14
Maslak - İstanbul - TURKEY

;