?
Bu yazıda veri analizinde sıkça kullanılan Python fonksiyonlarının PySpark karşılıklarından bahsedeceğim. Ortam kurulu değilse gerekli ön hazırlıkları aşağıdaki yazıdaki adımları takip ederek yapabilirsiniz.
https://medium.com/data-science-tr/anaconda-ve-pyspark-kurulum-61436ebc4795
Hem Python hem de PySpark meraklılarına iyi bir kaynak olacağını düşündüğüm çalışmadaki veri setine buradan kodlara ise şuradanulaşabilirsiniz.
Yazıda ilk önce PySpark kodlarını sonra # ile Python karşılıklarını veriyorum.
Kodlarda yanlışlık varsa veya benim bilmediğim kısa bir yol varsa mutlaka yazın.
Veri okuma, satır, sütun ve öznitelik tiplerini kontrol etme.
Sütun seçme ve Pandas veri formatına dönüştürme
Veri tipi değiştirme ve Sütun Çıkarma
Ortalama, Standart Sapma, Min, Max Hesaplama
Filtreleme
Gruplama ve np.where fonksiyonları
Tarihi yıla, aya, güne ayırma ve unix tarih formatına çevirme
Çoklu Gruplama ve Ortalama, Toplam Hesaplama
Çalışmanın Medium versiyonuna şuradan ulaşabilirsiniz.
Sorunuz olursa bana Linkedin veya Twitter hesaplarından yazabilirsiniz.
Adres
Risk Yazılım Teknolojileri Ltd. Ş.T.İ.
İstanbul Teknik Üniversitesi Ayazağa Kampüsü ARI-1 Teknopark Binası 13-14
Maslak - İstanbul - TURKEY
E-Mail info@akademialgo.com