Keşifsel veri analizi nedir?

Power BI ile Keşifsel Veri Analizi

Jacob H. Marquez

Data Scientist at Microsoft

Keşifsel veri analizi nedir?

"Veri kümelerini, sıklıkla istatistiksel grafikler ve diğer görselleştirme yöntemleriyle, temel özelliklerini özetlemek üzere analiz etme yaklaşımı."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Power BI ile Keşifsel Veri Analizi

EDA’nın altı adımı

  1. Veri yapısını anlama

  2. Eksik veriyi belirleme

  3. Betimsel istatistikler ve dağılımlarla veriyi betimleme

  4. Aykırı değerleri belirleme

  5. Değişkenler arası ilişkileri inceleme ve ölçme

  6. Hipotez kurma

Power BI ile Keşifsel Veri Analizi

EDA’nın altı adımı

  1. Veri yapısını anlama

  2. Eksik veriyi belirleme

  3. Betimsel istatistikler ve dağılımlarla veriyi betimleme

  4. Aykırı değerleri belirleme

  5. Değişkenler arası ilişkileri inceleme ve ölçme

  6. Hipotez kurma

Power BI ile Keşifsel Veri Analizi

1. Veri yapısını anlama

Sürekli

Sayısal değişkenler; çoğunlukla sonsuz çoklukta değer alabilir

  • Uzaydaki yıldız sayısı
  • Tıklama oranları
  • İki şehir arası mesafe

Kategorik

Sayısal olmayan, genelde metin; iki veya daha çok gruplu değişkenler

  • Konut tipleri
  • Ülke
  • Şirket
Power BI ile Keşifsel Veri Analizi

2. Eksik veriyi belirleme

 

Rastgele eksik (MAR)

Seattle, New York City ve Paris için üçer satır gruplarından oluşan dokuz-a-dört bir matris. 30 hücrede yağış (inç) değerleri var ve 6 hücre, üç şehir grubunda rastgele boş.

 

Rastgele olmayan eksik (MNAR)

Seattle, New York City ve Paris için üçer satır gruplarından oluşan dokuz-a-dört bir matris. 30 hücrede yağış (inç) değerleri var ve yalnızca Seattle’da 4 hücre rastgele boş.

Power BI ile Keşifsel Veri Analizi

2. Eksik veriyi ele alma

 

Seattle, New York City ve Paris için üçer satır gruplarından oluşan dokuz-a-dört bir matris. 30 hücrede yağış (inç) değerleri var ve yalnızca Seattle’da 4 hücre rastgele boş.

Aynı dokuz-a-dört matris; üst satır kaldırılmış, boş hücrelerin silinmesini temsil eder.

Aynı dokuz-a-dört matris; üst satırda artık değerler var, boş hücrelerin medyanla atandığını temsil eder.

Power BI ile Keşifsel Veri Analizi

3. Veriyi betimleme

  • Minimum
  • Maksimum
  • Ortalama: tüm değerlerin toplamı / gözlem sayısı
  • Medyan: değer aralığının ortasındaki değer
  • Standart sapma: değişkenin ortalamadan ortalama sapması
Power BI ile Keşifsel Veri Analizi

3. Dağılımlarla veriyi betimleme

X ekseninde boy, Y ekseninde gözlem sayısı olan kişilerin boylarının histogramı.

  • Medyan ve ortalama eşittir
  • Simetrik bir eğri
Power BI ile Keşifsel Veri Analizi

3. Dağılımlarla veriyi betimleme

X ekseninde gelir, Y ekseninde gözlem sayısı olan hane geliri histogramı. Sol tarafta geniş, sağa gittikçe daralıyor.

  • Medyan < Ortalama
  • "Sağa çarpık": kuyruk sağda

X ekseninde süre, Y ekseninde gözlem sayısı olan çevrimiçi geçirilen süre histogramı. Solda dar, sağa gittikçe genişliyor.

  • Medyan > Ortalama
  • "Sola çarpık": kuyruk solda
Power BI ile Keşifsel Veri Analizi

Veri kümesi: AirBnB ilanları

Beş sütunlu Airbnb veri kümesi görseli: listing_id, host_id, host_since (tarih sütunu), city ve price.

Power BI ile Keşifsel Veri Analizi

Hadi pratik yapalım!

Power BI ile Keşifsel Veri Analizi

Preparing Video For Download...