Dağılımlar ve aykırı değerler

Power BI ile Keşifsel Veri Analizi

Jacob H. Marquez

Data Scientist at Microsoft

Dağılımlar nedir?

Tanım: değişkenin tüm olası değerleri ve bunların sıklıkları kümesi.

Power BI ile Keşifsel Veri Analizi

Dağılımlar nedir?

Sürekli

Yaş Frekans
18 7
19 11
20 13
21 19
22 12
Power BI ile Keşifsel Veri Analizi

Dağılımlar nedir?

Sürekli

Yaş Frekans
18 7
19 11
20 13
21 19
22 12

Kategorik

Saç Rengi Frekans
Sarı 30
Kahverengi 50
Siyah 40
Kızıl 20
Gri 20
Power BI ile Keşifsel Veri Analizi

Histogramlar nedir?

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Ortada büyük bir kütle ve her iki tarafta dar kuyruklar vardır.

Power BI ile Keşifsel Veri Analizi

Histogramlar nedir? - bölmeler

100 bölmeli histogram

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. 100 bölme ile histogram daha pürüzsüz ve ayrıntılıdır.

20 bölmeli histogram

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Daha az bölme ile histogram daha köşeli ve kutumsudur.

Power BI ile Keşifsel Veri Analizi

Histogram okuma - merkez ve çarpıklık

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Ortada büyük bir yığılma, uçlarda daha az gözlem vardır.

Normal dağılım

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Solda büyük bir yığılma vardır ve grafik sağa doğru daralır.

Sağa çarpık dağılım

Power BI ile Keşifsel Veri Analizi

Histogram okuma - yayılım

Daha büyük standart sapma

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Ortada büyük bir yığılma, uçlarda daha az gözlem vardır.

Daha küçük standart sapma

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Standart sapma küçük olduğundan daha dar ve sivri görünür.

Power BI ile Keşifsel Veri Analizi

Histogram okuma - yüzdelikler

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Ortadan sol uca kadar olan yeşil alan 50. yüzdeliği gösterir.

Power BI ile Keşifsel Veri Analizi

Histogram okuma - 25. ve 75. yüzdelikler

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Sol tarafta 25. yüzdelikten sola ve sağda 75. yüzdelikten sağa iki yeşil alan vardır.

Power BI ile Keşifsel Veri Analizi

Histogram okuma - çeyrekler arası aralık

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. 25. ile 75. yüzdelik arasındaki yeşil alan çeyrekler arası aralığı gösterir.

Power BI ile Keşifsel Veri Analizi

Aykırı değer nedir?

X ekseninde boy değerleri, Y ekseninde gözlem sayıları olan bir boy histogramı. Her iki uçta olası aykırı değerleri vurgulayan yeşil alanlar vardır.

Power BI ile Keşifsel Veri Analizi

Aykırı değerleri bulma

Standart sapma ile

$lower = -3 * SD$

$upper = 3 * SD$

$$

Aykırı değer durumu

$value < lower$ VEYA $value > upper$

Çeyrekler Arası Aralık (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Aykırı değer durumu

$value < lower$ VEYA $value > upper$

Power BI ile Keşifsel Veri Analizi

Aykırı değerlere yaklaşım

  1. Gözlemleri kaldırma
  2. Atama (imputation)

Winsorizasyon

EĞER value < 5th percentile İSE value = 5th percentile

$$

EĞER value > 95th percentile İSE value = 95th percentile

Power BI ile Keşifsel Veri Analizi

Ayo berlatih!

Power BI ile Keşifsel Veri Analizi

Preparing Video For Download...