Örnekleme ve nokta tahminleri

Python'da Örnekleme

James Chapman

Curriculum Manager, DataCamp

Fransa nüfusunu tahmin etme

Fransa'nın bir haritası.

Bir nüfus sayımı her haneye orada kaç kişi yaşadığını sorar.

Python'da Örnekleme

Fransa’da çok insan var

İnsan simgeleri olan bir Fransa haritası.

Nüfus sayımları çok pahalıdır!

Python'da Örnekleme

Haneleri örneklemek

Bazıları vurgulanmış insan simgeleri olan bir Fransa haritası.

Daha ucuz yol: Az sayıda haneye sorup istatistikle nüfusu tahmin etmek

Tüm kitlenin bir alt kümesiyle çalışmaya “örnekleme” denir

Python'da Örnekleme

Kitle vs. örneklem

Toplam veri kümesi, yani tüm veri, “kitle”dir

  • İnsanları ifade etmek zorunda değildir
  • Genellikle tüm kitlenin ne olduğunu bilmeyiz

 

“Örneklem”, üzerinde hesaplama yaptığınız alt kümedir

Python'da Örnekleme

Kahve puanlama veri kümesi

total_cup_points variety country_of_origin aroma flavor aftertaste body balance
90.58 NA Ethiopia 8.67 8.83 8.67 8.50 8.42
89.92 Other Ethiopia 8.75 8.67 8.50 8.42 8.42
... ... ... ... ... ... ... ...
73.75 NA Vietnam 6.75 6.67 6.5 6.92 6.83

 

  • Her satır 1 kahveyi temsil eder
  • 1338 satır
  • Bunu kitle olarak kabul edeceğiz
Python'da Örnekleme

Puan vs. lezzet: kitle

pts_vs_flavor_pop = coffee_ratings[["total_cup_points", "flavor"]]
      total_cup_points  flavor
0                90.58    8.83
1                89.92    8.67
2                89.75    8.50
3                89.00    8.58
4                88.83    8.50
...                ...     ...
1333             78.75    7.58
1334             78.08    7.67
1335             77.17    7.33
1336             75.08    6.83
1337             73.75    6.67

[1338 satır x 2 sütun]
Python'da Örnekleme

Puan vs. lezzet: 10 satırlık örneklem

pts_vs_flavor_samp = pts_vs_flavor_pop.sample(n=10)
      total_cup_points  flavor
1088             80.33    7.17
1157             79.67    7.42
1267             76.17    7.33
506              83.00    7.67
659              82.50    7.42
817              81.92    7.50
1050             80.67    7.42
685              82.42    7.50
1027             80.92    7.25
62               85.58    8.17

[10 satır x 2 sütun]
Python'da Örnekleme

Series için Python örnekleme

  • pandas DataFrame ve Series için .sample() kullanın
cup_points_samp = coffee_ratings['total_cup_points'].sample(n=10)
1088    80.33
1157    79.67
1267    76.17
...     ... 
685     82.42
1027    80.92
62      85.58
Name: total_cup_points, dtype: float64
Python'da Örnekleme

Kitle parametreleri ve nokta tahminleri

“Kitle parametresi”, kitle veri kümesi üzerinde yapılan bir hesaplamadır

import numpy as np
np.mean(pts_vs_flavor_pop['total_cup_points'])
82.15120328849028

“Nokta tahmini” veya “örneklem istatistiği”, örneklem veri kümesi üzerinde yapılan bir hesaplamadır

np.mean(cup_points_samp)
81.31800000000001
Python'da Örnekleme

pandas ile nokta tahminleri

pts_vs_flavor_pop['flavor'].mean()
7.526046337817639
pts_vs_flavor_samp['flavor'].mean()
7.485000000000001
Python'da Örnekleme

Hadi pratik yapalım!

Python'da Örnekleme

Preparing Video For Download...