Tebrikler

Python ile Keşifsel Veri Analizi

George Boorman

Curriculum Manager, DataCamp

İnceleme ve doğrulama

kitap puanlarının histogramı

books["year"] = books["year"].astype(int)
books.dtypes
name       object
author     object
rating    float64
year        int64
genre      object
dtype: object
Python ile Keşifsel Veri Analizi

Toplulaştırma

books.groupby("genre").agg(
    mean_rating=("rating", "mean"),
    std_rating=("rating", "std"),
    median_year=("year", "median")
)
|  genre      | mean_rating | std_rating | median_year |
|-------------|-------------|------------|-------------|
|   Childrens |    4.780000 |   0.122370 |      2015.0 |
|     Fiction |    4.570229 |   0.281123 |      2013.0 |
| Non Fiction |    4.598324 |   0.179411 |      2013.0 |
Python ile Keşifsel Veri Analizi

Eksik verileri ele alın

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Python ile Keşifsel Veri Analizi

Eksik verileri ele alın

  • Eksik değerleri düşürün

 

  • Ortalama, medyan, mod ile atayın

 

  • Alt gruba göre atayın

 

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Python ile Keşifsel Veri Analizi

Kategorik veriyi analiz edin

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")

Kategoriye göre iş sayısını gösteren çubuk grafik

Python ile Keşifsel Veri Analizi

Lambda fonksiyonları uygulayın

Bir lambda fonksiyonu uygulayın

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())
Python ile Keşifsel Veri Analizi

Aykırı değerleri yönetin

sns.boxplot(data=salaries,
            y="Salary_USD")
plt.show()

Veri profesyonellerinin maaşlarına ait kutu grafiği: kutunun altı %25, orta çizgi %50, üstü %75 yüzdelik

Python ile Keşifsel Veri Analizi

Zaman içindeki örüntüler

sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

Evlilik ayı ile evlilik süresi ilişkisini gösteren çizgi grafik

Python ile Keşifsel Veri Analizi

Korelasyon

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Boşanma korelasyonlarının ısı haritası

Python ile Keşifsel Veri Analizi

Dağılımlar

sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

education_man renkle ayarlanmış ve cut sıfır olan evlilik süresi KDE grafiği

Python ile Keşifsel Veri Analizi

Çapraz tablolaştırma

pd.crosstab(planes["Source"], planes["Destination"],
            values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Python ile Keşifsel Veri Analizi

pd.cut()

Sınıfları (bins) sağlayın

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Python ile Keşifsel Veri Analizi

Veri aşırı araştırması

Her durak sayısı için korelasyon katsayılarını gösteren ısı haritası

Python ile Keşifsel Veri Analizi

Hipotez üretme

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

Havayoluna göre süreyi gösteren çubuk grafik

Python ile Keşifsel Veri Analizi

Sonraki adımlar

Python ile Keşifsel Veri Analizi

Tebrikler!

Python ile Keşifsel Veri Analizi

Preparing Video For Download...