Glückwunsch!

Explorative Datenanalyse in Python

George Boorman

Curriculum Manager, DataCamp

Inspektion und Validierung

ein Histogramm der Buchbewertungen

books["year"] = books["year"].astype(int)
books.dtypes
name       object
author     object
rating    float64
year        int64
genre      object
dtype: object
Explorative Datenanalyse in Python

Aggregation

books.groupby("genre").agg(
    mean_rating=("rating", "mean"),
    std_rating=("rating", "std"),
    median_year=("year", "median")
)
|  genre      | mean_rating | std_rating | median_year |
|-------------|-------------|------------|-------------|
|   Childrens |    4.780000 |   0.122370 |      2015.0 |
|     Fiction |    4.570229 |   0.281123 |      2013.0 |
| Non Fiction |    4.598324 |   0.179411 |      2013.0 |
Explorative Datenanalyse in Python

Umgang mit fehlenden Daten

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Explorative Datenanalyse in Python

Umgang mit fehlenden Daten

  • Fehlende Werte weglassen

 

  • Imputation durch Mittelwert, Median und Modus

 

  • Imputation nach Untergruppen

 

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Explorative Datenanalyse in Python

Analyse kategorialer Daten

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")

Balkendiagramm, das die Anzahl der Stellen nach Kategorie zeigt

Explorative Datenanalyse in Python

Lambda-Funktionen einsetzen

Verwende eine Lambda-Funktion.

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())
Explorative Datenanalyse in Python

Umgang mit Ausreißern

sns.boxplot(data=salaries,
            y="Salary_USD")
plt.show()

Boxplot der Gehälter für Datenberufe, der das 25. Perzentil am unteren Rand der Box, das 50. Perzentil als Mittellinie und das 75. Perzentil am oberen Rand der Box zeigt

Explorative Datenanalyse in Python

Muster im Zeitverlauf

sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

Ein Liniendiagramm, das zeigt, wie der Hochzeitsmonat und die Dauer der Ehe zusammenhängen

Explorative Datenanalyse in Python

Korrelation

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Eine Heatmap der Scheidungskorrelationen

Explorative Datenanalyse in Python

Verteilungen

sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

KDE zur Dauer der Ehe mit „hue“ gleich „education_man” und „cut“ gleich Null

Explorative Datenanalyse in Python

Kreuztabellen

pd.crosstab(planes["Source"], planes["Destination"],
            values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Explorative Datenanalyse in Python

pd.cut()

Bins angeben

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Explorative Datenanalyse in Python

Verzerrte Ergebnisse

Heatmap mit Korrelationskoeffizienten für jede Anzahl von Zwischenstopps

Explorative Datenanalyse in Python

Aufstellung von Hypothesen

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

Balkendiagramm zum Vergleich der Dauer je nach Fluggesellschaft

Explorative Datenanalyse in Python

Nächste Schritte

Explorative Datenanalyse in Python

Glückwunsch!

Explorative Datenanalyse in Python

Preparing Video For Download...