Como gerar novas variáveis independentes

Análise Exploratória de Dados em Python

George Boorman

Curriculum Manager, DataCamp

Correlação

sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

Mapa de calor mostrando o coeficiente de correlação de Pearson de 0,54 entre Preço e Duração

Análise Exploratória de Dados em Python

Ver tipos de dados

print(planes.dtypes)
Airline                    object
Date_of_Journey    datetime64[ns]
Source                     object
Destination                object
Route                      object
Dep_Time           datetime64[ns]
Arrival_Time       datetime64[ns]
Duration                  float64
Total_Stops                object
Additional_Info            object
Price                     float64
dtype: object
Análise Exploratória de Dados em Python

Total de paradas

print(planes["Total_Stops"].value_counts())
1 stop      4107
non-stop    2584
2 stops     1127
3 stops       29
4 stops        1
Name: Total_Stops, dtype: int64
Análise Exploratória de Dados em Python

Remover total de paradas

planes["Total_Stops"] = planes["Total_Stops"].str.replace(" stops", "")

planes["Total_Stops"] = planes["Total_Stops"].str.replace(" stop", "")
planes["Total_Stops"] = planes["Total_Stops"].str.replace("non-stop", "0")
planes["Total_Stops"] = planes["Total_Stops"].astype(int)
Análise Exploratória de Dados em Python

Correlação

sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

Mapa de calor mostrando um coeficiente de correlação de Pearson de 0,62 entre Preço e Total de Paradas e uma correlação de 0,74 entre Duração e Total de Paradas

Análise Exploratória de Dados em Python

Datas

print(planes.dtypes)
Airline                    object
Date_of_Journey    datetime64[ns]
Source                     object
Destination                object
Route                      object
Dep_Time           datetime64[ns]
Arrival_Time       datetime64[ns]
Duration                  float64
Total_Stops                 int64
Additional_Info            object
Price                     float64
dtype: object
Análise Exploratória de Dados em Python

Extrair mês e dia da semana

planes["month"] = planes["Date_of_Journey"].dt.month

planes["weekday"] = planes["Date_of_Journey"].dt.weekday
print(planes[["month", "weekday", "Date_of_Journey"]].head())
   month  weekday   Date_of_Journey
0      9        4        2019-09-06
1     12        3        2019-12-05
2      1        3        2019-01-03
3      6        0        2019-06-24
4     12        1        2019-12-03
Análise Exploratória de Dados em Python

Horários de chegada e partida

planes["Dep_Hour"] = planes["Dep_Time"].dt.hour
planes["Arrival_Hour"] = planes["Arrival_Time"].dt.hour
Análise Exploratória de Dados em Python

Correlação

Mapa de calor mostrando que não há relação entre os atributos de data e hora e o preço

Análise Exploratória de Dados em Python

Criar categorias

print(planes["Price"].describe())
count     7848.000000
mean      9035.413609
std       4429.822081
min       1759.000000
25%       5228.000000
50%       8355.000000
75%      12373.000000
max      54826.000000
Name: Price, dtype: float64
Intervalo Tipo de passagem
<= 5228 Economy
> 5228 <= 8355 Premium Economy
> 8335 <= 12373 Business Class
> 12373 First Class
Análise Exploratória de Dados em Python

Estatísticas descritivas

twenty_fifth = planes["Price"].quantile(0.25)

median = planes["Price"].median()
seventy_fifth = planes["Price"].quantile(0.75)
maximum = planes["Price"].max()
Análise Exploratória de Dados em Python

Rótulos e intervalos

labels = ["Economy", "Premium Economy", "Business Class", "First Class"]

bins = [0, twenty_fifth, median, seventy_fifth, maximum]
Análise Exploratória de Dados em Python

pd.cut()

Chame pd-ponto-cut

planes["Price_Category"] = pd.cut(


Análise Exploratória de Dados em Python

pd.cut()

Passe os dados

planes["Price_Category"] = pd.cut(planes["Price"],


Análise Exploratória de Dados em Python

pd.cut()

Defina os rótulos

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,

Análise Exploratória de Dados em Python

pd.cut()

Forneça os intervalos

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Análise Exploratória de Dados em Python

Categorias de preços

print(planes[["Price","Price_Category"]].head())
     Price   Price_Category
0  13882.0      First Class
1   6218.0  Premium Economy
2  13302.0      First Class
3   3873.0          Economy
4  11087.0   Business Class
Análise Exploratória de Dados em Python

Categoria de preço por companhia aérea

sns.countplot(data=planes, x="Airline", hue="Price_Category")
plt.show()
Análise Exploratória de Dados em Python

Categoria de preço por companhia aérea

Gráfico que mostra o número de voos por companhia aérea em diferentes categorias de preço, com a Jet Airways tendo o maior número de passagens na Primeira Classe

Análise Exploratória de Dados em Python

Vamos praticar!

Análise Exploratória de Dados em Python

Preparing Video For Download...