Imports aanpassen: true/false-gegevens

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

Booleaanse data

  • True/False-data

Spreadsheet met enquêtedata met meerdere true/false-kolommen

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met kolommen over bootcampdeelname gemarkeerd

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met kolommen over gebruik van leningen gemarkeerd

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met meerdere True/False-kolommen

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met kolommen met nullen en enen gemarkeerd

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met kolommen met True en False gemarkeerd

Gestroomlijnde data-inname met pandas

Booleaanse data

Spreadsheet met enquêtedata met kolommen met ja en nee gemarkeerd

Gestroomlijnde data-inname met pandas

pandas en Booleans

bootcamp_data = pd.read_excel("fcc_survey_booleans.xlsx")
print(bootcamp_data.dtypes)
ID.x                      object
AttendedBootcamp         float64
AttendedBootCampYesNo     object
AttendedBootcampTF       float64
BootcampLoan             float64
LoanYesNo                 object
LoanTF                   float64
dtype: object
Gestroomlijnde data-inname met pandas

pandas en Booleans

# Aantal True-waarden
print(bootcamp_data.sum())
AttendedBootcamp                      38
AttendedBootcampTF                    38
BootcampLoan                          14
LoanTF                                14
dtype: object
# Aantal NA's
print(bootcamp_data.isna().sum())
ID.x                           0
AttendedBootcamp               0
AttendedBootCampYesNo          0
AttendedBootcampTF             0
BootcampLoan                 964
LoanYesNo                    964
LoanTF                       964
dtype: int64
Gestroomlijnde data-inname met pandas
# Data laden en True/False-kolommen als Boolean casten
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool})

print(bool_data.dtypes)
ID.x                      object
AttendedBootcamp            bool
AttendedBootCampYesNo       bool
AttendedBootcampTF          bool
BootcampLoan                bool
LoanYesNo                   bool
LoanTF                      bool
dtype: object
Gestroomlijnde data-inname met pandas
# Aantal True-waarden
print(bool_data.sum())
AttendedBootcamp                         38
AttendedBootCampYesNo                  1000
AttendedBootcampTF                       38
BootcampLoan                            978
LoanYesNo                              1000
LoanTF                                  978
dtype: object
# Aantal NA's
print(bool_data.isna().sum())
ID.x                       0
AttendedBootcamp           0
AttendedBootCampYesNo      0
AttendedBootcampTF         0
BootcampLoan               0
LoanYesNo                  0
LoanTF                     0
dtype: int64
Gestroomlijnde data-inname met pandas

pandas en Booleans

  • pandas laadt True/False-kolommen standaard als floats
  • Stel een kolom in op bool met het dtype-argument van read_excel()
  • Booleaanse kolommen mogen alleen True en False bevatten
  • NA/ontbrekende waarden in Booleans worden omgezet naar True
  • pandas herkent sommige waarden automatisch als True/False in Booleans
  • Niet-herkende waarden in een Boolean-kolom worden ook omgezet naar True
Gestroomlijnde data-inname met pandas

Eigen True/False-waarden instellen

  • Gebruik het argument true_values van read_excel() om eigen True-waarden te zetten
  • Gebruik false_values voor eigen False-waarden
  • Beide nemen een lijst met waarden die als True/False tellen
  • Aangepaste True/False-waarden gelden alleen voor kolommen als Boolean
Gestroomlijnde data-inname met pandas

Eigen True/False-waarden instellen

# Data laden met Boolean-dtypes en eigen T/F-waarden
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool},
                          true_values=["Yes"],
                          false_values=["No"])
Gestroomlijnde data-inname met pandas

Eigen True/False-waarden instellen

print(bool_data.sum())
AttendedBootcamp                                  38
AttendedBootCampYesNo                             38
AttendedBootcampTF                                38
BootcampLoan                                     978
LoanYesNo                                        978
LoanTF                                           978
dtype: object
Gestroomlijnde data-inname met pandas

Overwegingen bij Booleans

  • Zijn er missende waarden, of kunnen die komen?
  • Hoe wordt deze kolom gebruikt in analyses?
  • Wat gebeurt er als iets per ongeluk als True staat?
  • Kun je de data anders modelleren (bijv. als floats of integers)?
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...