Memodifikasi impor: data true/false

Pemasukan Data yang Efisien dengan pandas

Amany Mahfouz

Instructor

Data Boolean

  • Data True/False

Spreadsheet data survei dengan beberapa kolom true/false

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan kolom tentang kehadiran bootcamp disorot

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan kolom tentang penggunaan pinjaman disorot

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan beberapa kolom True/False

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan kolom memakai nol dan satu disorot

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan kolom memakai True dan False disorot

Pemasukan Data yang Efisien dengan pandas

Data Boolean

Spreadsheet data survei dengan kolom memakai ya dan tidak disorot

Pemasukan Data yang Efisien dengan pandas

pandas dan Boolean

bootcamp_data = pd.read_excel("fcc_survey_booleans.xlsx")
print(bootcamp_data.dtypes)
ID.x                      object
AttendedBootcamp         float64
AttendedBootCampYesNo     object
AttendedBootcampTF       float64
BootcampLoan             float64
LoanYesNo                 object
LoanTF                   float64
dtype: object
Pemasukan Data yang Efisien dengan pandas

pandas dan Boolean

# Hitung nilai True
print(bootcamp_data.sum())
AttendedBootcamp                      38
AttendedBootcampTF                    38
BootcampLoan                          14
LoanTF                                14
dtype: object
# Hitung NA
print(bootcamp_data.isna().sum())
ID.x                           0
AttendedBootcamp               0
AttendedBootCampYesNo          0
AttendedBootcampTF             0
BootcampLoan                 964
LoanYesNo                    964
LoanTF                       964
dtype: int64
Pemasukan Data yang Efisien dengan pandas
# Muat data, set kolom True/False sebagai Boolean
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool})

print(bool_data.dtypes)
ID.x                      object
AttendedBootcamp            bool
AttendedBootCampYesNo       bool
AttendedBootcampTF          bool
BootcampLoan                bool
LoanYesNo                   bool
LoanTF                      bool
dtype: object
Pemasukan Data yang Efisien dengan pandas
# Hitung nilai True
print(bool_data.sum())
AttendedBootcamp                         38
AttendedBootCampYesNo                  1000
AttendedBootcampTF                       38
BootcampLoan                            978
LoanYesNo                              1000
LoanTF                                  978
dtype: object
# Hitung nilai NA
print(bool_data.isna().sum())
ID.x                       0
AttendedBootcamp           0
AttendedBootCampYesNo      0
AttendedBootcampTF         0
BootcampLoan               0
LoanYesNo                  0
LoanTF                     0
dtype: int64
Pemasukan Data yang Efisien dengan pandas

pandas dan Boolean

  • pandas memuat kolom True/False sebagai float secara default
  • Tetapkan kolom sebagai bool dengan argumen dtype di read_excel()
  • Kolom Boolean hanya boleh berisi True dan False
  • Nilai NA/hilang di kolom Boolean diubah menjadi True
  • pandas otomatis mengenali beberapa nilai sebagai True/False di kolom Boolean
  • Nilai yang tidak dikenali di kolom Boolean juga diubah menjadi True
Pemasukan Data yang Efisien dengan pandas

Menetapkan Nilai True/False Kustom

  • Gunakan argumen true_values di read_excel() untuk menetapkan nilai True kustom
  • Gunakan false_values untuk menetapkan nilai False kustom
  • Masing-masing menerima daftar nilai yang diperlakukan sebagai True/False
  • Nilai True/False kustom hanya diterapkan pada kolom yang disetel sebagai Boolean
Pemasukan Data yang Efisien dengan pandas

Menetapkan Nilai True/False Kustom

# Muat data dengan dtype Boolean dan nilai T/F kustom
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool},
                          true_values=["Yes"],
                          false_values=["No"])
Pemasukan Data yang Efisien dengan pandas

Menetapkan Nilai True/False Kustom

print(bool_data.sum())
AttendedBootcamp                                  38
AttendedBootCampYesNo                             38
AttendedBootcampTF                                38
BootcampLoan                                     978
LoanYesNo                                        978
LoanTF                                           978
dtype: object
Pemasukan Data yang Efisien dengan pandas

Pertimbangan untuk Boolean

  • Apakah ada nilai hilang, atau bisa muncul di masa depan?
  • Bagaimana kolom ini akan dipakai dalam analisis?
  • Apa dampaknya jika nilai salah dikodekan sebagai True?
  • Bisakah data dimodelkan dengan cara lain (mis., float atau integer)?
Pemasukan Data yang Efisien dengan pandas

Ayo berlatih!

Pemasukan Data yang Efisien dengan pandas

Preparing Video For Download...