İçe aktarımları değiştirme: doğru/yanlış veriler

pandas ile Kolaylaştırılmış Veri Alımı

Amany Mahfouz

Instructor

Boolean Veriler

  • True/False verileri

Birkaç doğru/yanlış sütunu olan anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Bootcamp katılımıyla ilgili sütunları vurgulanmış anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Kredi kullanımıyla ilgili sütunları vurgulanmış anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Birkaç True/False sütunu olan anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Sıfırlar ve birler kullanılan sütunları vurgulanmış anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Doğru ve Yanlış kullanılan sütunları vurgulanmış anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

Boolean Veriler

Evet/Hayır kullanılan sütunları vurgulanmış anket verileri hesap tablosu

pandas ile Kolaylaştırılmış Veri Alımı

pandas ve Boolean'lar

bootcamp_data = pd.read_excel("fcc_survey_booleans.xlsx")
print(bootcamp_data.dtypes)
ID.x                      object
AttendedBootcamp         float64
AttendedBootCampYesNo     object
AttendedBootcampTF       float64
BootcampLoan             float64
LoanYesNo                 object
LoanTF                   float64
dtype: object
pandas ile Kolaylaştırılmış Veri Alımı

pandas ve Boolean'lar

# True değerlerini say
print(bootcamp_data.sum())
AttendedBootcamp                      38
AttendedBootcampTF                    38
BootcampLoan                          14
LoanTF                                14
dtype: object
# NA say
print(bootcamp_data.isna().sum())
ID.x                           0
AttendedBootcamp               0
AttendedBootCampYesNo          0
AttendedBootcampTF             0
BootcampLoan                 964
LoanYesNo                    964
LoanTF                       964
dtype: int64
pandas ile Kolaylaştırılmış Veri Alımı
# True/False sütunlarını Boolean olarak dökerek veriyi yükle
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool})

print(bool_data.dtypes)
ID.x                      object
AttendedBootcamp            bool
AttendedBootCampYesNo       bool
AttendedBootcampTF          bool
BootcampLoan                bool
LoanYesNo                   bool
LoanTF                      bool
dtype: object
pandas ile Kolaylaştırılmış Veri Alımı
# True değerlerini say
print(bool_data.sum())
AttendedBootcamp                         38
AttendedBootCampYesNo                  1000
AttendedBootcampTF                       38
BootcampLoan                            978
LoanYesNo                              1000
LoanTF                                  978
dtype: object
# NA değerlerini say
print(bool_data.isna().sum())
ID.x                       0
AttendedBootcamp           0
AttendedBootCampYesNo      0
AttendedBootcampTF         0
BootcampLoan               0
LoanYesNo                  0
LoanTF                     0
dtype: int64
pandas ile Kolaylaştırılmış Veri Alımı

pandas ve Boolean'lar

  • pandas varsayılan olarak True/False sütunlarını float olarak yükler
  • Bir sütunun bool olacağını read_excel()'in dtype argümanıyla belirtin
  • Boolean sütunlar yalnızca True ve False içerebilir
  • Boolean sütunlardaki NA/eksik değerler True'a çevrilir
  • pandas, bazı değerleri Boolean sütunlarda otomatik olarak True/False olarak tanır
  • Tanınmayan değerler de Boolean sütunda True'a çevrilir
pandas ile Kolaylaştırılmış Veri Alımı

Özel True/False Değerleri Ayarlama

  • Özel True değerleri için read_excel()'in true_values argümanını kullanın
  • Özel False değerleri için false_values kullanın
  • Her biri, sırasıyla True/False sayılacak değerlerin bir listesini alır
  • Özel True/False değerleri yalnızca Boolean olarak ayarlanan sütunlara uygulanır
pandas ile Kolaylaştırılmış Veri Alımı

Özel True/False Değerleri Ayarlama

# Boolean dtype'lar ve özel T/F değerleriyle veriyi yükle
bool_data = pd.read_excel("fcc_survey_booleans.xlsx", 
                          dtype={"AttendedBootcamp": bool,
                                "AttendedBootCampYesNo": bool,
                                "AttendedBootcampTF":bool,
                                "BootcampLoan": bool,
                                "LoanYesNo": bool,
                                "LoanTF": bool},
                          true_values=["Yes"],
                          false_values=["No"])
pandas ile Kolaylaştırılmış Veri Alımı

Özel True/False Değerleri Ayarlama

print(bool_data.sum())
AttendedBootcamp                                  38
AttendedBootCampYesNo                             38
AttendedBootcampTF                                38
BootcampLoan                                     978
LoanYesNo                                        978
LoanTF                                           978
dtype: object
pandas ile Kolaylaştırılmış Veri Alımı

Boolean İçin Dikkat Edilecekler

  • Eksik değer var mı, ya da ileride olabilir mi?
  • Bu sütun analizde nasıl kullanılacak?
  • Bir değer yanlışlıkla True kodlanırsa ne olur?
  • Veri başka bir şekilde modellenebilir mi (ör. float veya integer)?
pandas ile Kolaylaştırılmış Veri Alımı

Hadi pratik yapalım!

pandas ile Kolaylaştırılmış Veri Alımı

Preparing Video For Download...