Düz dosya içe aktarmalarını değiştirme

pandas ile Kolaylaştırılmış Veri Alımı

Amany Mahfouz

Instructor

ABD Vergi Verileri

tax_data = pd.read_csv('us_tax_data_2016.csv')

print(tax_data.shape)
(179796, 147)
pandas ile Kolaylaştırılmış Veri Alımı

Sütunları Sınırlama

  • usecols anahtar argümanı ile yüklenecek sütunları seçin
  • Sütun numaraları veya adları listesi ya da sütun adlarını filtreleyen bir işlev kabul eder
col_names = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']

col_nums = [0, 1, 2, 3, 4]
# Sütunları ada göre seçin tax_data_v1 = pd.read_csv('us_tax_data_2016.csv', usecols=col_names)
# Sütunları numaraya göre seçin tax_data_v2 = pd.read_csv('us_tax_data_2016.csv', usecols=col_nums)
print(tax_data_v1.equals(tax_data_v2))
True
pandas ile Kolaylaştırılmış Veri Alımı

Satırları Sınırlama

  • nrows anahtar argümanı ile yüklenen satır sayısını sınırlayın
tax_data_first1000 = pd.read_csv('us_tax_data_2016.csv', nrows=1000)

print(tax_data_first1000.shape)
(1000, 147)
pandas ile Kolaylaştırılmış Veri Alımı

Satırları Sınırlama

  • Bir dosyayı parça parça işlemek için nrows ve skiprows birlikte kullanın
  • skiprows, satır numaraları listesi, bir satır sayısı veya satırları filtreleyen bir işlev alır
  • Sütun adları olmadığını belirtmek için header=None ayarlayın
tax_data_next500 = pd.read_csv('us_tax_data_2016.csv', 
                               nrows=500, 
                               skiprows=1000, 
                               header=None)
pandas ile Kolaylaştırılmış Veri Alımı

Satırları Sınırlama

print(tax_data_next500.head(1))
   0   1      2    3     4     5    6    7     8     9     10   ...    136  137   138  139  140  141  142  143   144   145   146
0    1  AL  35565    4   270     0  250    0   210   790   280  ...   1854  260  1978    0    0    0    0   50   222   210   794

[1 rows x 147 columns]
pandas ile Kolaylaştırılmış Veri Alımı

Sütun Adı Atama

  • names bağımsız değişkenine bir liste vererek sütun adlarını sağlayın
  • Liste, verinizdeki her sütun için bir ad İÇERMELİDİR
  • Yalnızca birkaç sütunu yeniden adlandırmanız gerekiyorsa, bunu içe aktarmadan sonra yapın!
pandas ile Kolaylaştırılmış Veri Alımı

Sütun Adı Atama

col_names = list(tax_data_first1000)

tax_data_next500 = pd.read_csv('us_tax_data_2016.csv',
nrows=500, skiprows=1000,
header=None,
names=col_names) print(tax_data_next500.head(1))
   STATEFIPS STATE  zipcode  agi_stub   ...  N11901  A11901  N11902  A11902
0          1    AL    35565         4   ...      50     222     210     794

[1 rows x 147 columns]
pandas ile Kolaylaştırılmış Veri Alımı

Hadi pratik yapalım!

pandas ile Kolaylaştırılmış Veri Alımı

Preparing Video For Download...