Pengantar Flat File

Pemasukan Data yang Efisien dengan pandas

Amany Mahfouz

Instructor

pandas

logo pandas

Pemasukan Data yang Efisien dengan pandas

Data Frame

  • Struktur khusus pandas untuk data dua dimensi

Dataframe negara, ibu kota, dan luas negara (mil persegi)

Pemasukan Data yang Efisien dengan pandas

Data Frame

  • Struktur khusus pandas untuk data dua dimensi

Dataframe dengan label kolom (Country, Population, dan Area (sq. mi.)) disorot

Pemasukan Data yang Efisien dengan pandas

Data Frame

  • Struktur khusus pandas untuk data dua dimensi

Dataframe dengan label/baris indeks disorot

Pemasukan Data yang Efisien dengan pandas

Flat File

  • Format sederhana dan mudah dibuat
  • Data disimpan sebagai teks biasa (tanpa pemformatan)
  • Satu baris per baris file
  • Nilai tiap kolom dipisahkan oleh delimiter
  • Jenis flat file paling umum: comma-separated values
  • Satu fungsi pandas untuk memuat semuanya: read_csv()
Pemasukan Data yang Efisien dengan pandas

Memuat CSV

  • Contoh us_tax_data_2016.csv
STATEFIPS,STATE,zipcode,agi_stub,...,N11901,A11901,N11902,A11902
1,AL,0,1,...,63420,51444,711580,1831661
import pandas as pd

tax_data = pd.read_csv("us_tax_data_2016.csv")
tax_data.head(4)
   STATEFIPS STATE  zipcode  agi_stub   ...     N11901  A11901  N11902   A11902
0          1    AL        0         1   ...      63420   51444  711580  1831661
1          1    AL        0         2   ...      74090  110889  416090  1173463
2          1    AL        0         3   ...      64000  143060  195130   543284
3          1    AL        0         4   ...      45020  128920  117410   381329

[4 rows x 147 columns]
Pemasukan Data yang Efisien dengan pandas

Memuat Flat File Lain

  • Tentukan pemisah lain dengan sep
  • Contoh us_tax_data_2016.tsv
    STATEFIPS    STATE    zipcode    agi_stub    ...    N11901    A11901    N11902    A11902
    1    AL    0    1    ...    63420    51444    711580    1831661
    
import pandas as pd

tax_data = pd.read_csv("us_tax_data_2016.tsv", sep="\t")
tax_data.head(3)
   STATEFIPS STATE  zipcode  agi_stub   ...     N11901  A11901  N11902   A11902
0          1    AL        0         1   ...      63420   51444  711580  1831661
1          1    AL        0         2   ...      74090  110889  416090  1173463
2          1    AL        0         3   ...      64000  143060  195130   543284

[3 rows x 147 columns]
Pemasukan Data yang Efisien dengan pandas

Ayo berlatih!

Pemasukan Data yang Efisien dengan pandas

Preparing Video For Download...