Pengantar spreadsheet

Pemasukan Data yang Efisien dengan pandas

Amany Mahfouz

Instructor

Spreadsheet

  • Juga dikenal sebagai file Excel
  • Data disimpan dalam bentuk tabel, dengan sel berbaris dan berkolom
  • Tidak seperti flat file, dapat memiliki format dan rumus
  • Satu workbook dapat berisi beberapa spreadsheet
Pemasukan Data yang Efisien dengan pandas

Memuat Spreadsheet

  • Spreadsheet memiliki fungsi pemuatan khusus di pandas: read_excel()

Cuplikan data Survei New Developer FreeCodeCamp di program spreadsheet

Pemasukan Data yang Efisien dengan pandas

Memuat Spreadsheet

import pandas as pd

# Read the Excel file
survey_data = pd.read_excel("fcc_survey.xlsx")

# View the first 5 lines of data print(survey_data.head())
    Age  AttendedBootcamp       ...                    SchoolMajor  StudentDebtOwe
0  28.0               0.0       ...                            NaN           20000
1  22.0               0.0       ...                            NaN             NaN
2  19.0               0.0       ...                            NaN             NaN
3  26.0               0.0       ...        Cinematography And Film            7000
4  20.0               0.0       ...                            NaN             NaN

[5 rows x 98 columns]
Pemasukan Data yang Efisien dengan pandas

Memuat Kolom dan Baris Tertentu

Spreadsheet survei dengan baris header metadata

Spreadsheet invoice dengan beberapa tabel data kecil

Pemasukan Data yang Efisien dengan pandas

Memuat Kolom dan Baris Tertentu

  • read_excel() memiliki banyak argumen kata kunci yang sama dengan read_csv()
    • nrows: batasi jumlah baris yang dimuat
    • skiprows: tentukan jumlah/nomor baris yang dilewati
    • usecols: pilih kolom berdasarkan nama, nomor posisi, atau huruf (mis. "A:P")
Pemasukan Data yang Efisien dengan pandas

Memuat Kolom dan Baris Tertentu

Pemasukan Data yang Efisien dengan pandas

Memuat Kolom dan Baris Tertentu

# Read columns W-AB and AR of file, skipping metadata header
survey_data = pd.read_excel("fcc_survey_with_headers.xlsx",
                            skiprows=2,
                            usecols="W:AB, AR")

# View data print(survey_data.head())
   CommuteTime            CountryCitizen  ...    EmploymentFieldOther    EmploymentStatus   Income
0         35.0  United States of America  ...                     NaN  Employed for wages  32000.0
1         90.0  United States of America  ...                     NaN  Employed for wages  15000.0
2         45.0  United States of America  ...                     NaN  Employed for wages  48000.0
3         45.0  United States of America  ...                     NaN  Employed for wages  43000.0
4         10.0  United States of America  ...                     NaN  Employed for wages   6000.0

[5 rows x 7 columns]
Pemasukan Data yang Efisien dengan pandas

Ayo berlatih!

Pemasukan Data yang Efisien dengan pandas

Preparing Video For Download...