Importieren von Flat Files mit NumPy

Einführung in das Importieren von Daten in Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Warum NumPy?

  • NumPy-Arrays: Standard zum Speichern von numerischen Daten

 

ch_1_3.003.png

Einführung in das Importieren von Daten in Python

Warum NumPy?

  • NumPy-Arrays: Standard zum Speichern von numerischen Daten
  • Für andere Pakete essentiell: z. B. scikit-learn ch_1_3.004.png
  • loadtxt()
  • genfromtxt()
Einführung in das Importieren von Daten in Python

Importieren von Flat Files mit NumPy

import numpy as np
filename = 'MNIST.txt'
data = np.loadtxt(filename, delimiter=',')
data
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
Einführung in das Importieren von Daten in Python

Deine NumPy-Importe anpassen

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1)
print(data)
[[   0.    0.    0.    0.    0.]
 [  86.  250.  254.  254.  254.]
 [   0.    0.    0.    9.  254.]
 ..., 
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]
  • skiprows: Wie viele Zeilen (nicht Indizes) du überspringen willst
Einführung in das Importieren von Daten in Python

Deine NumPy-Importe anpassen

import numpy as np
filename = 'MNIST_header.txt'
data = np.loadtxt(filename, delimiter=',', skiprows=1, usecols=[0, 2])
print(data)
[[   0.    0.]
 [  86.  254.]
 [   0.    0.]
 ..., 
 [   0.    0.]
 [   0.    0.]
 [   0.    0.]]
  • usecols: Liste der Indizes der Spalten, die du behalten möchtest
Einführung in das Importieren von Daten in Python

Deine NumPy-Importe anpassen

data = np.loadtxt(filename, delimiter=',', dtype=str)
Einführung in das Importieren von Daten in Python

Gemischte Datentypen

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05


1 Quelle: Kaggle
Einführung in das Importieren von Daten in Python

Gemischte Datentypen

titanic.csv

                        Name      Sex  Cabin   Fare
     Braund, Mr. Owen Harris     male    NaN    7.3
  Cumings, Mrs. John Bradley   female    C85   71.3
      Heikkinen, Miss. Laina   female    NaN    8.0
Futrelle, Mrs. Jacques Heath   female   C123   53.1
    Allen, Mr. William Henry     male    NaN   8.05
               ^                                 ^
            strings                           floats
1 Quelle: Kaggle
Einführung in das Importieren von Daten in Python

Lass uns üben!

Einführung in das Importieren von Daten in Python

Preparing Video For Download...