Çıkarma

Data Engineering'e Giriş

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Veri çıkarma: ne demektir?

Basit çıkarma aşamasını gösteren diyagram

Data Engineering'e Giriş

Metin dosyalarından çıkarma

Yapılandırılmamış

  • Düz metin
  • Örn. bir kitaptan bölüm

 

Call me Ishmael. Some years ago—never 
mind how long precisely—having little or
no money in my purse, and nothing particular
to interest me on shore, I thought ....

Düz dosyalar

  • Satır = kayıt
  • Sütun = öznitelik
  • Örn. .tsv veya .csv

 

Year,Make,Model,Price
1997,Ford,E350,3000.00
1999,Chevy,"Venture Extended Edition",4900.00
1999,Chevy,"Venture Extended Edition",5000.00
1996,Jeep,Grand Cherokee,4799.00
Data Engineering'e Giriş

JSON

  • JavaScript Object Notation
  • Yarı yapılandırılmış
  • Atomik
    • number
    • string
    • boolean
    • null
  • Bileşik
    • array
    • object
{
  "an_object": {
    "nested": [
      "one",
      "two",
      "three",
      {
        "key": "four"
      }
    ]
  }
}
import json

result = json.loads('{"key_1": "value_1", "key_2":"value_2"}') print(result["key_1"])
value_1
Data Engineering'e Giriş

Web’deki veriler

İstekler

İstek-yanıt modelini gösteren diyagram

Örnek

  1. Google’a göz atın
  2. Google sunucusuna istek
  3. Google web sayfasıyla yanıt verir
Data Engineering'e Giriş

Web’de API’lerle veri

  • Verileri JSON formatında gönderir
  • API: application programming interface
  • Örnekler
    • Twitter API
{ "statuses": [{ "created_at": "Mon May 06 20:01:29 +0000 2019", "text": "this is a tweet"}] }
  • Hackernews API
import requests

response = requests.get("https://hacker-news.firebaseio.com/v0/item/16222426.json") print(response.json())
{'by': 'neis', 'descendants': 0, 'id': 16222426, 'score': 17, 'time': 1516800333, 'title': .... }
Data Engineering'e Giriş

Veritabanlarındaki veriler

Uygulama veritabanları

  • İşlemler
  • Ekleme veya değişiklikler
  • OLTP
  • Satır odaklı

Analitik veritabanları

  • OLAP
  • Sütun odaklı
Data Engineering'e Giriş

Veritabanlarından çıkarma

Bağlantı dizesi/URI

postgresql://[user[:password]@][host][:port]

Python’da kullanım

import sqlalchemy
connection_uri = "postgresql://repl:password@localhost:5432/pagila" 
db_engine = sqlalchemy.create_engine(connection_uri)

import pandas as pd pd.read_sql("SELECT * FROM customer", db_engine)
Data Engineering'e Giriş

Hadi pratik yapalım!

Data Engineering'e Giriş

Preparing Video For Download...