Birden çok veri kümesini birleştirme

pandas ile Kolaylaştırılmış Veri Alımı

Amany Mahfouz

Instructor

Zincirleme (concatenate)

  • Kullanım durumu: bir DataFrame’e başka birinden satır eklemek
  • concat()
    • pandas fonksiyonu
    • Söz dizimi: pd.concat([df1,df2])
    • Satırları yeniden numaralamak için ignore_index değerini True yapın
pandas ile Kolaylaştırılmış Veri Alımı

Zincirleme (concatenate)

# İlk 20 kitapçı sonucunu alın
params = {"term": "bookstore", 
          "location": "San Francisco"}  
first_results = requests.get(api_url,
                             headers=headers,
                             params=params).json()

first_20_bookstores = json_normalize(first_results["businesses"],
                                     sep="_")

print(first_20_bookstores.shape)
(20, 24)
pandas ile Kolaylaştırılmış Veri Alımı
# Sonraki 20 kitapçıyı alın
params["offset"] = 20
next_results = requests.get(api_url,
                            headers=headers,
                            params=params).json()

next_20_bookstores = json_normalize(next_results["businesses"],
                                    sep="_")

print(next_20_bookstores.shape)
(20, 24)
pandas ile Kolaylaştırılmış Veri Alımı
# Kitapçı veri kümelerini birleştirip satırları yeniden numaralayın
bookstores = pd.concat([first_20_bookstores, next_20_bookstores],
                        ignore_index=True)

print(bookstores.name)
0                             City Lights Bookstore
1                            Alexander Book Company
2                                 Borderlands Books
3                                   Alley Cat Books
4                                   Dog Eared Books
...                                             ...
35                                     Forest Books
36                San Francisco Center For The Book
37                           KingSpoke - Book Store
38                            Eastwind Books & Arts
39                                      My Favorite
Name: name, dtype: object
pandas ile Kolaylaştırılmış Veri Alımı

Birleştirme

  • Kullanım durumu: ilişkili sütunlar eklemek için veri kümelerini birleştirme
  • Veri kümelerinde ortak değerlere sahip anahtar sütun(lar) vardır
  • merge(): SQL join’in pandas karşılığı
pandas ile Kolaylaştırılmış Veri Alımı

Birleştirme

  • merge()
    • Hem bir pandas fonksiyonu hem de bir DataFrame metodu
  • df.merge() argümanları
    • Birleştirilecek ikinci DataFrame
    • Üzerinde birleştirilecek sütunlar
      • İsimler her iki DataFrame’de aynıysa on
      • Anahtar adları farklıysa left_on ve right_on
      • Anahtar sütunlar aynı veri tipinde olmalı
pandas ile Kolaylaştırılmış Veri Alımı
call_counts.head()
  created_date  call_counts
0   01/01/2018         4597
1   01/02/2018         4362
2   01/03/2018         3045
3   01/04/2018         3374
4   01/05/2018         4333
weather.head()
         date    tmax  tmin  
0  12/01/2017      52    42  
1  12/02/2017      48    39  
2  12/03/2017      48    42  
3  12/04/2017      51    40  
4  12/05/2017      61    50
pandas ile Kolaylaştırılmış Veri Alımı

Birleştirme

# Tarih sütunlarında weather'ı call_counts ile birleştirin
merged = call_counts.merge(weather, 
                           left_on="created_date", 
                           right_on="date")

print(merged.head())
  created_date  call_counts        date  tmax  tmin
0   01/01/2018         4597  01/01/2018    19     7
1   01/02/2018         4362  01/02/2018    26    13
2   01/03/2018         3045  01/03/2018    30    16
3   01/04/2018         3374  01/04/2018    29    19
4   01/05/2018         4333  01/05/2018    19     9
pandas ile Kolaylaştırılmış Veri Alımı

Birleştirme

   created_date  call_counts        date  tmax  tmin
0    01/01/2018         4597  01/01/2018    19     7
1    01/02/2018         4362  01/02/2018    26    13
2    01/03/2018         3045  01/03/2018    30    16
3    01/04/2018         3374  01/04/2018    29    19
4    01/05/2018         4333  01/05/2018    19     9
  • Varsayılan merge() davranışı: yalnızca her iki veri setinde de olan değerleri döndürür
  • DataFrame’ler arasında her eşleşen değer için bir kayıt
    • Çoklu eşleşme = çoklu kayıt
pandas ile Kolaylaştırılmış Veri Alımı

Hadi pratik yapalım!

pandas ile Kolaylaştırılmış Veri Alımı

Preparing Video For Download...