Complexere SQL-queries

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

UNIQUE/DISTINCT-waarden ophalen

  • Unieke waarden voor één of meer kolommen met SELECT DISTINCT
  • Syntax:
    SELECT DISTINCT [column names] FROM [table];
    
  • Dubbele records verwijderen:
    SELECT DISTINCT * FROM [table];
    
/* Unieke straatadressen en boroughs */
SELECT DISTINCT incident_address, 
       borough
  FROM hpd311calls;
Gestroomlijnde data-inname met pandas

Aggregatiefuncties

  • Vraag een database direct uit voor beschrijvende statistieken
  • Aggregatiefuncties
    • SUM
    • AVG
    • MAX
    • MIN
    • COUNT
Gestroomlijnde data-inname met pandas

Aggregatiefuncties

  • SUM, AVG, MAX, MIN
    • Elk neemt één kolomnaam
      SELECT AVG(tmax) FROM weather;
      
  • COUNT
    • Aantal rijen dat aan de queryvoorwaarden voldoet
      SELECT COUNT(*) FROM [table_name];
      
    • Aantal unieke waarden in een kolom
      SELECT COUNT(DISTINCT [column_names]) FROM [table_name];
      
Gestroomlijnde data-inname met pandas

GROUP BY

  • Aggregatiefuncties geven standaard één samenvattende waarde
  • Vat data per categorie samen met GROUP BY
  • Selecteer ook de kolom waarop je groepeert
/* Aantal plumbing-meldingen per borough */
SELECT borough, 
       COUNT(*) 
  FROM hpd311calls
 WHERE complaint_type = 'PLUMBING'
 GROUP BY borough;
Gestroomlijnde data-inname met pandas

Tellen per groep

# Create database engine
engine = create_engine("sqlite:///data.db")

# Write query to get plumbing call counts by borough query = """SELECT borough, COUNT(*) FROM hpd311calls WHERE complaint_type = 'PLUMBING' GROUP BY borough;"""
# Query databse and create dataframe plumbing_call_counts = pd.read_sql(query, engine)
Gestroomlijnde data-inname met pandas

Tellen per groep

print(plumbing_call_counts)
         borough  COUNT(*)
0          BRONX      2016
1       BROOKLYN      2702
2      MANHATTAN      1413
3         QUEENS       808
4  STATEN ISLAND       178
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...