Memvisualisasikan data Anda

Manipulasi Data dengan pandas

Maggie Matsui

Senior Content Developer at DataCamp

Histograms

import matplotlib.pyplot as plt
dog_pack["height_cm"].hist()
plt.show()

Histogram tinggi anjing. Anjing-anjing terpendek memiliki tinggi di bawah 20 cm, sedangkan anjing-anjing tertinggi memiliki tinggi 70 cm. Tinggi anjing yang paling umum adalah antara 50 dan 60 cm.

Manipulasi Data dengan pandas

Histograms

dog_pack["height_cm"].hist(bins=20)
plt.show()

Histogram tinggi anjing yang sama yang ditampilkan pada slide sebelumnya, tetapi sekarang dengan 20 interval yang lebih sempit.

dog_pack["height_cm"].hist(bins=5)
plt.show()

Histogram tinggi anjing yang sama yang ditampilkan pada slide sebelumnya, tetapi sekarang dengan lima interval lebar.

Manipulasi Data dengan pandas

Grafik batang

avg_weight_by_breed = dog_pack.groupby("breed")["weight_kg"].mean()
print(avg_weight_by_breed)
breed
Beagle         10.636364
Boxer          30.620000
Chihuahua       1.491667
Chow Chow      22.535714
Dachshund       9.975000
Labrador       31.850000
Poodle         20.400000
St. Bernard    71.576923
Name: weight_kg, dtype: float64
Manipulasi Data dengan pandas

Grafik batang

avg_weight_by_breed.plot(kind="bar")

plt.show()

Grafik batang yang menunjukkan rata-rata berat anjing, dalam kilogram, dibedakan berdasarkan ras. Anjing St. Bernard adalah yang paling berat, sementara Chihuahua adalah anjing yang paling ringan.

avg_weight_by_breed.plot(kind="bar",
    title="Mean Weight by Dog Breed")
plt.show()

Grafik batang yang sama seperti di sebelah kiri layar, tetapi dengan judul tambahan yang berbunyi "Rata-rata Berat Badan Menurut Ras Anjing."

Manipulasi Data dengan pandas

Grafik garis

sully.head()
          date    weight_kg
0   2019-01-31         36.1
1   2019-02-28         35.3
2   2019-03-31         32.0
3   2019-04-30         32.9
4   2019-05-31         32.0
sully.plot(x="date", 
           y="weight_kg", 
           kind="line")
plt.show()

Grafik garis yang menunjukkan berat anjing bernama Sully sepanjang waktu. Beratnya berfluktuasi antara 27 dan 36 kilogram.

Manipulasi Data dengan pandas

Label sumbu putar

sully.plot(x="date", y="weight_kg", kind="line", rot=45)
plt.show()

Grafik garis berat Sully yang sama seperti yang terlihat di slide sebelumnya, tetapi dengan teks pada sumbu x diputar 45 derajat searah jarum jam.

Manipulasi Data dengan pandas

Diagram pencar

dog_pack.plot(x="height_cm", y="weight_kg", kind="scatter")
plt.show()

Grafik sebaran berat anjing versus tinggi anjing. Seiring dengan meningkatnya tinggi anjing, berat anjing juga meningkat. Ada beberapa klaster. Saya penasaran apakah itu sesuai dengan ras.

Manipulasi Data dengan pandas

Pelapisan plot

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()

plt.show()

Dua histogram tinggi anjing ditampilkan dalam grafik yang sama. Satu berwarna biru, dan satu berwarna oranye. Histogram oranye menutupi grafik batang biru, sehingga sulit untuk melihat apa yang sedang terjadi.

Manipulasi Data dengan pandas

Tambahkan legenda

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()
plt.legend(["F", "M"])
plt.show()

Grafik yang sama dengan dua histogram seperti pada slide sebelumnya, tetapi dengan legenda. "F" untuk perempuan ditandai dengan warna biru, dan "M" untuk laki-laki ditandai dengan warna oranye. Masih sulit untuk melihat apa yang sedang terjadi.

Manipulasi Data dengan pandas

Transparansi

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist(alpha=0.7)
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist(alpha=0.7)
plt.legend(["F", "M"])
plt.show()

Grafik yang sama dengan dua histogram seperti pada slide sebelumnya, tetapi sekarang histogramnya transparan. Hal ini memungkinkan untuk melihat batang-batang pada histogram perempuan yang sebelumnya tertutupi oleh batang-batang pada histogram laki-laki. Masih agak jelek. Anda sebaiknya mengikuti kursus Seaborn karena grafiknya lebih menarik.

Manipulasi Data dengan pandas

Alpukat

print(avocados)
            date          type  year  avg_price         size     nb_sold
0     2015-12-27  conventional  2015       0.95        small  9626901.09
1     2015-12-20  conventional  2015       0.98        small  8710021.76
2     2015-12-13  conventional  2015       0.93        small  9855053.66
...          ...           ...   ...        ...          ...         ...
1011  2018-01-21       organic  2018       1.63  extra_large     1490.02
1012  2018-01-14       organic  2018       1.59  extra_large     1580.01
1013  2018-01-07       organic  2018       1.51  extra_large     1289.07

[1014 rows x 6 columns]
Manipulasi Data dengan pandas

Ayo berlatih!

Manipulasi Data dengan pandas

Preparing Video For Download...