Introductie tot audiogegevens in Python

Spoken Language Processing in Python

Daniel Bourke

Machine Learning Engineer/YouTube Creator

Werken met audiobestanden in Python

  • Verschillende soorten audiobestanden

    • mp3
    • wav
    • m4a
    • flac
  • Digitale geluiden gemeten in frequentie (kHz)

    • 1 kHz = 1000 stukjes informatie per seconde
Spoken Language Processing in Python

Frequentievoorbeelden

  • Streamingmuziek heeft een frequentie van 32 kHz
  • Audioboeken en spraak liggen tussen 8 en 16 kHz

  • We kunnen audiobestanden niet zien, dus we moeten ze eerst omzetten

import wave
Spoken Language Processing in Python

Een audiobestand openen in Python

  • Audiobestand opgeslagen als good-morning.wav
    # Import audio file as wave object
    good_morning = wave.open("good-morning.wav", "r")
    
# Convert wave object to bytes
good_morning_soundwave = good_morning.readframes(-1)
# View the wav file in byte form
good_morning_soundwave
b'\xfd\xff\xfb\xff\xf8\xff\xf8\xff\xf7\...
Spoken Language Processing in Python

Werken met audio is anders

  • Audio omzetten naar iets bruikbaars
  • Kleine audio-sample = veel informatie
Spoken Language Processing in Python

Laten we oefenen!

Spoken Language Processing in Python

Preparing Video For Download...