Omgaan met verschillende soorten audio

Spoken Language Processing in Python

Daniel Bourke

Machine Learning Engineer/YouTube Creator

Welke taal?

# Maak een Recognizer-class aan
recognizer = sr.Recognizer()

# Geef de Japanse audio door aan recognize_google
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US")

# Print de tekst
print(text)

Ohio gozaimasu

Welke taal?

# Maak een Recognizer-class aan
recognizer = sr.Recognizer()

# Geef de Japanse audio door aan recognize_google
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="ja")

# Print de tekst
print(text)

おはようございます

Niet-spraak audio

# Importeer het audiobestand met luipaardgebrul
leopard_roar = sr.AudioFile("leopard_roar.wav")

# Zet AudioFile om naar AudioData
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# Herken de AudioData
recognizer.recognize_google(leopard_roar_audio)

UnknownValueError:

Niet-spraak audio

# Importeer het audiobestand met luipaardgebrul
leopard_roar = sr.AudioFile("leopard_roar.wav")

# Zet AudioFile om naar AudioData
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# Herken de AudioData met show_all ingeschakeld
recognizer.recognize_google(leopard_roar_audio,
                            show_all=True)

[]

Alles tonen

# Japanse audio herkennen met show_all=True
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US",
                                   show_all=True)
# Print de tekst
print(text)

{'alternative': [{'transcript': 'Ohio gozaimasu', 'confidence': 0.89041114},
  {'transcript': 'all hail gozaimasu'},
  {'transcript': 'ohayo gozaimasu'},
  {'transcript': 'olho gozaimasu'},
  {'transcript': 'all Hale gozaimasu'}],
 'final': True}

Meerdere sprekers

# Importeer een audiobestand met meerdere sprekers
multiple_speakers = sr.AudioFile("multiple-speakers.wav")

# Zet AudioFile om naar AudioData
with multiple_speakers as source:
    multiple_speakers_audio = recognizer.record(source)

# Herken de AudioData
recognizer.recognize_google(multiple_speakers_audio)

één van de beperkingen van de spraakherkenningsbibliotheek is dat die geen
verschillende sprekers en stemmen herkent; alles komt terug als één blok
tekst

Meerdere sprekers

# Importeer audiobestanden afzonderlijk
speakers = [sr.AudioFile("s0.wav"), sr.AudioFile("s1.wav"), sr.AudioFile("s2.wav")]

# Transcribeer elke spreker apart
for i, speaker in enumerate(speakers):
    with speaker as source:
        speaker_audio = recognizer.record(source)
    print(f"Tekst van spreker {i}: {recognizer.recognize_google(speaker_audio)}")

Tekst van spreker 0: één van de beperkingen van de spraakherkenningsbibliotheek
Tekst van spreker 1: is dat die geen verschillende sprekers en stemmen herkent
Tekst van spreker 2: alles komt terug als één blok tekst

Ruisende audio

Als jij het slecht hoort, doen de API's dat ook

# Importeer audiobestand met achtergrondruis
noisy_support_call = sr.AudioFile(noisy_support_call.wav)

with noisy_support_call as source:
    # Corrigeer voor omgevingsgeluid en neem op
    recognizer.adjust_for_ambient_noise(source, 
                                        duration=0.5)
    noisy_support_call_audio = recognizer.record(source)

# Herken de audio
recognizer.recognize_google(noisy_support_call_audio)

hello ID like to get some help setting up my calories

Laten we oefenen!

Spoken Language Processing in Python