Menangani berbagai jenis audio

Pemrosesan Bahasa Lisan dengan Python

Daniel Bourke

Machine Learning Engineer/YouTube Creator

Bahasa apa?

# Buat kelas recognizer
recognizer = sr.Recognizer()

# Berikan audio bahasa Jepang ke recognize_google
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US")

# Cetak teks
print(text)

Ohio gozaimasu

Bahasa apa?

# Buat kelas recognizer
recognizer = sr.Recognizer()

# Berikan audio bahasa Jepang ke recognize_google
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="ja")

# Cetak teks
print(text)

おはようございます

Audio non-ucapan

# Impor file audio auman macan tutul
leopard_roar = sr.AudioFile("leopard_roar.wav")

# Ubah AudioFile menjadi AudioData
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# Kenali AudioData
recognizer.recognize_google(leopard_roar_audio)

UnknownValueError:

Audio non-ucapan

# Impor file audio auman macan tutul
leopard_roar = sr.AudioFile("leopard_roar.wav")

# Ubah AudioFile menjadi AudioData
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# Kenali AudioData dengan show_all diaktifkan
recognizer.recognize_google(leopard_roar_audio,
                            show_all=True)

[]

Tampilkan semua

# Mengenali audio Jepang dengan show_all=True
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US",
                                   show_all=True)
# Cetak teks
print(text)

{'alternative': [{'transcript': 'Ohio gozaimasu', 'confidence': 0.89041114},
  {'transcript': 'all hail gozaimasu'},
  {'transcript': 'ohayo gozaimasu'},
  {'transcript': 'olho gozaimasu'},
  {'transcript': 'all Hale gozaimasu'}],
 'final': True}

Banyak penutur

# Impor file audio dengan banyak penutur
multiple_speakers = sr.AudioFile("multiple-speakers.wav")

# Ubah AudioFile menjadi AudioData
with multiple_speakers as source:
    multiple_speakers_audio = recognizer.record(source)

# Kenali AudioData
recognizer.recognize_google(multiple_speakers_audio)

salah satu keterbatasan pustaka pengenalan ucapan adalah tidak dapat
mengenali penutur dan suara yang berbeda; semuanya dikembalikan sebagai satu blok
teks

Banyak penutur

# Impor file audio secara terpisah
speakers = [sr.AudioFile("s0.wav"), sr.AudioFile("s1.wav"), sr.AudioFile("s2.wav")]

# Transkripsikan tiap penutur secara terpisah
for i, speaker in enumerate(speakers):
    with speaker as source:
        speaker_audio = recognizer.record(source)
    print(f"Teks dari penutur {i}: {recognizer.recognize_google(speaker_audio)}")

Teks dari penutur 0: salah satu keterbatasan pustaka pengenalan ucapan
Teks dari penutur 1: adalah tidak dapat mengenali penutur dan suara yang berbeda
Teks dari penutur 2: semuanya dikembalikan sebagai satu blok teks

Audio berisik

Jika Anda kesulitan mendengar ucapan, API juga akan kesulitan

# Impor file audio dengan kebisingan latar
noisy_support_call = sr.AudioFile(noisy_support_call.wav)

with noisy_support_call as source:
    # Sesuaikan dengan kebisingan sekitar lalu rekam
    recognizer.adjust_for_ambient_noise(source, 
                                        duration=0.5)
    noisy_support_call_audio = recognizer.record(source)

# Kenali audio
recognizer.recognize_google(noisy_support_call_audio)

halo saya ingin minta bantuan menyiapkan kalori saya

Ayo berlatih!

Pemrosesan Bahasa Lisan dengan Python