Farklı türde seslerle çalışmak

Python ile Konuşma Dili İşleme

Daniel Bourke

Machine Learning Engineer/YouTube Creator

Hangi dil?

# Bir tanıyıcı sınıfı oluşturun
recognizer = sr.Recognizer()

# Japonca sesi recognize_google'a geçirin
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US")

# Metni yazdırın
print(text)

Ohio gozaimasu

Hangi dil?

# Bir tanıyıcı sınıfı oluşturun
recognizer = sr.Recognizer()

# Japonca sesi recognize_google'a geçirin
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="ja")

# Metni yazdırın
print(text)

おはようございます

Konuşma olmayan ses

# Pars Leoparı kükremesi ses dosyasını içe aktarın
leopard_roar = sr.AudioFile("leopard_roar.wav")

# AudioFile'ı AudioData'ya dönüştürün
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# AudioData'yı tanıyın
recognizer.recognize_google(leopard_roar_audio)

UnknownValueError:

Konuşma olmayan ses

# Pars Leoparı kükremesi ses dosyasını içe aktarın
leopard_roar = sr.AudioFile("leopard_roar.wav")

# AudioFile'ı AudioData'ya dönüştürün
with leopard_roar as source:
    leopard_roar_audio = recognizer.record(source)

# show_all açıkken AudioData'yı tanıyın
recognizer.recognize_google(leopard_roar_audio,
                            show_all=True)

[]

Tümünü gösterme

# show_all=True ile Japonca sesi tanıma
text = recognizer.recognize_google(japanese_good_morning, 
                                   language="en-US",
                                   show_all=True)
# Metni yazdırın
print(text)

{'alternative': [{'transcript': 'Ohio gozaimasu', 'confidence': 0.89041114},
  {'transcript': 'all hail gozaimasu'},
  {'transcript': 'ohayo gozaimasu'},
  {'transcript': 'olho gozaimasu'},
  {'transcript': 'all Hale gozaimasu'}],
 'final': True}

Birden çok konuşmacı

# Birden çok konuşmacılı bir ses dosyasını içe aktarın
multiple_speakers = sr.AudioFile("multiple-speakers.wav")

# AudioFile'ı AudioData'ya dönüştürün
with multiple_speakers as source:
    multiple_speakers_audio = recognizer.record(source)

# AudioData'yı tanıyın
recognizer.recognize_google(multiple_speakers_audio)

konuşma tanıma kitaplığının sınırlılıklarından biri farklı konuşmacıları ve sesleri
ayırt edememesidir; tümünü tek bir metin bloğu olarak döndürür

Birden çok konuşmacı

# Ses dosyalarını ayrı ayrı içe aktarın
speakers = [sr.AudioFile("s0.wav"), sr.AudioFile("s1.wav"), sr.AudioFile("s2.wav")]

# Her konuşmacıyı ayrı ayrı yazıya dökün
for i, speaker in enumerate(speakers):
    with speaker as source:
        speaker_audio = recognizer.record(source)
    print(f"Konuşmacı {i} metni: {recognizer.recognize_google(speaker_audio)}")

Konuşmacı 0 metni: konuşma tanıma kitaplığının sınırlılıklarından biri
Konuşmacı 1 metni: farklı konuşmacıları ve sesleri ayırt edememesidir
Konuşmacı 2 metni: tümünü tek bir metin bloğu olarak döndürür

Gürültülü ses

Siz konuşmayı zor duyuyorsanız, API'ler de zorlanır

# Arka plan gürültülü ses dosyasını içe aktarın
noisy_support_call = sr.AudioFile(noisy_support_call.wav)

with noisy_support_call as source:
    # Ortam gürültüsüne göre ayarlayın ve kaydedin
    recognizer.adjust_for_ambient_noise(source, 
                                        duration=0.5)
    noisy_support_call_audio = recognizer.record(source)

# Sesi tanıyın
recognizer.recognize_google(noisy_support_call_audio)

merhaba kalori ayarlamam için biraz yardım almak istiyorum

Hadi pratik yapalım!

Python ile Konuşma Dili İşleme