Tekst-naar-spraak (TTS)

Multimodale systemen met de OpenAI API

James Chapman

Curriculum Manager, DataCamp

Tekst-naar-spraak

 

  • Webbrowsers, mobiele apps, toegankelijkheid
  • Tekst → realistische menselijke spraak
  • Verbetert toegankelijkheid

Tekst-naar-spraak in een mobiele app.

Multimodale systemen met de OpenAI API

Tekst-naar-spraak met OpenAI

  • Audio-endpoint → .speech.create()
response = client.audio.speech.create(

model="gpt-4o-mini-tts",
voice="onyx",
input="Creating human-like speech is now possible with just a few lines of code. Pretty neat, right?"
)
response.stream_to_file("output.mp3")
  • response_format: "mp3", "opus", "aac", "flac", "wav", en "pcm"
1 https://www.openai.fm/
Multimodale systemen met de OpenAI API

Onyx

De Onyx-stem als virtuele assistent.

Multimodale systemen met de OpenAI API

OpenAI TTS

  • Geoptimaliseerd voor Engels

De Onyx-stem als virtuele assistent.

Een pictogram met een audio-opname en een tekstblok.

Multimodale systemen met de OpenAI API

Laten we oefenen!

Multimodale systemen met de OpenAI API

Preparing Video For Download...