Sintesi vocale (TTS)

Sistemi multimodali con l'API di OpenAI

James Chapman

Curriculum Manager, DataCamp

Sintesi vocale

 

  • Browser, app mobile, accessibilità
  • Testo → parlato umano realistico
  • Migliora l’accessibilità

Sintesi vocale in un'app mobile.

Sistemi multimodali con l'API di OpenAI

TTS con OpenAI

  • Endpoint Audio.speech.create()
response = client.audio.speech.create(

model="gpt-4o-mini-tts",
voice="onyx",
input="Creating human-like speech is now possible with just a few lines of code. Pretty neat, right?"
)
response.stream_to_file("output.mp3")
  • response_format: "mp3", "opus", "aac", "flac", "wav", "pcm"
1 https://www.openai.fm/
Sistemi multimodali con l'API di OpenAI

Onyx

La voce Onyx rappresentata come assistente virtuale.

Sistemi multimodali con l'API di OpenAI

OpenAI TTS

  • Ottimizzata per l’inglese

La voce Onyx rappresentata come assistente virtuale.

Icona con una registrazione audio e un blocco di testo.

Sistemi multimodali con l'API di OpenAI

Let's practice!

Sistemi multimodali con l'API di OpenAI

Preparing Video For Download...