Da voce a testo

Sistemi multimodali con l'API di OpenAI

James Chapman

Curriculum Manager, DataCamp

In arrivo...

$$

Obiettivi del corso
  • Modelli audio di OpenAI
  • Moderazione del testo
  • Caso d’uso: chatbot di supporto clienti

Un’immagine con modelli audio, moderazione del testo e un caso di studio

Sistemi multimodali con l'API di OpenAI

Riepilogo...

from openai import OpenAI


# Crea il client OpenAI client = OpenAI(api_key="<OPENAI_API_TOKEN>")
# Crea una richiesta al Chat Completions endpoint response = client.chat.completions.create(
model="gpt-4o-mini", messages=[{"role": "user", "content": "What is the OpenAI API?"}]
)
  • Nessuna API key necessaria: è già configurata per te 🎉
Sistemi multimodali con l'API di OpenAI

Riepilogo...

# Estrai il contenuto dalla risposta
print(response.choices[0].message.content)
The OpenAI API is a cloud-based service provided by OpenAI that allows developers
to integrate advanced AI models into their applications.

$$

  • L’API di OpenAI va oltre il testo 🚀
Sistemi multimodali con l'API di OpenAI

Modelli audio di OpenAI

Funzionalità di speech-to-text:

  • Trascrivi audio
  • Traduci audio non in inglese
  • Supporta mp3, mp4, mpeg, mpga, m4a, wav e webm (limite 25 MB)

 

Casi d’uso:

  • Verbali di riunioni
  • Sottotitoli video

Un'icona con una registrazione audio e un blocco di testo.

  • Gestione chiamate dei clienti
Sistemi multimodali con l'API di OpenAI

Caricare file audio

 

Esempio: trascrivi meeting_recording.mp3

audio_file = open("meeting_recording.mp3", "rb")

$$

Se il file è in una cartella diversa

audio_file = open("path/to/file/meeting_recording.mp3", "rb")
Sistemi multimodali con l'API di OpenAI

Creare la trascrizione

  • Endpoint audio
audio_file= open("meeting_recording.mp3", "rb")

response = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print(response)
Transcription(text="Welcome everyone to the June product monthly. We'll get started in...)
1 https://platform.openai.com/docs/guides/speech-to-text
Sistemi multimodali con l'API di OpenAI

La trascrizione

print(response.text)
Welcome everyone to the June product monthly. We'll get started in just a minute.
Alright, let's get started. Today's agenda will start with a spotlight from Chris
on the new mobile user onboarding flow, then we'll review how we're tracking on
our quarterly targets, and finally, we'll finish with another spotlight from Katie
who will discuss the upcoming branding updates...
Sistemi multimodali con l'API di OpenAI

Trascrivere audio non in inglese

Un'icona con una registrazione audio e un blocco di testo.

Flusso di trascrizione:

  1. open() il file audio
  2. Invia una richiesta di trascrizione
  3. Estrai il testo
Sistemi multimodali con l'API di OpenAI

Creare traduzioni

audio_file = open("non_english_audio.m4a", "rb")


response = client.audio.translations.create(
model="whisper-1",
file=audio_file
)
print(response.text)
The search volume for keywords like A I has increased rapidly since the launch of
Cha GTP.
Sistemi multimodali con l'API di OpenAI

Prestazioni di trascrizione

 

  • Le prestazioni possono variare molto, in base a:
    • Qualità audio
    • Lingua dell’audio
    • Conoscenza del modello sull’argomento

Lingue diverse nel mondo.

Sistemi multimodali con l'API di OpenAI

Let's practice!

Sistemi multimodali con l'API di OpenAI

Preparing Video For Download...