Da voce a testo

Sistemi multimodali con l'API di OpenAI

James Chapman

Curriculum Manager, DataCamp

In arrivo...

Obiettivi del corso

Modelli audio di OpenAI
Moderazione del testo
Caso d’uso: chatbot di supporto clienti

Un’immagine con modelli audio, moderazione del testo e un caso di studio

Riepilogo...

from openai import OpenAI


# Crea il client OpenAI
client = OpenAI(api_key="<OPENAI_API_TOKEN>")


# Crea una richiesta al Chat Completions endpoint
response = client.chat.completions.create(

    model="gpt-4o-mini",
    messages=[{"role": "user", 
               "content": "What is the OpenAI API?"}]

)

Nessuna API key necessaria: è già configurata per te 🎉

Riepilogo...

# Estrai il contenuto dalla risposta
print(response.choices[0].message.content)

The OpenAI API is a cloud-based service provided by OpenAI that allows developers
to integrate advanced AI models into their applications.

L’API di OpenAI va oltre il testo 🚀

Modelli audio di OpenAI

Funzionalità di speech-to-text:

Trascrivi audio
Traduci audio non in inglese
Supporta mp3, mp4, mpeg, mpga, m4a, wav e webm (limite 25 MB)

Casi d’uso:

Verbali di riunioni
Sottotitoli video

Un'icona con una registrazione audio e un blocco di testo.

Gestione chiamate dei clienti

Caricare file audio

Esempio: trascrivi meeting_recording.mp3

audio_file = open("meeting_recording.mp3", "rb")

Se il file è in una cartella diversa

audio_file = open("path/to/file/meeting_recording.mp3", "rb")

Creare la trascrizione

Endpoint audio

audio_file= open("meeting_recording.mp3", "rb")


response = client.audio.transcriptions.create(

    model="whisper-1",

    file=audio_file

)


print(response)

Transcription(text="Welcome everyone to the June product monthly. We'll get started in...)

¹ https://platform.openai.com/docs/guides/speech-to-text

La trascrizione

print(response.text)

Welcome everyone to the June product monthly. We'll get started in just a minute.
Alright, let's get started. Today's agenda will start with a spotlight from Chris
on the new mobile user onboarding flow, then we'll review how we're tracking on
our quarterly targets, and finally, we'll finish with another spotlight from Katie
who will discuss the upcoming branding updates...

Trascrivere audio non in inglese

Un'icona con una registrazione audio e un blocco di testo.

Flusso di trascrizione:

open() il file audio
Invia una richiesta di trascrizione
Estrai il testo

Creare traduzioni

audio_file = open("non_english_audio.m4a", "rb")


response = client.audio.translations.create(

    model="whisper-1",

    file=audio_file

)


print(response.text)

The search volume for keywords like A I has increased rapidly since the launch of
Cha GTP.

Prestazioni di trascrizione

Le prestazioni possono variare molto, in base a:
- Qualità audio
- Lingua dell’audio
- Conoscenza del modello sull’argomento

Lingue diverse nel mondo.

Let's practice!

Sistemi multimodali con l'API di OpenAI