Creare trascrizioni di chiamate clienti

Sistemi multimodali con l'API di OpenAI

James Chapman

Curriculum Manager, DataCamp

Introduzione al case study

Immagine di un chatbot

$$

  • AI Engineer in DataCamp
  • Gestisce messaggi vocali
  • Chatbot di assistenza vocale

$$

$$

Team di supporto clienti in DataCamp

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Immagine di un chatbot

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: trascrivi l'audio

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: rileva la lingua

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: traduci in inglese

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: genera una risposta

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: rispondi nella lingua originale

Sistemi multimodali con l'API di OpenAI

Introduzione al case study

Passo: moderazione

Sistemi multimodali con l'API di OpenAI

Piano del case study

$$

$$

  1. Trascrivi l'audio in testo
  2. Rileva la lingua
  3. Traduci in inglese
  4. Affina il testo

$$

Passo: traduci in inglese

Sistemi multimodali con l'API di OpenAI

Passo 1: trascrivi l'audio

from openai import OpenAI

client = OpenAI(api_key="ENTER YOUR KEY HERE")

# Open the mp3 file
audio_file = open("recording.mp3", "rb")

# Create a transcript
response = client.audio.transcriptions.create(
                  model="whisper-1", 
                  file=audio_file)
Sistemi multimodali con l'API di OpenAI

Passo 1: trascrivi l'audio

# Extract and print the transcript
transcript = response.text
print(transcript)

$$

Trascrizione in ucraino

Sistemi multimodali con l'API di OpenAI

Passo 2: rileva la lingua

response = client.chat.completions.create(
    model="gpt-4o-mini",
    max_completion_tokens=5,

messages=[{"role": "user", "content": f"""Identify the language of the following text and respond only with the country code (e.g., 'en', 'uk', 'fr'): {transcript}"""}])
# Extract detected language language = response.choices[0].message.content print(language)
uk
Sistemi multimodali con l'API di OpenAI

Passo 3: traduci in inglese

response = client.chat.completions.create(
    model="gpt-4o-mini",
    max_completion_tokens=300,
    messages=[
        {"role": "user", "content": f"""Translate this customer transcript
        from country code {language} to English: {transcript}"""}])

# Extract translated text
translated_text = response.choices[0].message.content
Sistemi multimodali con l'API di OpenAI

Passo 3: traduci in inglese

print(translated_text)

Testo tradotto - grezzo

Sistemi multimodali con l'API di OpenAI

Passo 3: traduci in inglese

print(translated_text)

Testo tradotto (evidenziato) - grezzo

Sistemi multimodali con l'API di OpenAI

Passo 4: affina il testo

response = client.chat.completions.create(
    model="gpt-4o-mini",
    max_completion_tokens=300,
    messages=[
    {"role": "user", 
     "content": f"""You are an AI assistant that corrects transcripts by fixing 
     misinterpretations, names, and terminology. Please refine the following
     transcript:\n\n{translated_text}"""}])

# Extract corrected text
corrected_text = response.choices[0].message.content
Sistemi multimodali con l'API di OpenAI

Passo 4: affina il testo

print(corrected_text)

Testo corretto (evidenziato)

Sistemi multimodali con l'API di OpenAI

Riepilogo

$$

  • Audio trascritto
  • Lingua rilevata e tradotta
  • Testo affinato

$$

  • Chiamata l'API di OpenAI quattro volte ⭐

Trascrizione in ucraino

Testo tradotto (evidenziato) - grezzo

Testo corretto (evidenziato)

Sistemi multimodali con l'API di OpenAI

È il momento di esercitarsi!

Sistemi multimodali con l'API di OpenAI

Preparing Video For Download...