Ses‑metin

OpenAI API ile Çok Modlu Sistemler

James Chapman

Curriculum Manager, DataCamp

Sıradaki...

$$

Ders hedefleri
  • OpenAI ses modelleri
  • Metin denetimi
  • Vaka çalışması: Müşteri destek sohbet botu

Ses modelleri, metin denetimi ve bir vaka çalışmasını gösteren görsel

OpenAI API ile Çok Modlu Sistemler

Özet...

from openai import OpenAI


# Create the OpenAI client client = OpenAI(api_key="<OPENAI_API_TOKEN>")
# Create a request to the Chat Completions endpoint response = client.chat.completions.create(
model="gpt-4o-mini", messages=[{"role": "user", "content": "What is the OpenAI API?"}]
)
  • API anahtarı gerekmez—sizin için ayarlandı 🎉
OpenAI API ile Çok Modlu Sistemler

Özet...

# Extract the content from the response
print(response.choices[0].message.content)
The OpenAI API is a cloud-based service provided by OpenAI that allows developers
to integrate advanced AI models into their applications.

$$

  • OpenAI API sadece metinden ibaret değildir 🚀
OpenAI API ile Çok Modlu Sistemler

OpenAI’nın ses modelleri

Ses‑metin özellikleri:

  • Sesi yazıya dökme
  • İngilizce olmayan sesi çevirme
  • mp3, mp4, mpeg, mpga, m4a, wav ve webm desteklenir (25 MB sınır)

 

Kullanım alanları:

  • Toplantı dökümleri
  • Video altyazıları

Bir ses kaydı ve metin bloğu simgesi.

  • Müşteri çağrılarını işleme
OpenAI API ile Çok Modlu Sistemler

Ses dosyalarını yükleme

 

Örnek: meeting_recording.mp3 dosyasını yazıya dökün

audio_file = open("meeting_recording.mp3", "rb")

$$

Dosya farklı bir dizinde ise

audio_file = open("path/to/file/meeting_recording.mp3", "rb")
OpenAI API ile Çok Modlu Sistemler

Yazıya döküm oluşturma

  • Ses uç noktası
audio_file= open("meeting_recording.mp3", "rb")

response = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print(response)
Transcription(text="Welcome everyone to the June product monthly. We'll get started in...)
1 https://platform.openai.com/docs/guides/speech-to-text
OpenAI API ile Çok Modlu Sistemler

Yazıya döküm

print(response.text)
Welcome everyone to the June product monthly. We'll get started in just a minute.
Alright, let's get started. Today's agenda will start with a spotlight from Chris
on the new mobile user onboarding flow, then we'll review how we're tracking on
our quarterly targets, and finally, we'll finish with another spotlight from Katie
who will discuss the upcoming branding updates...
OpenAI API ile Çok Modlu Sistemler

İngilizce olmayan sesi yazıya dökme

Bir ses kaydı ve metin bloğu simgesi.

Yazıya döküm iş akışı:

  1. open() ile ses dosyasını açın
  2. Yazıya döküm isteği gönderin
  3. Metni çıkarın
OpenAI API ile Çok Modlu Sistemler

Çeviri oluşturma

audio_file = open("non_english_audio.m4a", "rb")


response = client.audio.translations.create(
model="whisper-1",
file=audio_file
)
print(response.text)
The search volume for keywords like A I has increased rapidly since the launch of
Cha GTP.
OpenAI API ile Çok Modlu Sistemler

Yazıya döküm başarımı

 

  • Başarım şunlara göre çok değişebilir:
    • Ses kalitesi
    • Sesin dili
    • Modelin konu bilgisi

Dünya genelinde farklı diller.

OpenAI API ile Çok Modlu Sistemler

Haydi pratik yapalım!

OpenAI API ile Çok Modlu Sistemler

Preparing Video For Download...