Moderazione dei contenuti

Sistemi multimodali con l'API di OpenAI

James Chapman

Curriculum Manager, DataCamp

Moderazione

Identificare contenuti inappropriati

Tradizionalmente,

I moderatori segnalano i contenuti a mano
- ✖️ Richiede tempo
Keyword pattern matching
- ✖️ Manca di sfumature e comprensione del contesto

Icone di messaggi che raffigurano contenuti dannosi.

Categorie di violazione

Identifica violazioni di termini o uso
Distingui il tipo di violazione per categoria
- Violenza
- Hate speech

Icone di messaggi che raffigurano contenuti dannosi.

¹ https://openai.com/policies/usage-policies ² https://platform.openai.com/docs/guides/moderation/overview

Creare una richiesta di moderazione

from openai import OpenAI

client = OpenAI(api_key="ENTER API KEY")


response = client.moderations.create(

  input="I could kill for a hamburger."

)

Interpretare i risultati

categories
- indicatore true/false di violazione per categoria
category_scores
- Confidenza della violazione
flagged
- indicatore true/false di violazione

response.model_dump()

Output della risposta

Interpretare i punteggi di categoria

Estrazione di category_scores dalla risposta

Numeri più alti → maggiore certezza di violazione
I numeri ≠ probabilità

Interpretare i punteggi di categoria

category_scores con violenza evidenziata

Numeri più alti → maggiore certezza di violazione
I numeri ≠ probabilità

Considerazioni per implementare la moderazione

CategoryScores(harassment=2.775943e-05,
               harassment_threatening=1.3526056e-06,
               hate=2.733528e-07,
               hate_threatening=4.930576e-08,
               ...,
               violence=0.0500854030251503,
               ...)

Regola le soglie per ogni caso d’uso
Soglie più rigide → meno falsi negativi
Soglie più permissive → meno falsi positivi

Ayo berlatih!

Sistemi multimodali con l'API di OpenAI