Proteggere gli LLM

Introduzione agli LLM in Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Sfide degli LLM

Supporto multilingue: diversità linguistica, disponibilità di risorse, adattabilità

Supporto multilingue

Dilemma LLM open vs closed: collaborazione vs uso responsabile

LLM open vs closed

Scalabilità del modello: capacità di rappresentazione, domanda computazionale, requisiti di training

Scalabilità LLM

Bias: dati di training distorti, comprensione e generazione linguistica non eque

Bias negli LLM

1 Icona di Freepik (freepik.com)
Introduzione agli LLM in Python

Veridicità e allucinazioni

  • Allucinazioni: il testo generato contiene informazioni false o senza senso come se fossero corrette

Allucinazioni negli LLM

Strategie per ridurre le allucinazioni degli LLM:

  1. Esporre a dati di training vari e rappresentativi
  2. Audit di bias sugli output + tecniche di mitigazione
  3. Fine-tuning per casi d'uso specifici in ambiti sensibili
  4. Prompt engineering: progettare e affinare con cura i prompt
Introduzione agli LLM in Python

Veridicità e allucinazioni

  • Allucinazioni: il testo generato contiene informazioni false o senza senso come se fossero corrette

Allucinazioni negli LLM

Introduzione agli LLM in Python

Metriche per analizzare il bias degli LLM: tossicità

  • Tossicità: misura la tossicità del testo con un classificatore di hate speech pre-addestrato
  • aggregation="maximum" restituisce il punteggio di tossicità massimo tra gli input
  • aggregation="ratio" restituisce la % di predizioni con tossicità > 0.5
toxicity_metric = load("toxicity")
texts_1 = ["Everyone in the team adores him", "He is a true genius, pure talent"]
texts_2 = ["Nobody in the team likes him", "He is a useless 'good-for-nothing'"]

toxicity_results_1 = toxicity_metric.compute(predictions=texts_1,aggregation="maximum") toxicity_results_2 = toxicity_metric.compute(predictions=texts_2, aggregation="maximum") print("Toxicity Sentences 1:", toxicity_results_1) print("Toxicity Sentences 2:", toxicity_results_2)
Toxicity Sentences 1: {'max_toxicity': 0.0001386617950629443}
Toxicity Sentences 2: {'max_toxicity': 0.012273495085537434}
Introduzione agli LLM in Python

Metriche per analizzare il bias degli LLM: regard

  • Regard: polarità linguistica e percezione distorta verso alcuni gruppi demografici

  • Valuta i punteggi di regard su output LLM associati a due gruppi separatamente

regard = load("regard")

group1 = ['abc are described as loyal employees',
          'abc are ambitious in their career expectations']
group2 = ['abc are known for causing lots of team conflicts',
          'abc are verbally violent']


polarity_results_1 = regard.compute(data=group1) polarity_results_2 = regard.compute(data=group2)
Introduzione agli LLM in Python

Metriche per analizzare il bias degli LLM: regard

for result in polarity_results_1['regard']:
  print(result)
[{'label': 'positive', 'score': 0.9098386764526367}, 
 {'label': 'neutral', 'score': 0.059396952390670776}, 
 {'label': 'other', 'score': 0.026468101888895035}, 
 {'label': 'negative', 'score': 0.004296252969652414}]
[{'label': 'positive', 'score': 0.7809812426567078}, 
 {'label': 'neutral', 'score': 0.18085983395576477}, 
 {'label': 'other', 'score': 0.030492952093482018}, 
 {'label': 'negative', 'score': 0.007666013203561306}]
for result in polarity_results_2['regard']:
  print(result)
[{'label': 'negative', 'score': 0.9658734202384949}, 
 {'label': 'other', 'score': 0.021555885672569275}, 
 {'label': 'neutral', 'score': 0.012026479467749596},
 {'label': 'positive', 'score': 0.0005441228277049959}]
[{'label': 'negative', 'score': 0.9774736166000366}, 
 {'label': 'other', 'score': 0.012994581833481789},  
 {'label': 'neutral', 'score': 0.008945506066083908}, 
 {'label': 'positive', 'score': 0.0005862844991497695}]
Introduzione agli LLM in Python

Passiamo alla pratica !

Introduzione agli LLM in Python

Preparing Video For Download...