Ricampionamento con pochi dati

Probabilità avanzata: l'incertezza nei dati

Maarten Van den Broeck

Senior Content Developer at DataCamp

Cos'è il ricampionamento?

  • Quante biglie per colore?
  • Stima senza contare
  • Soluzione: campiona più volte e registra i colori

Un barattolo pieno di biglie

Probabilità avanzata: l'incertezza nei dati

Tecniche di ricampionamento

  • Bootstrapping
  • Cross-validation
  • Campionamento sintetico
Probabilità avanzata: l'incertezza nei dati

Bootstrapping

Illustrazione del bootstrapping

Probabilità avanzata: l'incertezza nei dati

Cross-validation

Illustrazione della cross-validation

Probabilità avanzata: l'incertezza nei dati

Ricampionamento sintetico

Illustrazione del ricampionamento sintetico

Probabilità avanzata: l'incertezza nei dati

Esempio: rilevamento frodi

  • Le transazioni fraudolente sono rare
    • I modelli le prevedono tutte come sicure
  • Genera casi di frode sintetici
    • Il modello impara i pattern di frode

Persona che usa una carta e un laptop

Probabilità avanzata: l'incertezza nei dati

Esempio: rilevamento frodi

  • Situazione iniziale:

    • 1.000.000 transazioni/mese
    • 1.000 o 0,1% classificate come fraudolente
  • Campionamento sintetico:

    • Aumenta i casi fraudolenti a 10.000 o 1%

Persona che usa una carta e un laptop

Probabilità avanzata: l'incertezza nei dati

Passiamo alla pratica !

Probabilità avanzata: l'incertezza nei dati

Preparing Video For Download...