Hersampelen bij weinig data

Geavanceerde kansrekening: Onzekerheid in data

Maarten Van den Broeck

Senior Content Developer at DataCamp

Wat is hersampelen?

  • Hoeveel knikkers per kleur?
  • Schat zonder te tellen
  • Oplossing: neem herhaalde samples en noteer kleuren

Een pot vol knikkers

Geavanceerde kansrekening: Onzekerheid in data

Hersampeltechnieken

  • Bootstrapping
  • Kruisvalidering
  • Synthetisch sampelen
Geavanceerde kansrekening: Onzekerheid in data

Bootstrapping

Illustratie van bootstrapping

Geavanceerde kansrekening: Onzekerheid in data

Kruisvalidering

Illustratie van kruisvalidatie

Geavanceerde kansrekening: Onzekerheid in data

Synthetisch hersampelen

Illustratie van synthetisch hersampelen

Geavanceerde kansrekening: Onzekerheid in data

Voorbeeld: fraudedetectie

  • Frauduleuze transacties zijn zeldzaam
    • Modellen voorspellen alles als veilig
  • Genereer synthetische fraudegevallen
    • Model leert fraude­patronen

Persoon gebruikt een kaart en een laptop

Geavanceerde kansrekening: Onzekerheid in data

Voorbeeld: fraudedetectie

  • Beginsituatie:

    • 1.000.000 transacties per maand
    • 1.000 of 0,1% als fraude gemarkeerd
  • Synthetisch sampelen:

    • Verhoog fraudemonsters naar 10.000 of 1%

Persoon gebruikt een kaart en een laptop

Geavanceerde kansrekening: Onzekerheid in data

Laten we oefenen!

Geavanceerde kansrekening: Onzekerheid in data

Preparing Video For Download...