Speciale onderwerpen in machine learning

Data Science voor het bedrijfsleven

Ramnath Vaidyanathan

VP of Product Research, DataCamp

Voorspellen van tijdreeksen

tijdreeks

  • Tijd is een feature
  • Houdt rekening met wekelijkse, maandelijkse of jaarlijkse trends
Data Science voor het bedrijfsleven

Seizoenspatronen

  • Wekelijks: Minder tv-kijkers op vrijdag
  • Maandelijks: Hogere uitgaven aan het einde van loonperiodes
  • Jaarlijks: Minder ijs in de winter

icecream.jpeg

Data Science voor het bedrijfsleven

Natural Language Processing

  • Dataset is tekst
    • Klantreviews
    • Tweets
    • Medische dossiers
    • E-mailonderwerpen
  • Mogelijke toepassingen
    • Sentiment classificeren
    • Medische dossiers clusteren

klantreviews.png

Data Science voor het bedrijfsleven

Woordtellingen

Zin Texans Giants football great
The Texans are a great football team. 1 0 1 1
The Giants are a great football team. 0 1 1 1
Data Science voor het bedrijfsleven

Problemen met woordtellingen: ontkenning

Zin Texans Giants football great not
The Giants are a great football team. 0 1 1 1 0
The Giants are not a great football team. 0 1 1 1 1
Data Science voor het bedrijfsleven

Woordtellingen en synoniemen

  • Woordtellingen houden geen rekening met synoniemen
  • Voorbeeld: "blue"
    • "sky-blue"
    • "aqua"
    • "cerulean"
  • Willen groeperen als één feature

blue

Data Science voor het bedrijfsleven

Woordembeddings

  • Maak features die vergelijkbare woorden groeperen
  • Features hebben een wiskundige betekenis:
king - man + woman = queen
Data Science voor het bedrijfsleven

Herhaling

  • Voorspellen van tijdreeksen
    • Tijd is een feature
    • Seizoenspatronen
  • Natural Language Processing (NLP)
    • Tekst als input
    • Woordtellingen
    • Woordembeddings
Data Science voor het bedrijfsleven

Laten we oefenen!

Data Science voor het bedrijfsleven

Preparing Video For Download...