Leesbaarheidstesten

Feature Engineering voor NLP in Python

Rounak Banik

Data Scientist

Overzicht van leesbaarheidstesten

  • Bepaal de leesbaarheid van een Engelse tekst
  • Schaal van basisschool tot universitair afgestudeerd
  • Formule op basis van woord-, lettergreep- en zinstelling
  • Gebruikt bij fake news- en reviewspam-detectie
Feature Engineering voor NLP in Python

Voorbeelden van leesbaarheidstesten

  • Flesch Reading Ease
  • Gunning fog-index
  • Simple Measure of Gobbledygook (SMOG)
  • Dale-Chall-score
Feature Engineering voor NLP in Python

Voorbeelden van leesbaarheidstesten

  • Flesch Reading Ease
  • Gunning fog-index
  • Simple Measure of Gobbledygook (SMOG)
  • Dale-Chall-score
Feature Engineering voor NLP in Python

Flesch Reading Ease

  • Een van de oudste en meest gebruikte testen
  • Hoe langer de gemiddelde zin, hoe lastiger te lezen
    • "This is a short sentence."
    • "This is longer sentence with more words and it is harder to follow than the first sentence."
  • Hoe meer lettergrepen per woord, hoe lastiger te lezen
    • "I live in my home."
    • "I reside in my domicile."
  • Hoe hoger de score, hoe beter de leesbaarheid
Feature Engineering voor NLP in Python

Interpretatie van de Flesch Reading Ease-score

Reading Ease-score Leerjaar
90-100 5
80-90 6
70-80 7
60-70 8-9
50-60 10-12
30-50 Universiteit
0-30 Afgestudeerde
Feature Engineering voor NLP in Python

Gunning fog-index

  • Ontwikkeld in 1954
  • Hangt ook af van de gemiddelde zinslengte
  • Hoe groter het aandeel complexe woorden, hoe lastiger te lezen
  • Hoe hoger de index, hoe lager de leesbaarheid
Feature Engineering voor NLP in Python

Interpretatie van de Gunning fog-index

Fog-index Leerjaar
17 Afgestudeerde
16 Laatstejaars universiteit
15 Derdejaars universiteit
14 Tweedejaars universiteit
13 Eerstejaars universiteit
12 Eindexamen middelbaar
11 Voorlaatste jaar middelbaar
Fog-index Leerjaar
10 Tweede jaar middelbaar
9 Eerste jaar middelbaar
8 Brugklas/achtste groep
7 Groep 7
6 Groep 6
Feature Engineering voor NLP in Python

De readability-bibliotheek

# Download nltk punkt module
import nltk
nltk.download('punkt_tab')
# Import the Readability class
from readability import Readability

# Create a Readability Object readability_scores = Readability(text)
# Generate scores gf = readability_scores.gunning_fog() print(gf.score())
16.26
Feature Engineering voor NLP in Python

Laten we oefenen!

Feature Engineering voor NLP in Python

Preparing Video For Download...