Supervised Learning
Supervised Learning is een machine learning benadering waarbij je gebruikmaakt van gelabelde gegevens om voorspellingen te doen. Gelabelde gegevens duiden op een dataset die zowel de kenmerken als de gewenste uitkomsten van het te voorspellen fenomeen bevat. De eerste algoritmen voor Supervised Learning werden ontwikkeld in de jaren '50 van de 20e eeuw. De resulterende modellen werden voornamelijk ingezet voor patroonherkenning in gegevens. Tot op heden vormt dit concept nog steeds de basis voor een aanzienlijk deel van de activiteiten die datawetenschappers uitvoeren met gegevens. Supervised Learning-algoritmen zijn over het algemeen eenvoudig en daardoor gemakkelijk toe te passen. Deze eenvoud heeft echter ook een keerzijde, omdat ze over het algemeen minder nauwkeurig zijn in vergelijking met complexere technieken zoals neurale netwerken of ensemble-methoden. Toch is dit niet per se een nadeel. Binnen Supervised Learning bestaan er 2 subgroepen:
- Regressie
- Met regressie modellen kan een waarde, een getal, voorspeld worden. Denk hierbij bijvoorbeeld aan het voorspellen van:
- Huizenprijzen
- Aandelenkoersen
- Verkoopvolumes
- Productietijden
- Bekende regressie algoritmes:
- Linear Regression
- Polymer Regression
- Classificatie
- Met classificatie modellen kan een categorie, een groep, voorspeld worden. Hierbij voorspel je ofwel het kans van de groep, of de label op de groep. Classificatiemodellen worden in de praktijk gebruikt bij bijvoorbeeld:
- Fraudedetectie
- Handschriftherkenning
- Taalherkenning
- Spamfilters
- Bekende classificatie algoritmes:
- K-Nearest Neighbour
- Logistic regression
- Decision tree
- Naive Bayes
- Support Vector Machine