Supervised & Unsupervised

Supervised Learning

Supervised Learning is een machine learning benadering waarbij je gebruikmaakt van gelabelde gegevens om voorspellingen te doen. Gelabelde gegevens duiden op een dataset die zowel de kenmerken als de gewenste uitkomsten van het te voorspellen fenomeen bevat. De eerste algoritmen voor Supervised Learning werden ontwikkeld in de jaren '50 van de 20e eeuw. De resulterende modellen werden voornamelijk ingezet voor patroonherkenning in gegevens. Tot op heden vormt dit concept nog steeds de basis voor een aanzienlijk deel van de activiteiten die datawetenschappers uitvoeren met gegevens. Supervised Learning-algoritmen zijn over het algemeen eenvoudig en daardoor gemakkelijk toe te passen. Deze eenvoud heeft echter ook een keerzijde, omdat ze over het algemeen minder nauwkeurig zijn in vergelijking met complexere technieken zoals neurale netwerken of ensemble-methoden. Toch is dit niet per se een nadeel. Binnen Supervised Learning bestaan er 2 subgroepen:

Regressie

Met regressie modellen kan een waarde, een getal, voorspeld worden. Denk hierbij bijvoorbeeld aan het voorspellen van:

Huizenprijzen
Aandelenkoersen
Verkoopvolumes
Productietijden

Bekende regressie algoritmes:

Linear Regression
Polymer Regression

Classificatie

Met classificatie modellen kan een categorie, een groep, voorspeld worden. Hierbij voorspel je ofwel het kans van de groep, of de label op de groep. Classificatiemodellen worden in de praktijk gebruikt bij bijvoorbeeld:

Fraudedetectie
Handschriftherkenning
Taalherkenning
Spamfilters

Bekende classificatie algoritmes:

K-Nearest Neighbour
Logistic regression
Decision tree
Naive Bayes
Support Vector Machine

Unsupervised Learning

Unsupervised learning is een techniek die machines in staat stelt om zowel concrete als abstracte objecten te classificeren zonder voorafgaande informatie over deze objecten. De toepassingen van unsupervised learning zijn divers, variërend van het analyseren van klantenaankopen en het identificeren van gedragspatronen bij bacteriën tot het detecteren van aanvallen door hackers. Het idee achter unsupervised learning is om machines bloot te stellen aan grote en diverse datasets, zodat ze zelf patronen en inzichten kunnen afleiden. Het is echter noodzakelijk om de machines aanvankelijk te programmeren om te leren van deze data.

Voorbeeld Unsupervised Learning:
Nadat je enkele dagen online hebt gewinkeld, begin je advertenties te ontvangen voor schoenen die niet alleen bij je persoonlijke smaak passen, maar ook nog eens in de juiste maat beschikbaar zijn. Dit gebeurt op basis van je winkelgedrag, waarbij een algoritme je in een specifieke categorie plaatst. De advertenties die je vervolgens ziet, zijn afgestemd op deze categorie. Opmerkelijk is dat er vooraf geen handmatige labels zijn toegepast om te bepalen welke personen welke schoenen leuk vinden. Het algoritme analyseert je data en ontdekt zelf patronen in je winkelgedrag en smaakvoorkeuren. Aan de hand van deze patronen bepaalt de computer dat je behoort tot de groep mensen die interesse hebben in dit specifieke schoenstijl.