KNN Algoritme & Accuracy
Wat is KNN?
K-Nearest Neighbors (KNN) is een classificatie-algoritme dat een voorspelling maakt voor een nieuw datapunt op basis van de k dichtstbijzijnde datapunten.
K-Nearest Neighbors: het nieuwe punt (?) wordt geclassificeerd op basis van de K dichtstbijzijnde buren
Voorbeeld: Classificeer een nieuwe hond als Labradoodle of Dalmatiër op basis van snelheid en lengte.
Euclidische Afstand
Om de afstand tussen datapunten te berekenen gebruiken we de Euclidische afstand — de "rechte lijn" afstand in een n-dimensionale ruimte.
Manhattan distance berekent afstand langs de assen (als door een stratenraster).
Accuracy
Definitie: Het percentage correct voorspelde datapunten.
Wanneer misleidend? Bij een ongebalanceerde dataset: Als 95% tot één klasse behoort, kan een model dat altijd die klasse voorspelt 95% accuracy halen. Voorbeelden: fraudebestrijding, zeldzame ziekten.
Confusion Matrix
Voorbeeld: Spam Detection
Predicted
Spam Non-Spam
Actual Spam 0 400
Non-Spam 0 9600
Accuracy = 9600/10000 = 96%
Maar: geen enkele spam correct gedetecteerd!
Confusion Matrix: 96% accuracy maar het model vangt geen enkele spam op