Les A Week 4

KNN Algoritme & Accuracy

Wat is KNN?

K-Nearest Neighbors (KNN) is een classificatie-algoritme dat een voorspelling maakt voor een nieuw datapunt op basis van de k dichtstbijzijnde datapunten.

Feature 1 Feature 2 ? K=3 Klasse A Klasse B Nieuw punt
K-Nearest Neighbors: het nieuwe punt (?) wordt geclassificeerd op basis van de K dichtstbijzijnde buren

Voorbeeld: Classificeer een nieuwe hond als Labradoodle of Dalmatiër op basis van snelheid en lengte.

Euclidische Afstand

Om de afstand tussen datapunten te berekenen gebruiken we de Euclidische afstand — de "rechte lijn" afstand in een n-dimensionale ruimte.

Manhattan distance berekent afstand langs de assen (als door een stratenraster).

Accuracy

Definitie: Het percentage correct voorspelde datapunten.

Wanneer misleidend? Bij een ongebalanceerde dataset: Als 95% tot één klasse behoort, kan een model dat altijd die klasse voorspelt 95% accuracy halen. Voorbeelden: fraudebestrijding, zeldzame ziekten.

Confusion Matrix

Voorbeeld: Spam Detection
                  Predicted
                  Spam    Non-Spam
Actual Spam       0        400
       Non-Spam   0       9600

Accuracy = 9600/10000 = 96%
Maar: geen enkele spam correct gedetecteerd!
Confusion Matrix — Spam Detectie Voorspeld Geen Spam Spam Werkelijk Geen Spam Spam 960 True Negative 0 False Positive 40 False Negative 0 True Positive Accuracy = 96% maar 0 spam gedetecteerd! Accuracy kan misleidend zijn bij ongebalanceerde data
Confusion Matrix: 96% accuracy maar het model vangt geen enkele spam op