Les A Week 4

KNN Algoritme & Accuracy

Wat is KNN?

K-Nearest Neighbors (KNN) is een classificatie-algoritme dat een voorspelling maakt voor een nieuw datapunt op basis van de k dichtstbijzijnde datapunten.

K-Nearest Neighbors: het nieuwe punt (?) wordt geclassificeerd op basis van de K dichtstbijzijnde buren

Voorbeeld: Classificeer een nieuwe hond als Labradoodle of Dalmatiër op basis van snelheid en lengte.

Euclidische Afstand

Om de afstand tussen datapunten te berekenen gebruiken we de Euclidische afstand — de "rechte lijn" afstand in een n-dimensionale ruimte.

Manhattan distance berekent afstand langs de assen (als door een stratenraster).

Accuracy

Definitie: Het percentage correct voorspelde datapunten.

Wanneer misleidend? Bij een ongebalanceerde dataset: Als 95% tot één klasse behoort, kan een model dat altijd die klasse voorspelt 95% accuracy halen. Voorbeelden: fraudebestrijding, zeldzame ziekten.

Confusion Matrix

Voorbeeld: Spam Detection

                  Predicted
                  Spam    Non-Spam
Actual Spam       0        400
       Non-Spam   0       9600

Accuracy = 9600/10000 = 96%
Maar: geen enkele spam correct gedetecteerd!

Confusion Matrix: 96% accuracy maar het model vangt geen enkele spam op