Les A Week 2

OOP & Data Preprocessing

Waarom OOP?

  • Herbruikbaar: Vermindert repetitieve code
  • Structuur: Geeft je code een duidelijke organisatie
  • Representatie: Representeert entiteiten (dingen) in de echte wereld

Boek: Problem Solving with Algorithms and Data Structures using Python (Brad Miller & David Ranum)

Voorbeeld: Hond class

Python
class Hond:
    def __init__(self, naam, hoogte, gewicht):
        self.naam = naam
        self.hoogte = hoogte
        self.gewicht = gewicht
        self.energie_level = 100

    def ren(self):
        if self.energie_level >= 20:
            self.energie_level -= 20
            return f"{self.naam} rent vrolijk! Energie: {self.energie_level}"
        return f"{self.naam} is te moe om te rennen."

hond_bella = Hond("Bella", 70, 28)
hond_kees = Hond("Kees", 40, 25)

Data Pre-processing met OOP

Bij het verwerken van missende waarden doorloop je typisch deze stappen:

Ruwe Data NaN, None, ??? Dubbele rijen Verkeerde types Outliers 😵 Onbruikbaar class DataCleaner Attributen: self.data self.cleaned Methoden: remove_nulls() remove_duplicates() fix_types() remove_outliers() Schone Data ✓ Geen nulls ✓ Unieke rijen ✓ Juiste types 😊 Analyseerbaar
OOP in Data Science: een DataCleaner klasse verwerkt ruwe data naar schone data
  1. Missende waarden analyseren
  2. Missende waarden visualiseren
  3. Missende waarden verwijderen
  4. Missende waarden invullen

Voordelen van OOP bij Data Pre-processing

1. Bundeling van Data en Methoden: Maak een DataCleaner klasse met methoden als .analyseer_missende_waarden(), .visualiseer_missende_waarden(), .verwijder_missende_waarden(), .vul_missende_waarden(methode='mean'). Het DataFrame is opgeslagen in de constructor.

2. Herbruikbaarheid: Een goede klasse kun je in elk volgend project importeren en direct gebruiken op nieuwe datasets.