Skip to main content

Das Know-How.

Seminare, Schulungen, Ausbildungen und Trainings

Overfitting


Overfitting

Definition

Overfitting (deutsch: Überanpassung) bezeichnet ein Problem im maschinellen Lernen und in der statistischen Modellierung, bei dem ein Modell zu stark an die Trainingsdaten angepasst wird. Es „lernt“ dabei nicht nur die zugrunde liegenden Muster, sondern auch Zufälligkeiten, Fehler oder Ausnahmen in den Daten. Die Folge: Das Modell liefert bei neuen, unbekannten Daten ungenaue oder sogar falsche Vorhersagen.

Veranschaulichung

Overfitting lässt sich mit einem Schüler vergleichen, der den Lernstoff nicht wirklich versteht, sondern lediglich den Unterricht auswendig gelernt hat; inklusive aller Randbemerkungen und Fehler. Stellt man ihm eine neue Frage, die leicht vom Gelernten abweicht, kann er sie nicht korrekt beantworten, weil ihm das grundlegende Verständnis fehlt.

Technisches Beispiel

Ein Modell soll den Hauspreis basierend auf der Wohnfläche vorhersagen. Die Trainingsdaten umfassen folgende zehn Werte:

Wohnfläche (m²) Preis (EUR)
50 150.000
60 180.000
70 210.000
80 240.000
90 270.000
100 300.000
110 330.000
120 360.000
130 390.000
140 420.000


Zwei Modelle könnten so aussehen:

Einfaches Modell (z. B. lineare Regression):
Das Modell erkennt die Regel „Preis = 3.000 × Wohnfläche“.

Gute Vorhersage auch bei neuen Werten, z. B. 150 m² = 450.000 EUR.

Komplexes Modell (z. B. Polynom 9. Grades):
Das Modell passt sich exakt an alle zehn Datenpunkte an; einschließlich kleinster Abweichungen.

Es entsteht eine unnatürlich geschwungene Kurve, die bei neuen Werten wie 125 m² unplausible Preise liefert (z. B. 500.000 EUR oder negative Beträge). Das Modell hat die Trainingsdaten „auswendig gelernt“, erkennt aber keine verallgemeinerbaren Zusammenhänge.

Maßnahmen gegen Overfitting

Overfitting ist ein verbreitetes, aber beherrschbares Problem. Zu den gängigen Gegenmaßnahmen zählen:

Mehr Daten sammeln
Eine größere Datenbasis hilft, echte Muster zu erkennen und zufällige Ausreißer zu relativieren.

Modellkomplexität reduzieren
Ein einfaches Modell ist oft besser geeignet, die zugrunde liegenden Zusammenhänge zu erfassen.

Early Stopping
Das Training wird gestoppt, sobald sich die Leistung auf Validierungsdaten nicht weiter verbessert.

Regularisierung
Fügt dem Trainingsprozess eine „Strafkomponente“ hinzu, um zu komplexe Modelle zu vermeiden.
Beispiele:

Cross-Validation
Die Daten werden mehrfach in Trainings- und Testmengen aufgeteilt. So lässt sich überprüfen, wie gut das Modell auf unterschiedliche Datensätze generalisiert.

Dropout (bei neuronalen Netzen)
Einzelne Neuronen werden während des Trainings zufällig deaktiviert, um die Abhängigkeit von bestimmten Mustern zu verringern.

Einsatz separater Testdaten
Ein abschließender Test auf völlig unbekannten Daten zeigt, ob das Modell auch außerhalb des Trainings zuverlässig arbeitet.


Overfitting bedeutet, dass ein Modell nicht nur lernt, was wichtig ist, sondern auch das, was zufällig ist. Ziel ist daher ein Modell, das die zugrunde liegenden Prinzipien verstanden hat; nicht eines, das nur die Antworten auswendig kennt.

KI Seminare