Overfitting

Definition
Overfitting (deutsch: Überanpassung) bezeichnet ein Problem im maschinellen Lernen und in der statistischen Modellierung, bei dem ein Modell zu stark an die Trainingsdaten angepasst wird. Es „lernt“ dabei nicht nur die zugrunde liegenden Muster, sondern auch Zufälligkeiten, Fehler oder Ausnahmen in den Daten. Die Folge: Das Modell liefert bei neuen, unbekannten Daten ungenaue oder sogar falsche Vorhersagen.
Veranschaulichung
Overfitting lässt sich mit einem Schüler vergleichen, der den Lernstoff nicht wirklich versteht, sondern lediglich den Unterricht auswendig gelernt hat; inklusive aller Randbemerkungen und Fehler. Stellt man ihm eine neue Frage, die leicht vom Gelernten abweicht, kann er sie nicht korrekt beantworten, weil ihm das grundlegende Verständnis fehlt.
Technisches Beispiel
Ein Modell soll den Hauspreis basierend auf der Wohnfläche vorhersagen. Die Trainingsdaten umfassen folgende zehn Werte:
| Wohnfläche (m²) | Preis (EUR) |
|---|---|
| 50 | 150.000 |
| 60 | 180.000 |
| 70 | 210.000 |
| 80 | 240.000 |
| 90 | 270.000 |
| 100 | 300.000 |
| 110 | 330.000 |
| 120 | 360.000 |
| 130 | 390.000 |
| 140 | 420.000 |
Zwei Modelle könnten so aussehen:
Einfaches Modell (z. B. lineare Regression):
Das Modell erkennt die Regel „Preis = 3.000 × Wohnfläche“.
Gute Vorhersage auch bei neuen Werten, z. B. 150 m² = 450.000 EUR.
Komplexes Modell (z. B. Polynom 9. Grades):
Das Modell passt sich exakt an alle zehn Datenpunkte an; einschließlich kleinster Abweichungen.
Es entsteht eine unnatürlich geschwungene Kurve, die bei neuen Werten wie 125 m² unplausible Preise liefert (z. B. 500.000 EUR oder negative Beträge). Das Modell hat die Trainingsdaten „auswendig gelernt“, erkennt aber keine verallgemeinerbaren Zusammenhänge.
Maßnahmen gegen Overfitting
Overfitting ist ein verbreitetes, aber beherrschbares Problem. Zu den gängigen Gegenmaßnahmen zählen:
Mehr Daten sammeln
Eine größere Datenbasis hilft, echte Muster zu erkennen und zufällige Ausreißer zu relativieren.
Modellkomplexität reduzieren
Ein einfaches Modell ist oft besser geeignet, die zugrunde liegenden Zusammenhänge zu erfassen.
Early Stopping
Das Training wird gestoppt, sobald sich die Leistung auf Validierungsdaten nicht weiter verbessert.
Regularisierung
Fügt dem Trainingsprozess eine „Strafkomponente“ hinzu, um zu komplexe Modelle zu vermeiden.
Beispiele:
Cross-Validation
Die Daten werden mehrfach in Trainings- und Testmengen aufgeteilt. So lässt sich überprüfen, wie gut das Modell auf unterschiedliche Datensätze generalisiert.
Dropout (bei neuronalen Netzen)
Einzelne Neuronen werden während des Trainings zufällig deaktiviert, um die Abhängigkeit von bestimmten Mustern zu verringern.
Einsatz separater Testdaten
Ein abschließender Test auf völlig unbekannten Daten zeigt, ob das Modell auch außerhalb des Trainings zuverlässig arbeitet.
Overfitting bedeutet, dass ein Modell nicht nur lernt, was wichtig ist, sondern auch das, was zufällig ist. Ziel ist daher ein Modell, das die zugrunde liegenden Prinzipien verstanden hat; nicht eines, das nur die Antworten auswendig kennt.
Ihr Ansprechpartner

Torsten Klanitz
Produktmanager
Fon: +49 6151 8801 125

