15 Regression
15.1 Was ist Regression?
Regression bezeichnet den Prozess, bei dem ein Modell lernt, einen kontinuierlichen numerischen Wert (Zielvariable) vorherzusagen, basierend auf den Eingabemerkmalen. Im Kontext neuronaler Netzwerke wird dies durch die direkte Ausgabe eines reellen Zahlenwerts oder mehrerer Werte erreicht.
Beispiele
- Vorhersage des Hauspreises basierend auf Größe, Lage, Baujahr
- Prognose des Stromverbrauchs morgen
- Vorhersage der Temperatur in 3 Stunden
- Schätzung des medizinischen Risikoscores (z. B. 0–100)
15.2 Arten der Regression
15.2.1 Einfache univariate Regression
Vorhersage einer kontinuierlichen Zielgröße → am häufigsten
Ausgabeschicht: 1 Neuron ohne Aktivierungsfunktion (oder lineare Aktivierung = Identitätsfunktion)
15.2.2 Multivariate Regression
Vorhersage mehrerer kontinuierlicher Zielgrößen gleichzeitig
(Beispiel: Vorhersage von [Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit])
Ausgabeschicht: k Neuronen (k = Anzahl der Zielvariablen), meist ebenfalls ohne nicht-lineare Aktivierung
15.2.3 Andere Spezialfälle
- Poisson-Regression → Zählvariablen (0,1,2,3,…), meist mit Log-Link
- Quantile-Regression → Vorhersage bestimmter Perzentile (z. B. Median, 90%-Quantil)
- Probabilistische Regression → Vorhersage einer Verteilung (z. B. Mittelwert + Varianz)
15.3 Ausgabeschicht und Aktivierungsfunktionen
| Aufgabe | Empfohlene Aktivierung | Typische Wertebereich der Ausgabe | Kommentar |
|---|---|---|---|
| Standard-Regression (unbeschränkt) | Keine / Linear | \((-∞, +∞)\) | Am häufigsten verwendet |
| Positive Werte (z. B. Preis, Zeit) | ReLU / Softplus / Exponential | \([0, +∞)\) | Softplus \(= \log(1 + e^x)\) |
| Werte im Intervall \([0,1]\) | Sigmoid | \((0,1)\) | z. B. Anteil, Wahrscheinlichkeit |
| Werte im Intervall \([-1,1]\) | Tanh | \((-1,1)\) | selten bei Regression |
| Mehrere unabhängige Outputs | Keine (pro Kopf) | \((-∞, +∞)\) pro Ausgabe | Multivariate Regression |
Bei neuronalen Netzen lässt man die letzte Schicht meist ohne nicht-lineare Aktivierung (linear), da die beschränkenden Funktionen (Sigmoid, ReLU etc.) den Wertebereich künstlich einschränken und oft nicht gewünscht sind.
15.4 Eingaben
Die gleichen Vorverarbeitungsschritte wie bei der Klassifikation sind entscheidend – oft sogar noch wichtiger, da Regression sehr empfindlich auf Skalierung reagiert.
15.4.1 Numerische Merkmale
- Standardisierung (Z-Score) meist die beste Wahl
→ Gradientenverhalten wird stabiler, Lernrate kann höher gewählt werden - Min-Max-Skalierung nur dann sinnvoll, wenn man weiß, dass die Werte wirklich in einem festen Bereich bleiben
- Robust-Scaler (Median + IQR) bei starken Ausreißern
15.4.2 Kategorische Merkmale (Nominal)
- One-Hot-Encoding – Standard
- Embeddings – sehr empfehlenswert bei vielen Kategorien (z. B. > 20–30) oder bei hoher Kardinalität (Postleitzahlen, Produkt-IDs, …)
15.4.3 Ordinale Merkmale
- Ordinal Encoding (0,1,2,…) möglich – aber Vorsicht (gleiches Problem wie bei Klassifikation)
- Embeddings meist die bessere, flexiblere Wahl
15.5 Datenaufbereitung
15.5.1 Fehlende Werte
Gleiche Strategien wie bei Klassifikation, aber mit Nuancen: - Mittelwert-Imputation → sehr häufig (schnell & einfach) - Median-Imputation → robuster bei Ausreißern - Modellbasierte Imputation (kNN, MICE, …) → oft lohnenswert bei Regression - Wichtig: Bei der Zielvariable (y) Fehlwerte fast immer entfernen!
15.5.2 Ausreißer
Ausreißer wirken sich bei Regression sehr stark aus (quadratischer Fehler!)
- Winsorisieren / Clipping (95%-/5%-Perzentil) – sehr häufig
- Log-Transformation der Zielvariable (bei rechtsschiefer Verteilung: Preis, Zeit, Umsatz …)
- Huber-Loss oder Quantile-Loss statt MSE (robuster gegenüber Ausreißern)
15.5.3 Transformation der Zielvariable
Häufig sehr wirkungsvoll: - \(\log(y)\) oder \(\log(1+y)\) → bei stark rechtsschiefer Verteilung - \(\sqrt{y}\) → mildere Kompression - Box-Cox / Yeo-Johnson → datengetriebene Transformation
15.6 Verlustfunktionen (Loss Functions)
| Aufgabe | Empfohlene Verlustfunktion | Robuste gegenüber Ausreißern? | Typische Anwendung |
|---|---|---|---|
| Standard Regression | Mean Squared Error (MSE) | Nein | Allgemein, wenn keine extremen Ausreißer |
| Regression mit Ausreißern | Mean Absolute Error (MAE) | Ja | Median-ähnliches Verhalten |
| Kompromiss MSE ↔︎ MAE | Huber Loss / Smooth L1 | Mittel | Sehr beliebt in der Praxis |
| Quantile Regression | Quantile Loss (Pinball Loss) | Ja | Vorhersage von Perzentilen |
| Sehr starke Ausreißer | Log-Cosh Loss | Sehr gut | Alternative zu Huber |
| Zählvariablen | Poisson Loss / Negative Binomial | – | Poisson- / NegBin-Regression |
15.6.1 Mean Squared Error (MSE)
\[ L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \]
15.6.2 Mean Absolute Error (MAE)
\[ L = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| \]
15.6.3 Huber Loss
\[ L_\delta(a) = \begin{cases} \frac{1}{2}a^2 & \text{für } |a| \le \delta \\ \delta \left( |a| - \frac{1}{2}\delta \right) & \text{sonst} \end{cases} \quad\text{mit } a = y - \hat{y} \]
MSE bestraft große Fehler quadratisch → sehr empfindlich gegenüber Ausreißern
MAE behandelt alle Fehler linear → robust, aber schlechter differenzierbar in der Nähe von 0
15.7 Metriken
| Metrik | Formel | Interpretierbarkeit | Wann bevorzugt? |
|---|---|---|---|
| Mean Absolute Error (MAE) | \(\frac{1}{N}\sum |y - \hat{y}|\) | In Einheiten der Zielvariable | Robust, intuitiv |
| Mean Squared Error (MSE) | \(\frac{1}{N}\sum (y - \hat{y})^2\) | Nicht direkt interpretierbar | Wenn große Fehler stark bestraft werden sollen |
| Root Mean Squared Error (RMSE) | \(\sqrt{\text{MSE}}\) | In Einheiten der Zielvariable | Sehr häufig berichtet |
| Mean Absolute Percentage Error (MAPE) | \(\frac{100}{N}\sum \left|\frac{y - \hat{y}}{y}\right|\) | Prozentual | Bei unterschiedlichen Skalen (Preise …) |
| \(R^2\) (Bestimmtheitsmaß) | \(1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\) | Anteil erklärter Varianz (0–1) | Vergleichbarkeit zwischen Modellen |
| Adjusted \(R^2\) | Berücksichtigt Anzahl der Parameter | Wie \(R^2\), aber straffend bei vielen Features | Bei vielen Features |
| Median Absolute Error | \(\text{Median}(|y - \hat{y}|)\) | Robust gegen Ausreißer | Sehr nützlich bei schiefen Verteilungen |
Faustregel für die Praxis: - MAE oder RMSE → primäre Berichtmetrik
- \(R^2\) → für Vergleich mit anderen Modellen / Baseline
- MAPE → wenn relative Fehler wichtig sind (aber Vorsicht bei \(y\)-Werten nahe 0!)