15  Regression

15.1 Was ist Regression?

Regression bezeichnet den Prozess, bei dem ein Modell lernt, einen kontinuierlichen numerischen Wert (Zielvariable) vorherzusagen, basierend auf den Eingabemerkmalen. Im Kontext neuronaler Netzwerke wird dies durch die direkte Ausgabe eines reellen Zahlenwerts oder mehrerer Werte erreicht.

Beispiele
- Vorhersage des Hauspreises basierend auf Größe, Lage, Baujahr
- Prognose des Stromverbrauchs morgen
- Vorhersage der Temperatur in 3 Stunden
- Schätzung des medizinischen Risikoscores (z. B. 0–100)

15.2 Arten der Regression

15.2.1 Einfache univariate Regression

Vorhersage einer kontinuierlichen Zielgröße → am häufigsten
Ausgabeschicht: 1 Neuron ohne Aktivierungsfunktion (oder lineare Aktivierung = Identitätsfunktion)

15.2.2 Multivariate Regression

Vorhersage mehrerer kontinuierlicher Zielgrößen gleichzeitig
(Beispiel: Vorhersage von [Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit])
Ausgabeschicht: k Neuronen (k = Anzahl der Zielvariablen), meist ebenfalls ohne nicht-lineare Aktivierung

15.2.3 Andere Spezialfälle

  • Poisson-Regression → Zählvariablen (0,1,2,3,…), meist mit Log-Link
  • Quantile-Regression → Vorhersage bestimmter Perzentile (z. B. Median, 90%-Quantil)
  • Probabilistische Regression → Vorhersage einer Verteilung (z. B. Mittelwert + Varianz)

15.3 Ausgabeschicht und Aktivierungsfunktionen

Aufgabe Empfohlene Aktivierung Typische Wertebereich der Ausgabe Kommentar
Standard-Regression (unbeschränkt) Keine / Linear \((-∞, +∞)\) Am häufigsten verwendet
Positive Werte (z. B. Preis, Zeit) ReLU / Softplus / Exponential \([0, +∞)\) Softplus \(= \log(1 + e^x)\)
Werte im Intervall \([0,1]\) Sigmoid \((0,1)\) z. B. Anteil, Wahrscheinlichkeit
Werte im Intervall \([-1,1]\) Tanh \((-1,1)\) selten bei Regression
Mehrere unabhängige Outputs Keine (pro Kopf) \((-∞, +∞)\) pro Ausgabe Multivariate Regression
Tip

Bei neuronalen Netzen lässt man die letzte Schicht meist ohne nicht-lineare Aktivierung (linear), da die beschränkenden Funktionen (Sigmoid, ReLU etc.) den Wertebereich künstlich einschränken und oft nicht gewünscht sind.

15.4 Eingaben

Die gleichen Vorverarbeitungsschritte wie bei der Klassifikation sind entscheidend – oft sogar noch wichtiger, da Regression sehr empfindlich auf Skalierung reagiert.

15.4.1 Numerische Merkmale

  • Standardisierung (Z-Score) meist die beste Wahl
    → Gradientenverhalten wird stabiler, Lernrate kann höher gewählt werden
  • Min-Max-Skalierung nur dann sinnvoll, wenn man weiß, dass die Werte wirklich in einem festen Bereich bleiben
  • Robust-Scaler (Median + IQR) bei starken Ausreißern

15.4.2 Kategorische Merkmale (Nominal)

  • One-Hot-Encoding – Standard
  • Embeddings – sehr empfehlenswert bei vielen Kategorien (z. B. > 20–30) oder bei hoher Kardinalität (Postleitzahlen, Produkt-IDs, …)

15.4.3 Ordinale Merkmale

  • Ordinal Encoding (0,1,2,…) möglich – aber Vorsicht (gleiches Problem wie bei Klassifikation)
  • Embeddings meist die bessere, flexiblere Wahl

15.5 Datenaufbereitung

15.5.1 Fehlende Werte

Gleiche Strategien wie bei Klassifikation, aber mit Nuancen: - Mittelwert-Imputation → sehr häufig (schnell & einfach) - Median-Imputation → robuster bei Ausreißern - Modellbasierte Imputation (kNN, MICE, …) → oft lohnenswert bei Regression - Wichtig: Bei der Zielvariable (y) Fehlwerte fast immer entfernen!

15.5.2 Ausreißer

Ausreißer wirken sich bei Regression sehr stark aus (quadratischer Fehler!)

  • Winsorisieren / Clipping (95%-/5%-Perzentil) – sehr häufig
  • Log-Transformation der Zielvariable (bei rechtsschiefer Verteilung: Preis, Zeit, Umsatz …)
  • Huber-Loss oder Quantile-Loss statt MSE (robuster gegenüber Ausreißern)

15.5.3 Transformation der Zielvariable

Häufig sehr wirkungsvoll: - \(\log(y)\) oder \(\log(1+y)\) → bei stark rechtsschiefer Verteilung - \(\sqrt{y}\) → mildere Kompression - Box-Cox / Yeo-Johnson → datengetriebene Transformation

15.6 Verlustfunktionen (Loss Functions)

Aufgabe Empfohlene Verlustfunktion Robuste gegenüber Ausreißern? Typische Anwendung
Standard Regression Mean Squared Error (MSE) Nein Allgemein, wenn keine extremen Ausreißer
Regression mit Ausreißern Mean Absolute Error (MAE) Ja Median-ähnliches Verhalten
Kompromiss MSE ↔︎ MAE Huber Loss / Smooth L1 Mittel Sehr beliebt in der Praxis
Quantile Regression Quantile Loss (Pinball Loss) Ja Vorhersage von Perzentilen
Sehr starke Ausreißer Log-Cosh Loss Sehr gut Alternative zu Huber
Zählvariablen Poisson Loss / Negative Binomial Poisson- / NegBin-Regression

15.6.1 Mean Squared Error (MSE)

\[ L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \]

15.6.2 Mean Absolute Error (MAE)

\[ L = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| \]

15.6.3 Huber Loss

\[ L_\delta(a) = \begin{cases} \frac{1}{2}a^2 & \text{für } |a| \le \delta \\ \delta \left( |a| - \frac{1}{2}\delta \right) & \text{sonst} \end{cases} \quad\text{mit } a = y - \hat{y} \]

Wichtig

MSE bestraft große Fehler quadratisch → sehr empfindlich gegenüber Ausreißern
MAE behandelt alle Fehler linear → robust, aber schlechter differenzierbar in der Nähe von 0

15.7 Metriken

Metrik Formel Interpretierbarkeit Wann bevorzugt?
Mean Absolute Error (MAE) \(\frac{1}{N}\sum |y - \hat{y}|\) In Einheiten der Zielvariable Robust, intuitiv
Mean Squared Error (MSE) \(\frac{1}{N}\sum (y - \hat{y})^2\) Nicht direkt interpretierbar Wenn große Fehler stark bestraft werden sollen
Root Mean Squared Error (RMSE) \(\sqrt{\text{MSE}}\) In Einheiten der Zielvariable Sehr häufig berichtet
Mean Absolute Percentage Error (MAPE) \(\frac{100}{N}\sum \left|\frac{y - \hat{y}}{y}\right|\) Prozentual Bei unterschiedlichen Skalen (Preise …)
\(R^2\) (Bestimmtheitsmaß) \(1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\) Anteil erklärter Varianz (0–1) Vergleichbarkeit zwischen Modellen
Adjusted \(R^2\) Berücksichtigt Anzahl der Parameter Wie \(R^2\), aber straffend bei vielen Features Bei vielen Features
Median Absolute Error \(\text{Median}(|y - \hat{y}|)\) Robust gegen Ausreißer Sehr nützlich bei schiefen Verteilungen

Faustregel für die Praxis: - MAE oder RMSE → primäre Berichtmetrik
- \(R^2\) → für Vergleich mit anderen Modellen / Baseline
- MAPE → wenn relative Fehler wichtig sind (aber Vorsicht bei \(y\)-Werten nahe 0!)