15 Regression

15.1 Was ist Regression?

Regression bezeichnet den Prozess, bei dem ein Modell lernt, einen kontinuierlichen numerischen Wert (Zielvariable) vorherzusagen, basierend auf den Eingabemerkmalen. Im Kontext neuronaler Netzwerke wird dies durch die direkte Ausgabe eines reellen Zahlenwerts oder mehrerer Werte erreicht.

Beispiele
- Vorhersage des Hauspreises basierend auf Größe, Lage, Baujahr
- Prognose des Stromverbrauchs morgen
- Vorhersage der Temperatur in 3 Stunden
- Schätzung des medizinischen Risikoscores (z. B. 0–100)

15.2 Arten der Regression

15.2.1 Einfache univariate Regression

Vorhersage einer kontinuierlichen Zielgröße → am häufigsten
Ausgabeschicht: 1 Neuron ohne Aktivierungsfunktion (oder lineare Aktivierung = Identitätsfunktion)

15.2.2 Multivariate Regression

Vorhersage mehrerer kontinuierlicher Zielgrößen gleichzeitig
(Beispiel: Vorhersage von [Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit])
Ausgabeschicht: k Neuronen (k = Anzahl der Zielvariablen), meist ebenfalls ohne nicht-lineare Aktivierung

15.2.3 Andere Spezialfälle

Poisson-Regression → Zählvariablen (0,1,2,3,…), meist mit Log-Link
Quantile-Regression → Vorhersage bestimmter Perzentile (z. B. Median, 90%-Quantil)
Probabilistische Regression → Vorhersage einer Verteilung (z. B. Mittelwert + Varianz)

15.3 Ausgabeschicht und Aktivierungsfunktionen

Aufgabe	Empfohlene Aktivierung	Typische Wertebereich der Ausgabe	Kommentar
Standard-Regression (unbeschränkt)	Keine / Linear	\((-∞, +∞)\)	Am häufigsten verwendet
Positive Werte (z. B. Preis, Zeit)	ReLU / Softplus / Exponential	\([0, +∞)\)	Softplus \(= \log(1 + e^x)\)
Werte im Intervall \([0,1]\)	Sigmoid	\((0,1)\)	z. B. Anteil, Wahrscheinlichkeit
Werte im Intervall \([-1,1]\)	Tanh	\((-1,1)\)	selten bei Regression
Mehrere unabhängige Outputs	Keine (pro Kopf)	\((-∞, +∞)\) pro Ausgabe	Multivariate Regression

Tip

Bei neuronalen Netzen lässt man die letzte Schicht meist ohne nicht-lineare Aktivierung (linear), da die beschränkenden Funktionen (Sigmoid, ReLU etc.) den Wertebereich künstlich einschränken und oft nicht gewünscht sind.

15.4 Eingaben

Die gleichen Vorverarbeitungsschritte wie bei der Klassifikation sind entscheidend – oft sogar noch wichtiger, da Regression sehr empfindlich auf Skalierung reagiert.

15.4.1 Numerische Merkmale

Standardisierung (Z-Score) meist die beste Wahl
→ Gradientenverhalten wird stabiler, Lernrate kann höher gewählt werden
Min-Max-Skalierung nur dann sinnvoll, wenn man weiß, dass die Werte wirklich in einem festen Bereich bleiben
Robust-Scaler (Median + IQR) bei starken Ausreißern

15.4.2 Kategorische Merkmale (Nominal)

One-Hot-Encoding – Standard
Embeddings – sehr empfehlenswert bei vielen Kategorien (z. B. > 20–30) oder bei hoher Kardinalität (Postleitzahlen, Produkt-IDs, …)

15.4.3 Ordinale Merkmale

Ordinal Encoding (0,1,2,…) möglich – aber Vorsicht (gleiches Problem wie bei Klassifikation)
Embeddings meist die bessere, flexiblere Wahl

15.5 Datenaufbereitung

15.5.1 Fehlende Werte

Gleiche Strategien wie bei Klassifikation, aber mit Nuancen: - Mittelwert-Imputation → sehr häufig (schnell & einfach) - Median-Imputation → robuster bei Ausreißern - Modellbasierte Imputation (kNN, MICE, …) → oft lohnenswert bei Regression - Wichtig: Bei der Zielvariable (y) Fehlwerte fast immer entfernen!

15.5.2 Ausreißer

Ausreißer wirken sich bei Regression sehr stark aus (quadratischer Fehler!)

Winsorisieren / Clipping (95%-/5%-Perzentil) – sehr häufig
Log-Transformation der Zielvariable (bei rechtsschiefer Verteilung: Preis, Zeit, Umsatz …)
Huber-Loss oder Quantile-Loss statt MSE (robuster gegenüber Ausreißern)

15.5.3 Transformation der Zielvariable

Häufig sehr wirkungsvoll: - \(\log(y)\) oder \(\log(1+y)\) → bei stark rechtsschiefer Verteilung - \(\sqrt{y}\) → mildere Kompression - Box-Cox / Yeo-Johnson → datengetriebene Transformation

15.6 Verlustfunktionen (Loss Functions)

Aufgabe	Empfohlene Verlustfunktion	Robuste gegenüber Ausreißern?	Typische Anwendung
Standard Regression	Mean Squared Error (MSE)	Nein	Allgemein, wenn keine extremen Ausreißer
Regression mit Ausreißern	Mean Absolute Error (MAE)	Ja	Median-ähnliches Verhalten
Kompromiss MSE ↔︎ MAE	Huber Loss / Smooth L1	Mittel	Sehr beliebt in der Praxis
Quantile Regression	Quantile Loss (Pinball Loss)	Ja	Vorhersage von Perzentilen
Sehr starke Ausreißer	Log-Cosh Loss	Sehr gut	Alternative zu Huber
Zählvariablen	Poisson Loss / Negative Binomial	–	Poisson- / NegBin-Regression

15.6.1 Mean Squared Error (MSE)

\[ L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \]

15.6.2 Mean Absolute Error (MAE)

\[ L = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| \]

15.6.3 Huber Loss

\[ L_\delta(a) = \begin{cases} \frac{1}{2}a^2 & \text{für } |a| \le \delta \\ \delta \left( |a| - \frac{1}{2}\delta \right) & \text{sonst} \end{cases} \quad\text{mit } a = y - \hat{y} \]

Wichtig

MSE bestraft große Fehler quadratisch → sehr empfindlich gegenüber Ausreißern
MAE behandelt alle Fehler linear → robust, aber schlechter differenzierbar in der Nähe von 0

15.7 Metriken

Metrik	Formel	Interpretierbarkeit	Wann bevorzugt?
Mean Absolute Error (MAE)	\(\frac{1}{N}\sum \|y - \hat{y}\|\)	In Einheiten der Zielvariable	Robust, intuitiv
Mean Squared Error (MSE)	\(\frac{1}{N}\sum (y - \hat{y})^2\)	Nicht direkt interpretierbar	Wenn große Fehler stark bestraft werden sollen
Root Mean Squared Error (RMSE)	\(\sqrt{\text{MSE}}\)	In Einheiten der Zielvariable	Sehr häufig berichtet
Mean Absolute Percentage Error (MAPE)	\(\frac{100}{N}\sum \left\|\frac{y - \hat{y}}{y}\right\|\)	Prozentual	Bei unterschiedlichen Skalen (Preise …)
\(R^2\) (Bestimmtheitsmaß)	\(1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\)	Anteil erklärter Varianz (0–1)	Vergleichbarkeit zwischen Modellen
Adjusted \(R^2\)	Berücksichtigt Anzahl der Parameter	Wie \(R^2\), aber straffend bei vielen Features	Bei vielen Features
Median Absolute Error	\(\text{Median}(\|y - \hat{y}\|)\)	Robust gegen Ausreißer	Sehr nützlich bei schiefen Verteilungen

Faustregel für die Praxis: - MAE oder RMSE → primäre Berichtmetrik
- \(R^2\) → für Vergleich mit anderen Modellen / Baseline
- MAPE → wenn relative Fehler wichtig sind (aber Vorsicht bei \(y\)-Werten nahe 0!)