8 Zusammenhänge in Daten erkennen
Bisher haben wir Daten vor allem einzeln beschrieben – durch Häufigkeiten, typische Werte oder ihre Streuung. Oft interessiert uns jedoch, wie zwei Variablen zusammenhängen:
„Steigt die Prüfungsleistung, wenn mehr gelernt wird?“
„Hängt das Einkommen mit der Berufserfahrung zusammen?“
Zur Untersuchung solcher Zusammenhänge gibt es verschiedene Werkzeuge, die im Folgenden vorgestellt werden.
Kovarianz
Bisher haben wir Streuung nur bei einer einzelnen Variablen betrachtet – mit Varianz und Standardabweichung.
Nun interessiert uns, ob zwei Variablen gemeinsam schwanken.
Beispiel:
- Steigt die Lernzeit, steigt auch die Prüfungsleistung?
- Oder: Wenn die eine Größe zunimmt, nimmt die andere ab?
Um das zu messen, verwenden wir die Kovarianz.
\[ \operatorname{Cov}(X,Y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \]
Interpretation:
- \(\operatorname{Cov}(X,Y) > 0\): Beide Größen schwanken gemeinsam nach oben oder unten.
- \(\operatorname{Cov}(X,Y) < 0\): Wenn die eine steigt, fällt die andere.
- \(\operatorname{Cov}(X,Y) \approx 0\): Kein erkennbarer gemeinsamer Zusammenhang.
Die Kovarianz ist also eine Verallgemeinerung der Varianz:
- Bei der Varianz multipliziert man die Abweichung einer Variablen mit sich selbst: \((x_i - \bar{x})^2\)
- Bei der Kovarianz multipliziert man die Abweichungen zweier Variablen: \((x_i - \bar{x})(y_i - \bar{y})\)
Beispiel:
- Wenn längere Lernzeit meist auch zu besseren Prüfungsnoten führt, ist die Kovarianz positiv.
- Wenn längere Lernzeit paradoxerweise zu schlechteren Noten führen würde, wäre sie negativ.
- Wenn Lernzeit und Note nichts miteinander zu tun hätten, läge sie nahe bei null.
Aber: Die Kovarianz hängt von den Maßeinheiten der Daten ab (z. B. Stunden und Punkte).
Deshalb ist sie schwer zu interpretieren.
Dafür gibt es im nächsten Schritt den Pearson-Korrelationskoeffizienten:
eine normierte Kovarianz, die immer zwischen (-1) und (+1) liegt und speziell lineare Zusammenhänge beschreibt.
Lineare Zusammenhänge
Ein erster Schritt ist die grafische Darstellung in einem Streudiagramm.
Sind die Punkte annähernd auf einer Geraden angeordnet, spricht man von einem linearen Zusammenhang.
Beispiel: Zusammenhang zwischen Lernzeit und Prüfungsnote.
Pearson-Korrelationskoeffizient
Der Korrelationskoeffizient nach Pearson misst die Stärke und Richtung eines linearen Zusammenhangs:
\[ r_{XY} = \frac{\operatorname{Cov}(X, Y)}{s_X \cdot s_Y} \]
Wir berechnen ihn allerdings meist ohne zuvor Kovarianz und Standardabweichungen zu ermitteln:
\[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \cdot \sum_{i=1}^n (y_i - \bar{y})^2}} \]
- \(r = +1\): perfekter positiver linearer Zusammenhang
- \(r = -1\): perfekter negativer linearer Zusammenhang
- \(r \approx 0\): kein linearer Zusammenhang
Korrelationskoeffizient r = 0.82
Übung: Rechnen Sie das Beispiel selbst nach!
x (Lernzeit) | y (Leistung) | x (Lernzeit) | y (Leistung) |
---|---|---|---|
0.00 | 7.48 | 5.17 | 15.12 |
0.34 | 5.17 | 5.52 | 13.73 |
0.69 | 9.96 | 5.86 | 21.23 |
1.03 | 15.20 | 6.21 | 15.98 |
1.38 | 7.28 | 6.55 | 14.32 |
1.72 | 8.14 | 6.90 | 29.57 |
2.07 | 18.07 | 7.24 | 21.97 |
2.41 | 14.87 | 7.59 | 24.30 |
2.76 | 9.55 | 7.93 | 17.70 |
3.10 | 15.47 | 8.28 | 22.97 |
3.45 | 11.30 | 8.62 | 27.11 |
3.79 | 12.15 | 8.97 | 21.66 |
4.14 | 16.55 | 9.31 | 30.15 |
4.48 | 6.64 | 9.66 | 26.13 |
4.83 | 8.44 | 10.00 | 28.54 |
Die Korrelationsmatrix ist ein nützliches Werkzeug, um in multidimensionalen Datensätzen alle paarweisen linearen Zusammenhänge auf einen Blick zu erfassen. Sie stellt den Korrelationskoeffizienten für jede Kombination von Variablen dar und ermöglicht so, Abhängigkeiten zu erkennen.
Beispiel: Wir ergänzen unseren Datensatz mit den Variablen Lernzeit und Leistung um eine dritte Variable Alter und stellen die Korrelationsmatrix mitsamt Heatmap auf.
Code
import seaborn as sns
import pandas as pd
# Beispiel-Daten
= pd.DataFrame({
df "Lernzeit": x,
"Leistung": y,
"Alter": np.random.randint(15, 25, size=30)
})
=True, cmap="coolwarm", center=0)
sns.heatmap(df.corr(), annot"Korrelationsmatrix")
plt.title( plt.show()
Korrelation ist nicht Kausalität!
Ein hoher Korrelationskoeffizient bedeutet nicht automatisch, dass eine Variable die Ursache der anderen ist.
Beispiel:
Die Anzahl verkaufter Eiscremes und die Zahl der Ertrinkungsunfälle sind positiv korreliert – die eigentliche Ursache ist jedoch die Temperatur (Sommer).
Korrelation beschreibt also nur den statistischen Zusammenhang, nicht das Ursache-Wirkung-Verhältnis.
Regressionsgerade
Die lineare Regression findet eine Gerade, die den Zusammenhang zwischen den Datenpunkten optimal wiedergibt.
Die Gerade hat die Form:
\[ y = a \cdot x + b \]
Dabei werden \(a\) und \(b\) so gewählt, dass die Summe der quadrierten Abweichungen \(\sum (y_i - (a x_i + b))^2\) möglichst klein ist (Kleinste-Quadrate-Methode).
Die Steigung \(a\) berechnet sich: \[ a = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \] Der y-Achsenabschnitt \(b\) wird so berechnet:
\[ b = \bar{y} - a \cdot \bar{x} \]
Nichtlineare Zusammenhänge
Nicht alle Zusammenhänge sind linear. Manchmal folgt der Verlauf z. B. einer Quadratfunktion oder einer Exponentialfunktion.
Quadratischer Zusammenhang
Auch hier lässt sich eine passende Funktion durch die Daten legen – man spricht allgemein von einer nichtlinearen Regression.
Exponentieller Zusammenhang
Ein weiteres Beispiel ist exponentielles Wachstum, wie man es etwa bei Bevölkerungszahlen oder Infektionsausbreitung beobachten kann.
Fazit
Lineare Zusammenhänge lassen sich mit Streudiagrammen sichtbar machen, mit dem Korrelationskoeffizienten messen und mit einer Regressionsgeraden beschreiben. Auch nichtlineare Zusammenhänge können modelliert werden, wenn man ein passendes Modell (z. B. quadratisch oder exponentiell) wählt.
In der Praxis kennt man den zugrunde liegenden Zusammenhang jedoch oft nicht. Hier können Methoden des Maschinellen Lernens helfen, da sie in der Lage sind, komplexe Muster und Beziehungen in Daten automatisch zu erkennen.