6  Grundlagen der deskriptiven Statistik

Häufigkeiten

Eine der einfachsten Möglichkeiten, Daten zu beschreiben, ist die Angabe von Häufigkeiten. Dabei zählt man, wie oft ein bestimmter Wert oder eine bestimmte Kategorie in den Daten vorkommt. Man unterscheidet:

  • Absolute Häufigkeit: die reine Anzahl von Beobachtungen.

  • Relative Häufigkeit: der Anteil an der Gesamtmenge (meist in Prozent angegeben).

  • Kumulative Häufigkeit: die aufaddierte relative Häufigkeit bis zu einem bestimmten Wert.

Absolute und relative Häufigkeiten sind vor allem bei nominalen Daten sinnvoll, da sie die Verteilung von Kategorien deutlich machen.

Beispiel: 60 % der Befragten besitzen einen Führerschein.

Bei ordinalen Daten lassen sich zusätzlich kumulative Häufigkeiten angeben, da die Ausprägungen eine Rangordnung besitzen und sich dadurch aufaddieren lassen.

Beispiel: 45 % der Schüler haben eine Note von 4 oder schlechter erreicht.

Bei metrischen Daten sind Häufigkeiten in der Regel weniger informativ, da es sehr viele mögliche Ausprägungen gibt. Um dennoch einen Überblick zu gewinnen, werden die Werte oft in Klassenintervalle eingeteilt und anschließend deren Häufigkeiten angegeben.

Beispiel: Einkommen wird in Kategorien wie „0–999 €“, „1000–1999 €“ oder „2000–2999 €“ zusammengefasst und anschließend die Häufigkeiten je Intervall berechnet.

Lagemaße

Lagemaße fassen Daten durch einen typischen Wert zusammen. Statt eine ganze Liste von Beobachtungen zu betrachten, interessiert oft die Frage:
“Welcher Wert beschreibt die Verteilung am besten?”

Zur Beantwortung dieser Frage werden verschiedene Kennzahlen herangezogen, die im Folgenden vorgestellt werden.
Zunächst führen wir allerdings die für die weiteren Darstellungen benötigte Notation ein:

Notation

Wir betrachten eine Zufallsvariable \(X\), für die wir \(n\) Beobachtungen haben.
Diese bezeichnen wir mit

\[ x_1, x_2, \dots, x_n \]

Dabei gilt:
- \(x_i\): die \(i\)-te Beobachtung (mit \(i = 1, 2, \dots, n\))
- \(n\): die Gesamtzahl der Beobachtungen

  • Arithmetisches Mittel (Mittelwert):
    \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] Das arithmetische Mittel ist definiert als die Summe aller Beobachtungen, geteilt durch deren Anzahl.

  • Median:
    Der Wert, der die geordnete Datenreihe in zwei gleich große Hälften teilt.

    • Ungerade Anzahl (n): der mittlere Wert.
    • Gerade Anzahl (n): das arithmetische Mittel der beiden mittleren Werte.
  • Modus (Modalwert):
    Der am häufigsten vorkommende Wert.

Streuungsmaße

Während Lagemaße die zentrale Tendenz einer Verteilung beschreiben, geben Streuungsmaße Auskunft darüber, wie weit die einzelnen Beobachtungen um diese zentrale Lage verteilt sind.
Sie beantworten Fragen wie: „Liegen die Werte dicht beieinander oder sind sie stark gestreut?“.

Eine geringe Streuung bedeutet, dass die Werte nah am Zentrum liegen, während eine große Streuung auf eine hohe Variabilität hinweist.
Damit ergänzen Streuungsmaße die Lagemaße: Erst das Zusammenspiel beider liefert ein vollständiges Bild der Daten.

  • Spannweite:
    \[ R = x_{\max} - x_{\min} \] Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Wert.
    Sie ist einfach zu berechnen, reagiert aber sehr empfindlich auf Ausreißer.

  • Varianz:
    \[ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \] Die Varianz misst die mittlere quadratische Abweichung der Werte vom Mittelwert.
    Sie berücksichtigt alle Beobachtungen, ist jedoch aufgrund der Quadrierung in derselben Einheit wie die Daten zum Quadrat angegeben.

  • Standardabweichung:
    \[ s = \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} \] Die Standardabweichung ist die Quadratwurzel der Varianz und daher wieder in derselben Einheit wie die ursprünglichen Daten.
    Sie gibt die „typische“ Abweichung der Werte vom Mittelwert an und ist eines der am häufigsten verwendeten Streuungsmaße.