Alles Wissenswerte zur deskriptiven Statistik: Vom Mittelwert, über die Varianz bis hin zu Quantilen


Dokumente auf dem Tisch neben dem Laptop
Inhaltsverzeichnis
  1. Alles Wissenswerte zur deskriptiven Statistik: Vom Mittelwert, über die Varianz bis hin zu Quantilen
  2. Deskriptive Statistik: Die Grundlagen
  3. Die wichtigsten Kenngrößen und die dazugehörigen Parameter im Überblick
  4. 1. Lageparameter
  5. Der Mittelwert
  6. Der Median
  7. Der Modalwert (beziehungsweise Modus)
  8. 2. Verteilungs- respektive Streuungsparameter
  9. Standardabweichung σ
  10. Variationsbreite R
  11. Variationskoeffizient VarK
  12. p-Quantile

Die deskriptive Statistik gehört zwar zu den erweiterten Grundlagen der statistischen (Daten-)Analyse, jedoch fällt es vielen Studentinnen und Studenten beim Schreiben von Bachelorarbeiten etc. verständlicherweise nicht immer ganz leicht, die verschiedenen Kenngrößen und unterschiedlichen Methoden auseinanderzuhalten und auf Anhieb zu verstehen. Worin unterscheiden sich beispielsweise Verteilungs- von Lageparametern? Wie lassen sich empirische Daten mithilfe der deskriptiven Herangehensweise möglichst übersichtlich darstellen? Und was bedeuten in diesem Zusammenhang eigentlich Begriffe wie Median, Quantil und Variationskoeffizient?

Deskriptive Statistik: Die Grundlagen

Bei der deskriptiven Statistik (deskriptiv = beschreibend) handelt es sich einfach gesagt um das Charakterisieren eines speziellen Datensatzes aus empirischen Daten durch die Bestimmung relevanter Kennzahlen. Diese werden dann möglichst einfach aufbereitet und die daraus resultierenden Ergebnisse mithilfe von verschiedenen Tabellen und Grafiken übersichtlich dargestellt. Das Ziel der deskriptiven Statistik ist also dementsprechend die nähere Beschreibung empirischer Daten und Fakten, die zum Beispiel anhand qualitativer oder quantitativer Forschungsmethoden erhoben wurden. Bei den dafür verwendeten Kennzahlen geht es in der Regel um die Häufigkeit verschiedener Werte, die Lage der Daten (wie beispielsweise den Mittelwert), die Verteilung der Daten (Standardabweichung) und die damit verbundene Symmetrie.

Bevor man die vorhandenen Daten verwerten und in ausreichendem Maße beurteilen kann, ob diese Daten auch tatsächlich repräsentativ sind, steht im ersten Schritt die deskriptive Beschreibung und Analyse der vorliegenden Stichprobe an. Danach erfolgt die sogenannte explorative Statistik mit dem Ziel, die bisherigen Erkenntnisse genauer zu erkunden und bislang unbekannte Zusammenhänge in dem Datensatz ausfindig zu machen. Abschließend lassen sich dann im Zuge der induktiven Statistik (die auch unter dem Begriff Inferenzstatistik bekannt ist) sämtliche aufgestellte Hypothesen auf ihre Allgemeingültigkeit hin testen. Gut zu wissen: Diese drei Themengebiete (deskriptive, explorative und induktive Statistik) bilden zusammen mit der Wahrscheinlichkeitsrechnung den als Stochastik bezeichneten Teilbereich der Mathematik.
 

Die wichtigsten Kenngrößen und die dazugehörigen Parameter im Überblick

Die deskriptive Beschreibung der Daten gehört zwar grundsätzlich zu jeder vollständigen statistischen Datenauswertung und -darstellung dazu, allerdings hängt es sowohl von der Fragestellung, als auch von dem Skalenniveau der Daten ab, welche konkreten Kennzahlen auf der Basis des Datensatzes gebildet werden können. Hier gibt es vor allem zwei nennenswerte Kenngrößen, die wiederum verschiedene weitere Parameter und Maßzahlen umfassen. Um diese zu erklären betrachten wir eine beispielhafte Variable X=(x1, x2,…,xn). Ohne Beschränkung der Allgemeinheit sei xi <= xi+1 für alle 1<=i<=n (sortiert). Sollten die Daten nicht der Ordinalskala auf den Skalenniveaus entsprechen, kann die Sortierung vernachlässigt werden. Ordinalskala heißt, dass eine Art von Ordnung auf den erhobenen Daten existieren muss, sodass der Vergleich von Datenpunkten Sinn macht. Beispielsweise lässt sich für einen Datensatz über Farben ohne weiteres keine Sortierung bestimmen, da der Ausdruck Grün < Rot nichtssagend ist, weshalb eben jener auch nicht auf der Ordinalskala liegt.
 

1. Lageparameter

Die Lageparameter sind vor allen Dingen dazu gedacht, eine zentrale Tendenz des jeweiligen Datensatzes erkennen zu können. Mit ihnen wird also untersucht, ob die gemessenen Werte groß oder eher klein ausfallen. Ein Beispiel zur Verdeutlichung: Bei einer (Online-)Umfrage oder einem Experteninterview lässt sich anhand der Lageparameter feststellen, ob vor allem jüngere oder eher ältere Teilnehmer befragt wurden. Zu den wichtigsten statistischen Kenngrößen gehören:
 

Der Mittelwert

Bei dem arithmetischen Mittel – oder vereinfacht Mittelwert – handelt es sich um den Durchschnitt aller Werte, der durch eine Aufsummierung der Kenngrößen und die darauffolgende Teilung der Werteanzahl berechnet wird.

A black background with a black square

Description automatically generated with medium confidence
 

Der Median

Der Median teilt den vorhandenen Datensatz möglichst genau in der Mitte, sodass bei einer geordneten Reihe von Messwerten genauso viele Werte darüber wie darunter liegen. Hierfür müssen die Daten mindestens der Ordinalskala entsprechen.

\bar x = \begin{cases}x_\frac n2 \quad & \text{für gerade } n \\ \frac{x_{\left \lfloor \frac n2 \right \rfloor} + x_{\left \lceil \frac n2 \right \rceil}}2 & \text{für ungerade } n \end{cases}

Die Notation mit der geschweiften Klammer wird in der Mathematik verwendet um verschiedene Fälle zu unterscheiden. So gilt hier der obere Ausdruck falls n gerade ist und der untere Ausdruck falls n ungerade ist. Die eckigen Klammern sind Rundungsklammern und runden die Zahl in der Mitte je nach Position der Ecke auf oder ab.
 

Der Modalwert (beziehungsweise Modus)

Der Modusparameter, der den Wert beschreibt, der in einer Verteilung am häufigsten in Erscheinung tritt, kann grundsätzlich für alle Skalenniveaus (unter anderem für Daten der Nominalskala) gebildet werden. Das heißt, dass keine Anforderungen wie bei dem Median an die Daten gestellt werden. Wenn Werte zu Klassen zusammengefasst werden, gilt die Mitte der häufigsten Klassen als Modalwert der Verteilung.
 

2. Verteilungs- respektive Streuungsparameter

Da die zuvor genannten Lageparameter häufig nicht ausreichen, um die Datensätze umfassend zu beschreiben und zu veranschaulichen, ist es ratsam, sich darüber hinaus auch die Streuung der Daten anzuschauen, um überprüfen zu können, ob die Werte extrem unterschiedlich sind und es Ausreißer im vorliegenden Datensatz gibt. Die wichtigsten Streuungs- beziehungsweise Verteilungsparameter, welche die Dispersion der Werte um den Mittelwert beschreiben, sind:
 

Standardabweichung σ

Die Standardabweichung ist ein Maß dafür, inwieweit die ermittelten Werte von ihren eigenen Durchschnittswerten (respektive Mittelwerten) abweichen. Damit sich dieser Wert bestimmen lässt, müssen die Daten der Intervallskala entsprechen, sodass der Abstand zweier Datenpunkte einen Sinn erhält. Beispielsweise für Schulnoten gilt dies nicht, da der Abstand einer 5 und einer 2 mit 5-2=2 als befriedigend keine Bedeutung hat. Häufig wird die Standardabweichung mit einem kleinen Sigma bezeichnet und mit folgender Formel bestimmt:

\sigma_X = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar X)^2}{n}}

Durch eine weitere Division lässt sich aus diesem Wert auch sehr leicht der Standardfehler bestimmen.
 

Variationsbreite R

Hierbei handelt es sich um die Spannweite der Daten, mit welcher der Abstand zwischen dem Minimal- und dem Maximalwert gemessen wird. Gut zu wissen: Bei nominal-skalierten Daten ist die Variationsbreite stets gleich der Kategorieanzahl. Da dieser Parameter jedoch nur auf die Extremwerte abzielt, lässt sich keine konkrete Aussage über die Verteilung der Zwischenwerte machen. Da wir annehmen, dass X sortiert ist, gilt


 

Variationskoeffizient VarK

Der Variationskoeffizient teilt die Standardabweichung durch den festgestellten Mittelwert und ermöglicht so den Vergleich der Streuung von verschiedenen Stichproben mit unterschiedlichen Mittelwerten.

A black background with a black square

Description automatically generated with medium confidence
 

p-Quantile

Quantile teilen statistische Verteilungen ein, sodass p-Prozent der Werte unter und 1-p-Prozent der Werte über dem Quantilswert liegen. Beispielsweise ist der Median das 0.5-Quantil da 50% der Daten unter und 50% der Daten über dem Wert liegen. Zur Berechnung dient folgende Formel für die erneut die angenommene Sortierung der Daten wichtig ist:

Q_p(X) = \begin{cases}
x_{p \cdot n} \quad & \text{für } pn \in \mathbb{N} \text{ (keine Kommazahl)}\\
\frac{\left \lfloor x_{pn} \right \rfloor + \left \lceil x_{pn} \right \rceil}{2} & \text{für } pn \notin \mathbb{N} \text{ (Kommazahl)}
\end{cases}