\( \newcommand{\br}[1]{\left( #1\right)} \newcommand{\logpar}[1]{\log\left( #1\right)} \newcommand{\cospar}[1]{\cos\left( #1\right)} \newcommand{\sinpar}[1]{\sin\left( #1\right)} \newcommand{\tanpar}[1]{\tan\left( #1\right)} \newcommand{\arcsinpar}[1]{\sin^{-1}\!\left( #1\right)} \newcommand{\arccospar}[1]{\cos^{-1}\!\left( #1\right)} \newcommand{\arctanpar}[1]{\tan^{-1}\!\left( #1\right)} \newcommand{\asin}[1]{\sin^{-1}\! #1} \newcommand{\acos}[1]{\cos^{-1}\! #1} \newcommand{\atan}[1]{\tan^{-1}\! #1} \newcommand{\asinh}[1]{\sinh^{-1}\! #1} \newcommand{\acosh}[1]{\cosh^{-1}\! #1} \newcommand{\atanh}[1]{\tanh^{-1}\! #1} \newcommand{\logten}[1]{\log_{10}\! #1} \definecolor{explaination}{RGB}{0, 166, 226} \newcommand{\ubrace}[2][u]{ { \color{explaination}{\underbrace{ {\color{black}{#2}} }_{#1}} } } \newcommand{\obrace}[2][u]{ { \color{explaination}{\overbrace{ {\color{black}{#2}} }^{#1}} } } \definecolor{highlight}{RGB}{181, 41, 118} \newcommand{\xplain}[1]{{ \textcolor{explaination} { \footnotesize{ #1 \newline}}}} \newcommand{\hilite}[1]{{ \textcolor{highlight} { { #1 }}}} \definecolor{lightergray}{gray}{.675} \newcommand{\hide}[1]{{ \textcolor{lightergray} { \footnotesize{ #1 \newline}}}} \newcommand{\mth}[1]{ { \textcolor{black} { { \small #1 } } } } \)

Zentraler Grenzwertsatz

Die Normalverteilung ist essentiell und allgegenwärtig in der modernen Statistik. Auch die meisten parametrischen statistischen Verfahren haben, streng genommen, Voraussetzungen, die mit der Normalverteilung zusammenhängen. Der Grund weshalb die Normalverteilung so präsent ist, liegt am zentralen Grenzwertsatz.

Die Voraussetzung der Normalverteilung vieler statistischer Verfahren ist oft verwirrend für Anwender, da wir in der Regel im Vorhinein keine Vorhersage über die Verteilung unserer Daten machen können, bevor wir sie erhoben haben. Stattdessen beschäftigt sich der zentrale Grenzwertsatz nicht mit der Verteilung der Variablen (also z.B. der Messwerte), sondern mit der Stichprobenverteilung.

Definition

Der zentrale Grenzwertsatz besagt, dass die Stichprobenverteilung der Mittelwerte asymptotisch normalverteilt sein wird, unabhängig von der Form der zugrunde liegenden Verteilung der Daten, vorausgesetzt die Daten sind unabhängig und identisch verteilt.

\( \large{ \frac{\bar{x}-\mu }{\dfrac{s}{\sqrt{n}}} \sim \mathcal{N}(0,1) } \)

Wie der Name schon sagt, ist der zentrale Grenzwertsatz ein Grenzwertsatz. Daher, je größer die Stichprobe wird, desto näher wird die Stichprobenverteilung normalverteilt sein. Dank des zentralen Grenzwertsatzes können wir Hypothesentests durchführen, auch wenn die Grundgesamtheit nicht normalverteilt ist, vorausgesetzt, die Stichprobe ist ausreichend groß.

Die meisten Statistikbücher geben als Empfehlung eine Stichprobengröße von n = 30, ab der wir von einer normalverteilten Stichprobenverteilung ausgehen dürfen. Dies ist ein Kompromiss zwischen verschieden Verteilungen. Das bedeutet allerdings auch, dass diese Zahl für die eigenen Daten größer sein muss bzw. kleiner sein darf. Wilcox (1995) bespricht Situationen, bei denen auch durch große Stichproben keine normalverteilte Stichprobenverteilung produziert wird. Im Besonderen ist der zentrale Grenzwertsatz anfällig, wenn die Verteilung endlastig ist.

Allerdings sind vor allem der t-Test und die ANOVA robust gegenüber Verletzungen der Annahme der Normalverteilung (Wilcox, 2012). Daher, auch wenn Daten nicht normalverteilt sein sollen, werden diese Verfahren Ergebnisse liefern, die vergleichbar mit normalverteilten Daten sind.

Missverständnisse

Der zentrale Grenzwertsatz wird oft missverstanden. Viele glauben, der zentrale Grenzwertsatz würde die Aussage machen, dass eine Stichprobe, ab einer gewissen Größe automatisch normalverteilt sein wird. Dies ist nicht der Fall. Zwar existieren viele Kennwerte, die auf natürliche Art und Weise normalverteilt sind. Dies hat allerdings nichts mit der Größe der Stichprobe oder der Anzahl an Messungen zu tun, sondern liegt lediglich daran, dass die Normalverteilung die Verteilungsfunktion vieler natürlicher Phänomene ist.

Beispiel

Betrachten wir einmal eine Stichprobe von 50 Personen. Wir messen die Körpergröße jeder Person und betrachten die Verteilung aller Messergebnisse. Was uns auffällt, ist, dass die Verteilungsfunktion keiner Normalverteilung folgt. Um genau zu sein, sehen wir, dass die Verteilungsfunktion zwei Gipfel hat – also bimodal ist. Auch bei einer größeren Stichprobe von 100, 1000 oder 1 Million Personen ist die Verteilung immer noch nicht normal. Wieso aber? Unsere Stichprobe enthält eine gleiche Anzahl von Männern und Frauen, die durchschnittliche Körpergröße ist allerdings unterschiedlich für jedes Geschlecht. Eine größere Stichprobe wird dies auch nicht ändern.

Zentraler Grenzwertsatz interaktiv

Verteilungsfunktion der Grundgesamtheit:

Verteilung der Grundgesamtheit

Stichprobenverteilung

Literaturverzeichnis

  1. Wilcox, R. R. (1995). Statistics for the social sciences. San Diego: Academic Press.
  2. Wilcox, R. R. (2012). Introduction to robust estimation and hypothesis testing. Academic Press.