Theorie:
Bei statistischen Aufgabestellungen haben wir es typischerweise mit Mengen von Zahlenwerten vergleichbarer Größen zu tun. In unserem Beispiel im vorigen Abschnitt waren das die Größen mehrerer Apfelbäume, es könnten aber genausogut das Alter verschiedener Menschen, Temperaturen zu verschiedenen Jahres- oder Tageszeiten oder die Zahlen von Büchern in verschiedenen Bibliotheken sein.
Beispiel:
In einem Naturschutzgebiet werden Wasserproben genommen und auf ihren Schadstoffgehalt hin untersucht. Ein bestimmter Schadstoff kam bei den verschiedenen Proben in folgenden Konzentrationen vor (in \(\mu g / l\)):
2,12 | 0,97 | 1,53 | 2,01 | 1,85 | 1,78 | 2,22 |
1,85 | 0,54 | 1,92 | 1,63 | 2,31 | 2,20 | 1,95 |
So eine Liste wird Stichprobe genannt. In diesem Fall besteht die Stichprobe aus \(14\) Einzelwerten, diese Zahl wird typischerweise mit \(n\) bezeichnet (hier ist also \(n = 14\)).
Die einzelnen Werte werden meistens mit \(x_i\) bezeichnet, wobei \(i \in \mathbb{N}\) die Nummer des Wertes ist. Wir haben hier also
\(x_1 = 2,12 \mu g / l\)
\(x_2 = 0,97 \mu g / l\)
\(x_3 = 1,53 \mu g / l\)
\(\cdots\)
\(x_{14} = 1,95 \mu g / l\).
Auch wenn für die Rechnung eine Nummerierung der Werte notwendig ist, spielt die Reihenfolge keine Rolle. Das Ergebnis einer statistischen Auswertung ist für jede Reihenfolge gleich. Manchmal werden Werte daher der Übersichtlichkeit halber von vornherein der Größe nach sortiert.
Die Menge aller möglichen Einzelwerte wird Grundgesamtheit genannt.
Es gibt im Prinzip drei verschiedene Situationen in Bezug auf die Grundgesamtheit:
- Die Stichprobe umfasst alle möglichen Werte, ist also gleich der Grundgesamtheit.
In diesem Fall können die einzelnen Werte mit statistischen Methoden beschrieben werden, bieten jedoch keine Möglichkeit der Vorhersage anderer Werte (da alle Werte bekannt sind). Ein typisches Beispiel wäre die Notenverteilung in einer Schulklasse. - Die Grundgesamtheit gehorcht einer gewissen Verteilung, die Stichprobe ist lediglich eine Untermenge davon.
Ein Beispiel hierfür könnte die Schadstoffkonzentration im oben erwähnten Naturschutzgebiet sein. Mithilfe der statistischen Auswertung der Stichprobe können wir Rückschlüsse auf die Verteilung der Grundgesamtheit ziehen. - Die untersuchte Größe hat theoretisch einen genauen Wert (den wahren Wert), die einzelnen Messwerte schwanken jedoch aufgrund der Messfehler um diesen Wert. Anhand der statistischen Auswertung der Stichprobe kann der wahre Wert mehr oder weniger gut geschätzt werden.
Wenn die Stichprobe nicht alle möglichen Werte enthält (Fall 1), dann ist die Grundgesamtheit stets grundsätzlich unbekannt. Über sie können lediglich Schätzungen abgegeben werden.
Insbesondere wenn die Grundgesamtheit unendlich groß (z.B. bei kontinuierlichen Größen) ist, kann sie nie genau bekannt sein - jede Kenntnis ist immer nur eine Näherung an die wahre Verteilung.
Insbesondere wenn die Grundgesamtheit unendlich groß (z.B. bei kontinuierlichen Größen) ist, kann sie nie genau bekannt sein - jede Kenntnis ist immer nur eine Näherung an die wahre Verteilung.
In allen drei Fällen erfolgt die statistische Auswertung auf dieselbe Weise - lediglich das weitere Vorgehen danach kann unterschiedlich sein.
Wir wollen uns also zunächst mit dieser Auswertung beschäftigen.