Stichprobenumfang

Definition

Der Begriff „Stichprobenumfang“ stammt aus der Statistik. Er bezeichnet die Anzahl (n) ausgewählter Personen oder Objekte (angegeben als Absolutwert, also Zahl) aus einer angegebenen Menge, der Grundgesamtheit (N, Angabe als Zahlenwert). Damit ist er ein Maß für die Größe einer im Hinblick auf ein bestimmtes Merkmal oder eine zu prüfende Eigenschaft betrachteten Gruppe von Individuen oder Gegenständen.

Wenn die Grundgesamtheit und die Stichprobe identisch sind, also die komplette Grundgesamtheit für die Datenerhebung verwendet wird, nennt man dies eine Vollerhebung. In der Regel ist die Grundmenge an Merkmalsträgern jedoch zu groß für eine Vollerhebung. Die Grundmenge könnte beispielsweise die Gesamtbevölkerung Deutschlands sein oder die an einem Tag mit einer Anlage hergestellten Produkte in der Massenfertigung. Meist wird deshalb eine Teilerhebung vorgenommen. Dabei handelt es sich um eine Stichprobe aus der Grundgesamtheit.

Vermindert oder bereinigt werden sollte der Umfang der gezogenen Stichprobe um irrelevante Daten (wie Messfehler oder aus nicht plausiblen Gründen erheblich abweichenden Werte, „Ausreißer“) und gemäß den vorher festgelegten Ausschlussfaktoren. Daraus resultiert der relevante Stichprobenumfang, der die Anzahl der Merkmalsträger umfasst, die bei einer statistischen Erhebung tatsächlich einbezogen werden.

Um den Stichprobenumfang zu bestimmen, sollte dieser möglichst so gewählt werden, dass die Teilmenge der Grundgesamtheit möglichst klein, jedoch für die Grundgesamtheit repräsentativ ist.

Auswahl der Stichprobe

Die Stichprobenauswahl kann nach mehreren Methoden erfolgen, je nach Grundgesamtheit und Zweck der Erhebung. Prinzipiell können die Vorgehensweisen der Probennahme drei unterschiedlichen Klassen von Auswahlverfahren zugeordnet werden. Dies sind:

die zufällige Auswahl (Wahrscheinlichkeits- oder Zufallsauswahl, probability sampling);
die bewusste Auswahl (non-probability sampling);
die willkürliche Auswahl (convenience sampling).

Die Wahrscheinlichkeits- oder Zufallsauswahl hat durch die zufällige (und nicht bewusste oder willkürliche) Auswahl von Elementen aus einer Grundgesamtheit als einzige Auswahlform das Potenzial, repräsentative Ergebnisse zu liefern. Voraussetzung dafür ist eine hinreichend große Menge an Merkmalsträgern in der Stichprobe – also der gewählte Stichprobenumfang. Die Zufallsauswahl erlaubt also Rückschlüsse auf die Grundgesamtheit mittels statistischer Tests und damit die Generalisierung von Aussagen, die auf der Stichprobe beruhen.

Etablierte Methoden der Stichprobennahme sind die einfache Zufallsstichprobe, die geschichtete Stichprobe sowie Cluster- oder Klumpenstichproben.

Bei der einfachen Zufallsstichprobe(simple random sample) besteht für alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit, ausgewählt zu werden – etwa per Zufallsgenerator oder Ziehung. Diese Form ist sehr geläufig und gilt als zuverlässigste Methode.
Bei dergeschichteten Stichprobe (stratified random sampling) werden Zufallsstichproben aus den Gruppierungen einer bereits untergliederten (heterogenen) Grundgesamtheit erhoben. Einteilungsmerkmale sind beispielsweise Alterskohorten, Einkommensklassen oder Produktlinien. Der Umfang der Stichprobe kann dabei proportional oder disproportional zur Anzahl der Elemente in einer Schicht oder Gruppierungseinheit sein.
Bei der Cluster- oder Klumpenstichprobe(multi-stage cluster sampling) handelt es sich um eine mehrstufige Zufallsauswahl. Zunächst werden aus der Grundgesamtheit gleichartige Einheiten ausgewählt, beispielweise Schulklassen aus Regelschulen in den unterschiedlichen Bundesländern oder Produkte, die jeweils in einem bestimmten Zeitfenster gefertigt wurden. In einer zweiten Stufe werden anschließend aus diesen so ausgewählten Einheiten Elemente ausgewählt – Schüler der ausgewählten Schulklasse oder einzelne gefertigte Artikel.

Die bewusste Auswahl beruht auf einem gedanklichen Prozess der Vorsegmentierung oder Vorsortierung der Grundgesamtheit. Sie verstößt damit letztlich gegen die Regeln der Repräsentativität, wenn beispielsweise nach dem Konzentrationsprinzip (Cut-off-Verfahren) eine Auswahl der Elemente anhand einer spezifischen Eigenschaft (wie der Nichteinhaltung eines Ist-Werts) erfolgt oder wenn aufgrund von Erfahrungswerten oder einer speziellen Fragestellung nur (wenige) typische Fälle aus einer gegebenen Menge ausgewählt werden. Interessant werden kann eine solche bewusste Begrenzung des Stichprobenumfangs und der Stichprobennahme bei der qualitativen Überprüfung von Aussagen bei zahlenmäßig eng begrenzten Grundgesamtheiten.

Übliche weitere Verfahren der bewussten Auswahl sind die Quotenauswahl und das Schneeballprinzip.

Die Quotenauswahl(quota sample) wird in der Markt- und Meinungsforschung oft angewendet. Die Quoten entsprechen dabei einer bekannten Merkmalsverteilung in der Grundgesamtheit, etwa dem Geschlechteranteil. Die Stichprobenauswahl und der Stichprobenumfang müssen der Quote entsprechen, um aussagekräftig zu sein.
Nach dem Schneeballprinzip(snowball sampling) werden zunächst im Rahmen einer Stichprobennahme Merkmalsträger ausgewählt und interviewt. In einem zweiten (und dritten) Schritt werden danach die Kontakte der Interviewten (und danach deren Kontakte) genutzt, um den Stichprobenumfang zu erweitern.

Bei der willkürlichen Stichprobennahme (convenience sampling) werden Merkmalsträger ohne jegliches Kontrollverfahren in die Stichprobe aufgenommen. Berücksichtigt werden zufällig verfügbare Personen, etwa bei Umfragen auf der Straße, oder Freiwillige, wie bei öffentlich zugänglichen Marktforschungsbefragungen in Social Media. Aufgrund der hohen Wahrscheinlichkeit von Verzerrungen sind sie nicht repräsentativ und lassen keine Rückschlüsse auf die Grundgesamtheit zu, können aber Trends abbilden oder der Prüfung von Zusammenhangshypothesen dienen.

Berechnung des Stichprobenumfangs

Wie groß der Stichprobenumfang ist, ist eine entscheidende Grundlage für die Aussagen, die in der Statistik getroffen werden sollen.

Damit die Stichprobe einer Teilerhebung repräsentativ für die Grundgesamtheit ist, diese also ohne Verzerrung abbildet und ein statistisch aussagekräftiges Ergebnis liefert, muss der minimale Stichprobenumfang berechnet werden. Üblich ist dabei die Annahme einer Gauß’schen Normalverteilung (Glockenkurve) der Eigenschaften oder Merkmale.

Grundsätzlich gilt, dass die Qualität der Aussage mit dem Umfang der Stichprobe zunimmt. Das heißt: Je größer der Stichprobenumfang ist, desto abgesicherter ist das Ergebnis der Erhebung und desto eher kann ihm vertraut werden – umso höher ist also die Aussagekraft.

Mathematisch betrachtet nähert sich der aus den Erhebungsdaten berechnete arithmetische Mittelwert (in Bezug auf ein Merkmal) mit zunehmendem Stichprobenumfang an den Mittelwert der Grundgesamtheit an. Größere Stichproben führen zu kleineren (Standard-)Abweichungen. Aus diesen resultieren kleinere Konfidenz- sprich Vertrauensintervalle, die Teststärke (power) wächst. Schätzungen, Ableitungen und andere Aussagen werden präziser, die Wahrscheinlichkeit, einen vorhandenen Effekt tatsächlich nachzuweisen, steigt. Bei jeder Erhebung ist also zu klären, welcher Fehler (sampling error), welche Abweichung noch toleriert werden kann. Je kleiner diese Toleranz ist, desto größer muss der Stichprobenumfang sein.

Der erforderliche Stichprobenumfang hängt bei Voraussetzung einer Gauß- bzw. Normalverteilung von drei Faktoren ab. Dies sind:

die Standardabweichung der Grundgesamtheit;
das angestrebte Konfidenzniveau;
die zugelassene Fehlergrenze (oder erlaubte Abweichung).

Die Standardabweichung der Grundgesamtheit (bezeichnet mit dem griechischen Buchstaben Sigma; σ) ist in vielen Fällen aus bereits durchgeführten Erhebungen und Berechnungen oder aus Tabellen bekannt. Sie kann aber auch neu aus der Stichprobe berechnet werden, wenn diese als Grundgesamtheit definiert und erstmals ausgewertet wird. In vielen Fällen reicht auch eine Schätzung auf Basis der Stichprobenwerte.

Das Konfidenz- oder auch Vertrauensniveau gibt an, mit welcher Wahrscheinlichkeit die erhobenen Daten auch in der Grundgesamtheit innerhalb des Konfidenzintervalls liegen sollen. Will man ein hohes Konfidenzniveau erreichen, benötigt man größere Stichproben. Häufig werden Konfidenzniveaus von 95 Prozent und mehr angestrebt, damit man signifikante Aussagen erhält. Die aus den Konfidenzniveaus abgeleiteten z-Werte sind in Standardnormalverteilungs-Tabellen nachzuschlagen.

Die Fehlergrenze gibt die Spanne der zulässigen bzw. noch tolerierten Abweichung des gemessenen Werts vom Mittelwert der Grundgesamtheit an. Kleinere Fehlerspannen – gleichbedeutend mit Konfidenzintervallen – erfordern größere Stichproben. In der Qualitätssicherung werden hier beispielsweise obere und untere Grenzwerte für Maße und Gewichte vorgegeben. Bei Six Sigma als Verfahren der Qualitätskontrolle ist dies die sechsfache (+/-) Standardabweichung der Grundgesamtheit.

Der Stichprobenumfang (n) kann mit folgender Formel berechnet werden:

Stichprobenumfang n ≥ [(Konfidenzwert z × Standardabweichung σ) / Fehlergrenze]²

Das Ergebnis der Berechnung wird immer auf einen ganzzahligen Wert aufgerundet, da als Einheiten in der Stichprobe immer Personen oder vollständige Werkstücke betrachtet werden.

Seminarempfehlungen zum Thema Stichprobenumfang

REFA-Grundausbildung 4.0 –
auch in der Online-Variante bewährt und gefragt!