Nominal, ordinal und metrisch: kleine Übersicht über die Datentypen der Statistik

Share

Während Programmiersprachen, Datenbanken und Tabellenkalkulationsprogramme bisweilen über mehr als ein Dutzend Datentypen verfügen, kennen die Statistiker im wesentlichen nur drei Arten von Daten, aber auch die machen Lehrgangsteilnehmern und Klausurkandidaten bisweilen große Probleme. Diese kleine Artikel klärt auf.

Als Merkmal bezeichnet man in der Statistik, was in einer statistischen Forschungsmaßnahme erhoben wird, und als Merkmalsausprägung das, was bei der Erhebung im konkreten Einzelfall tatsächlich gefunden wird. Beispielsweise ist das Alter einer Person das Merkmal, und die Zahl, die ein bestimmter, einzelner Befragter als Antwort nennt, ist die Merkmalsausprägung. Diese wird durch rechnerische Verfahren ausgewertet, um Aussagen über die Grundgesamtheit, also letztlich über die Wirklichkeit zu gewinnen.

Hierbei unterteilt die Statistik die möglichen Merkmalsausprägungen in drei Kategorien, die als Skalenniveaus bezeichnet werden. Diese Datentypen bestimmen die mit den gefundenen Merkmalsausprägungen möglichen Rechenverfahren. Der Versuch, unanwendbare Methoden zu nutzen, führt zu unbrauchbaren Ergebnissen. Man muß also wissen, womit man es zu tun hat, bevor man mit der numerischen Auswertung beginnt.

 

Datentyp Definition Beispiele
Nominal Rein qualitative Merkmalsausprägungen ohne natürliche Ordnung Geschlecht, Berufsstatus, dichotome Antwort vom Typ „ja/nein“
Ordinal Qualitative Merkmalsausprägungen mit natürlicher Ordnung Qualitätseinschätzung („sehr gut“, „gut“, „mittel“, „schlecht“, „sehr schlecht“)
Metrisch (auch: rational) Merkmalsausprägungen, die in einer Zahl besteht und eine Dimension und einen Nullpunkt besitzt Einkommen (in Euro), Alter (in Jahren), Leistung (in Stück pro Stunde, in km/h)

Übersicht über die drei grundlegenden Skalenniveaus (Datentypen) der Statistik

Da sich nominale Daten nur durch „gleich“ oder „ungleich“ abgrenzen lassen, sind hier nur Angaben über Häufigkeiten und Anteile möglich. Bekanntestes Beispiel hierfür sind die Auswertungen von Wahlen.

Ordinale Merkmale haben zudem eine natürliche Ordnung. Logische Operatoren wie „größer als“ oder „kleiner als“ sind daher anwendbar. Eine Qualitätseinschätzung kann nur besser oder schlechter als eine andere Bewertung sein, aber nicht doppelt oder halb so gut. Wird einer ordinalen Merkmalsausprägung aber eine Zahl als Ergebniswert (willkürlich) zugewiesen, so spricht man von einer Rating-Skala. Dann werden Berechnungen von Durchschnitten, Standardabweichungen und der Normalverteilung doch möglich, ohne daß es sich aber auch um eine metrische Skala handele: die Schulnote ist das beste Beispiel. Diese besteht eben nicht wirklich in einem numerischen Wert: die Zahl ist nur nachträglich zugewiesen. Eine „1“ ist eben nicht genau doppelt oder halb so viel wie eine „2“, sondern nur „besser als“ die „2“ und diese „besser als“ die „3“ usw. Durchschnittsnoten sind daher keine „echten“ Durchschnitte, gleichwohl aber aussagekräftig. Man spricht hier von „pseudometrischer“ Skalierung.

Nur mit genuin metrischen Merkmalen lassen sich alle Rechenoperationen wirklich aussagekräftig durchführen – und etwa Mittelwerte, Korrelationen oder Regressionen berechnen. Sie sind daher auch die Grundlage für die Anwendung der Normalverteilung.

Diese drei Definitionen, von denen bisweilen noch Sonderfälle unterschieden werden, sind das elementare Handwerkszeug der Marktforschung ebenso wie der Qualitätsanalyse. Sie sollten also Klausurkandidaten ebenso wie Praktikern, die solche Methoden anwenden, bewußt sein. Statistische Auswertungssysteme wie SPSS legen sie zugrunde und in elektronischen Systemen müssen sie umgesetzt werden, denn Datentypfehler führen zu unbrauchbaren oder zu gar keinen Ergebnissen.

Links zum Thema

Gauß ohne Schrecken: so funktioniert das Rechnen mit der Normalverteilung (Teil 1-3) | Teil 2-3 | Teil 3-3
Formelsammlung der Betriebswirtschaft

Das könnte dich auch interessieren …