Was ist eine dichotome Variable genau?
Eine dichotome Variable, auch binäre oder zweiwertige Variable genannt, nimmt genau zwei mögliche Werte an, typischerweise 0 und 1, Ja/Nein oder wahr/falsch. In der Statistik dient sie der Kategorisierung ohne implizite Reihenfolge oder Abstände. Beispiele umfassen Geschlecht (männlich/weiblich), Raucher (ja/nein) oder Erfolg (bestanden/gedrückt). Stevens' Taxonomie von 1946 klassifiziert sie als nominalskaliert, was arithmetische Mittel verbietet – ein Mittelwert von 0,6 bei 10 Fällen bedeutet nicht "60 % Erfolg", sondern nur die Häufigkeit.
Im Gegensatz zu kontinuierlichen Variablen fehlt der metrische Charakter vollständig. Rund 25 % aller Variablen in sozialwissenschaftlichen Datensätzen sind dichotom, nach einer Meta-Analyse von Fan (2010). Hier differenziert sich der Begriff scharf von trichotomen oder polytomen Varianten, die mehr Kategorien bieten.
Die Skalen der Messung nach Stevens: Grundlage der Debatte
Stanley Smith Stevens definierte 1946 vier Messskalen: nominal, ordinal, intervall und verhältnis. Dichotome Variablen fallen eindeutig unter nominal, da sie nur Äquivalenzbeziehungen erlauben – keine Rangfolge, keine Nullpunkte, keine Multiplikation. Metrische Skalen starten bei intervall, wo Differenzen sinnvoll sind, etwa Temperatur in Celsius (20 °C ist 10 °C wärmer als 10 °C).
Ordinale Skalen wie Likert-Skalen (1-5) täuschen manchmal metrische Eigenschaften vor, doch selbst hier warnen Experten vor Mittelwerten; die Mediane dominiert. Eine Studie der APA (2019) zeigt, dass 35 % der Publikationen ordinaldaten falsch als metrisch behandeln, was Korrelationskoeffizienten um bis zu 22 % überbewertet. Dichotomie ist hier am reinsten nominal: Kein Abstand, keine Hierarchie.
Diese Klassifikation hält bis heute, trotz Erweiterungen wie Ipsativen Skalen. Stevens' Framework bleibt Standard in 90 % der Lehrbücher.
Warum dichotome Variablen nicht metrisch sind: Die mathematischen Gründe
Ist eine dichotome Variable metrisch? Nein, weil metrisch voraussetzt gleichmäßige Intervalle und additive Eigenschaften, die binäre Werte ignorieren. Nehmen Sie 0/1: Die "Differenz" 1-0 existiert nicht als messbare Distanz; es handelt sich um diskrete Zustände. Arithmetik scheitert: 1 + 1 ergibt nicht 2, sondern bleibt in der Kategorie gefangen. Logistische Modelle umgehen dies, indem sie Odds Ratios berechnen, nicht Mittel.
In der Psychometrie misst der Phi-Koeffizient (bis r=1) Assoziationen zwischen Dichtomen, im Gegensatz zu Pearson-r für Metrisches (r² bis 100 % Varianz). Eine Simulation mit 1000 Datensätzen (R-Software, 2022) ergab: Parametrische Tests auf Dichtomen verzerren p-Werte um 28-45 %. Nominalskala erlaubt Permutationstests oder Chi-Quadrat (χ²), die frequenzbasiert arbeiten.
Die Gruppe der Intervallskalen profitiert von t-Tests (Effektgröße d=0,8 standardisiert), Dichtome von Odds Ratios (OR=2,5 bedeutet 150 % höheres Risiko). Hier liegt der Kern: Metrik impliziert Kontinuität, Dichtomie Diskretion. Eine Mikro-Digression: In der Quantenphysik klingen Spin-Up/Down dichotom, doch Messfehler machen sie quasi-metrisch – irrelevant für Sozialdaten.
Noch gravierender: Mittelwertsbildung täuscht Präzision vor. Bei 60 % Einsen (M=0,6) ignoriert man Variabilität; die Standardabweichung p(1-p)=0,24 quantifiziert Unsicherheit besser.
Unterschiede zu metrischen Variablen: Konkrete Beispiele und Zahlen
Metrische Variablen wie Länge (cm, Verhältnisskala) erlauben Division (2 m = 200 %), Dichtome nicht. Gewicht (kg) hat absoluten Nullpunkt, binäre Raucher-Status ignoriert Intensität. In Regressionsmodellen: Lineare Regression für Metrisches (R²=0,67 typisch), Logit für Dichtomes (Pseudo-R²=0,25-0,40).
Vergleichstabelle implizit: t-Test auf Höhen (μ=175 cm, σ=10) vs. Chi-Quadrat auf Geschlecht (χ²=5,2, df=1, p<0,05). Eine Längsschnittstudie (Panel Study of Income Dynamics, 1968-2020) nutzte 142 dichotome Items; Fehlmetrik führte in 18 % der Analysen zu signifikanten Bias (über 15 %).
Dichtomie eignet sich für Klassifikation (AUC=0,85 in ROC-Kurven), Metrik für Vorhersage (RMSE=2,3). Die Grenze ist scharf: Ab drei Kategorien wird ordinal, potenziell metrisch approximierbar.
Kann eine Ja/Nein-Variable je metrisch werden?
Unter strengen Bedingungen approximiert man Dichtomie metrisch, etwa via Latent-Trait-Modelle (Rasch, 1960), wo 0/1 als Projektion kontinuierlicher Latente wirken. Doch pur bleibt sie nominal. In Umfragen kodieren Forscher "Ja/Nein" als 0/1 für Logits, nie für ANOVAs. Eine Meta-Analyse (Glass, 1976, aktualisiert 2021) bewertet solche Approximationen mit Korrelationen r=0,72 – akzeptabel, aber nicht äquivalent.
Warum das Risiko? Überparameterisierung: t-Tests auf Dichtomen blasen Typ-I-Fehler auf 12-18 % (nominal 5 %). Besser: Exact-Fisher-Test für kleine Stichproben (n<20). Position: Bleiben Sie bei nominalen Tools; Metrik-Fakes kosten Replikationsraten (nur 36 % in Psychologie, Open Science Collaboration 2015).
Statistische Implikationen: Welche Tests für dichotome Daten?
Für dichotome Variablen dominieren nicht-parametrische Tests. Chi-Quadrat für Unabhängigkeit (erwartete Frequenzen >5 in 80 % Zellen), McNemar für gepaarte Designs (paired t-Test-Äquivalent, power 85 % bei n=50). Logistische Regression schätzt ORs mit 95 %-KI (z.B. OR=1,8 [1,2-2,7]).
Vergleich: Pearson auf Dichtomen liefert bis 50 % verzerrte r. Tetrachoric Korrelation korrigiert (r=0,45 vs. 0,32), kostet aber Rechenzeit (x10). In Big Data (n>10^6) skalieren GLM perfekt, Metrik-Annahmen kollabieren.
Eine Ironie des Schicksals: Manche Software (SPSS v27) warnt nicht automatisch vor Mittel auf Dichtomen – der Nutzer muss wachen.
Vergleich: Dichotom versus polytom und ordinal – wann metrisch?
Polytome Variablen (z.B. ROT/Grün/Blau) bleiben nominal, es sei denn, gleichabständig (ordinal wie Noten 1-6). Ab 5-7 Kategorien approximieren Likert-Skalen Intervall (Cronbach α>0,8), erlauben Mittel (Bias <5 %). Dichtomie blockt das: Nur zwei Punkte, kein Mittel sinnvoll.
Studie (Norman, 2010): Ordinal mit 7 Stufen = intervall (Korrektheit 92 %), Dichtomie scheitert (48 %). Kosten: Multinomial Logit für Polytom komplizierter (AIC +15 %), doch präziser (Hit-Rate +22 %). Fazit: Dichtomie isoliert nominal, Polytom flexibler.
Häufige Fehler und praktische Tipps bei dichotomen Variablen
Fehler Nr. 1: Mittel berechnen (in 42 % Excel-Analysen, Forrester 2022). Tipp: Frequenztabellen zuerst (pivot_tables). Nr. 2: Parametrische ANOVA auf Dummy-Variablen – wechselt zu GLM. Nr. 3: Ignorieren von Kollinearität in Logits (VIF>5 erhöht SE um 30 %).
Best Practice: Kodierung 0/1 konsistent, Missing als NA (nicht 99). Power-Analyse: Für OR=1,5 brauch n=200 pro Gruppe (G*Power 3.1). In R: glm(family=binomial); summary(). Vermeiden Sie "metrische Hacks" – sie kosten Glaubwürdigkeit.
Ist eine dichotome Variable metrisch? Die wichtigsten FAQ
Kann eine Ja/Nein-Variable als metrisch gelten?
Nein, außer in grober Approximation via Ordinal-Regression. Pur nominal: Keine Mittel, nur Proportions. Studien (z.B. Agresti 2013) raten ab; Bias bis 35 %.
Warum ist eine dichotome Variable nicht metrisch genug für Regression?
Lineare Modelle verletzen Homoskedastizität (Var= p(1-p), max 0,25). Logit passt perfekt, konvergiert in 99 % Fällen bei n>30.
Wie teste ich Assoziationen mit dichotomen Variablen?
Phi für 2x2-Tabellen (max 1,0), Cramer’s V für größere. Power: 80 % bei n=100 für mittlere Effekte (w=0,3).
Schlussfolgerung: Klare Grenzen für präzise Analysen
Eine dichotome Variable ist definitiv nicht metrisch, sondern nominalskaliert – diese Unterscheidung schützt vor Fehlern in 40 % der Fälle. Stevens' Skalen leiten zu korrekten Tests wie Chi-Quadrat oder Logit, die robuste Ergebnisse liefern (R²-Äquivalente bis 0,4). Vergleiche mit ordinalen oder metrischen Typen unterstreichen: Bleiben Sie bei frequenzbasierten Methoden für Binäres. Praktisch: Immer Skala prüfen, non-parametrisch priorisieren. Wer das ignoriert, riskiert irrelevante Korrelationen und Nullergebnisse. Die Statistik gewinnt an Schärfe durch Disziplin – keine Grauzonen erfinden. (102 Wörter)

