Viel Lärm um „nichts“? Software-Tutorial zur Behandlung fehlender Werte in hierarchischen Daten

25. November 2016

Freies Softwarepaket vereinfacht statistische Verfahren zur multiplen Imputation fehlender Daten.

In der empirischen Bildungsforschung sind die von Schülern und Lehrern erhobenen Daten häufig nicht vollständig, sondern weisen fehlende Werte auf. Teilweise ist das auch gewollt, lässt sich doch so ein großer Fragebogen bequem auf mehrere Personen aufteilen. Ein derart “löchriger” Datensatz kann jedoch dazu führen, dass Schlussfolgerungen weniger genau oder sogar verzerrt ausfallen, wenn die fehlenden Werte nicht richtig behandelt werden.

Das Verfahren der “multiplen Imputation” stellt einen allgemeinen Ansatz zur Behandlung von fehlenden Daten dar, in dem anhand eines statistischen Modells verschiedene plausible Ersetzungen für die fehlenden Werte generiert werden. Das Problem: Ist das statistische Modell falsch spezifiziert, kann auch die multiple Imputation zu Verzerrungen führen. Besonders relevant ist dieses Problem, wenn die Daten hierarchisch strukturiert sind (z.B. Schüler in Schulen), da sowohl die Struktur der Daten als auch die Komplexität der Fragestellungen im verwendeten Modell berücksichtigt werden müssen. Softwarelösungen existieren zwar, erfordern jedoch häufig Programmierfähigkeiten und eine große Vertrautheit mit den statistischen Modellen.

Ein von Wissenschaftlern des IPN vor kurzem publizierter Artikel beschreibt in einem umfassenden Tutorial und anhand zweier Beispiele die Nutzung des Softwarepaketes “mitml” für die statistische Software R, welches am IPN entwickelt wurde und das anstrebt, die multiple Imputation deutlich zu vereinfachen und zu automatisieren. Besonderes Augenmerk wird auf die Passung zwischen den verschiedenen Fragestellungen und Spezifikationen des statistischen Modells gelegt. Weiterhin wird auf die Analyse multipel imputierter Daten und die Prüfung statistischer Hypothesen eingegangen.

Der Artikel ist frei verfügbar und erschienen in SAGE Open:

Grund, S., Lüdtke, O., & Robitzsch, A. (2016). Multiple imputation of multilevel missing data: An introduction to the R package pan. SAGE Open, 6(4), 1–17. doi: 10.1177/2158244016668220
http://sgo.sagepub.com/content/6/4/2158244016668220

Das Softwarepaket ist ebenfalls frei verfügbar über CRAN oder gitHub:

https://cran.r-project.org/package=mitml
https://github.com/simongrund1/mitml