Synthetic data as a method for increasing reproducibility and transparency in educational research

Synthetische Daten: Eine Methode zur Verbesserung von Reproduzierbarkeit und Transparenz in der erziehungswissenschaftlichen Forschung

Artikel in FachzeitschriftForschungbegutachtet

Publikationsdaten


VonSimon Grund, Oliver Lüdtke, Alexander Robitzsch
OriginalspracheEnglisch
Erschienen inZeitschrift für Erziehungswissenschaft
Seiten25
Herausgeber (Verlag)VS Verlag fur Sozialwissenschaften
ISSN1434-663X, 1862-5215
DOI/Linkhttps://doi.org/10.1007/s11618-026-01396-6 (Open Access)
PublikationsstatusOnline vorveröffentlicht – 02.2026
KeywordsInternationale Bildungsvergleichsstudien, Transparenz, Reproduzierbarkeit, Synthetische Daten, Open Science

Die freie Verfügbarkeit von Forschungsdaten ist eine wichtige Voraussetzung für Reproduzierbarkeit und Transparenz in der erziehungswissenschaftlichen Forschung. Trotzdem werden empirische Daten nur selten veröffentlicht. In diesem Beitrag geben wir eine Einführung in die Technik synthetischer Daten, einer statistischen Methode, die auf der multiplen Imputation (MI) beruht und die Erstellung simulierter Datensätze ermöglicht, die anstelle der Originaldaten veröffentlicht werden können. Hierbei erörtern wir typische Herausforderung in Bezug auf die Reproduzierbarkeit von Forschungsergebnissen und beschreiben unterschiedliche Ansätze zur Erzeugung synthetischer Daten. Darüber hinaus stellen wir eine Fallstudie vor, in der wir diese Techniken auf Daten der PISA-Studie angewendet und dabei weitere Herausforderungen in Bezug auf fehlende Werte, hierarchische Daten und komplexe Stichprobendesigns betrachtet haben. Die Ergebnisse legen nahe, dass synthetische Daten auch in solchen Situationen in der Lage sind, Ergebnisse verschiedener Analysen zu reproduzieren. Abschließend diskutieren wir verbleibende Herausforderungen und Themen für die zukünftige Forschung.