Renommee auf dem Prüfstand

Selbst Studien, die in so renommierten Zeitschriften wie „Science“ und „Nature“ erschienen sind, halten einer Überprüfung mitunter nicht stand. Wie Forscher berichten, ließen sich bei acht von 21 sozialwissenschaftlichen Arbeiten die Ergebnisse nicht wiederholen.

Die Wissenschaft hat ein Problem: Viel zu viele Studienergebnisse lassen sich nicht reproduzieren. Das zeige sich quer durch die Disziplinen, wie kritische Forscher seit einigen Jahren immer häufiger bemängeln. Und ohne Wiederholbarkeit sei jede Forschung letztlich wertlos. Denn erst dadurch könnten Fehler aufgedeckt und Zufallsbefunde aussortiert werden. Angestoßen wurde die Debatte schon 2005 vom US-Biostatistiker John P. A. Ioannidis mit seinem Artikel „Why Most Published Research Findings Are False“, in dem er den Begriff der „reproduction crisis“ prägte.

Auch um den Ruf und die Glaubwürdigkeit der Wissenschaft zu retten, widmen sich mittlerweile einige internationale Projekte akribisch der Wiederholung von Studien. Beispielsweise hat ein Team um Brian Nosek, Psychologe und Leiter des Center for Open Science in Charlottesville, vor drei Jahren berichtet, dass sein Team nur bei etwas mehr als einem Drittel von 100 psychologischen Studien die ursprünglichen Ergebnisse reproduzieren konnte. Im Jahr darauf wurden 18 Studien aus dem Bereich der experimentellen Ökonomie überprüft. Die Ergebnisse konnten in 61 Prozent der Fälle wiederholt werden.

Verbesserte Überprüfung

Diese und andere teilweise noch laufende Überprüfungen haben nicht nur viele Diskussionen ausgelöst, sie sind auch selbst Ziel der Kritik geworden. Man warf ihnen methodologische Schwächen vor. Deswegen haben die Autoren der soeben in „Nature Human Behaviour“ erschienenen Überprüfung von sozialwissenschaftlichen Studien einen neuen, verbesserten Ansatz verwendet. Mit dabei war auch dieses Mal Brian Nosek, außerdem einige Forscher der Universität Innsbruck, darunter der Wirtschaftswissenschaftler Felix Holzmeister, der bereits an der Überprüfung der ökonomischen Studien beteiligt war.

Die 21 (teilweise) replizierten Studien - alle sind zwischen 2010 und 2015 in den renommierten Journals „Science“ und „Nature“ erschienen - wurden für mehr Transparenz vorab öffentlich registriert. Außerdem gab es in den meisten Fällen eine Absprache mit den Originalautoren, damit die Abläufe möglichst genau wiederholt werden konnten.

In immerhin 13 Fällen kamen die neuen Studien zu gleichen Ergebnissen wie die ursprünglichen. Die beobachteten Effekte waren dabei im Schnitt jedoch um rund die Hälfte geringer. Die Wiederholungen waren nämlich so angelegt, dass es auch signifikante Ergebnisse geben konnte, wenn der statistische Effekt nur halb so groß war - so waren die Teilnehmerzahlen rund fünf Mal höher als bei den Originalstudien. „Die Ergebnisse verdeutlichen, dass statistisch signifikante wissenschaftliche Erkenntnisse mit Vorsicht interpretiert werden sollten, solange sie nicht unabhängig reproduziert werden konnten. Und das auch dann, wenn sie in den renommiertesten Fachzeitschriften veröffentlicht werden“, so Studien-Mitautor Michael Kirchler von der Uni Innsbruck.

Originalautoren nehmen Stellung

Die Originalautoren der nicht reproduzierbaren Studien erhielten zudem die Gelegenheit, Stellung zu nehmen; die Stellungnahmen wurden zeitgleich in „Nature Human Behaviour“ veröffentlicht. Die meisten zeigten sich grundsätzlich dankbar für die fachliche Überprüfung. Manche nahmen ihren Fehlschlag resignierend zur Kenntnis. Andere kritisierten methodologische Abweichungen. Einige ließen sich hingegen sogar dazu animieren, ihre Arbeit gleich selbst noch einmal zu wiederholen und scheiterten zumindest bei manchen Teilergebnissen. Außerdem erklärten Autoren, dass sich die sozialen Umstände seit der Originalpublikation geändert hätten.

Manche verteidigten allerdings auch ihre ursprüngliche Studie, wie etwa die Autoren einer Arbeit zur Wirkung von Literatur im echten Leben: Die Replikation eines Teilergebnisses sei zwar jetzt nicht geglückt, es gebe aber bereits Wiederholungsarbeiten, die zu den denselben Ergebnissen gekommen wären. Auch das Innsbrucker Team betont in einer Aussendung, aus der Überprüfung lasse sich nicht zwingend ableiten, dass die ursprünglichen Studienergebnisse schlicht falsch wären. Es könnte kleine Fehler und Unterschiede bei der Wiederholung geben.

Zuverlässige Prognose

Parallel zur Überprüfung der Studien baten die Wissenschaftlerinnen und Wissenschaftler 400 Kollegen weltweit um eine Einschätzung der Arbeiten. Sie konnten in einem Online-Marktplatz („Prognosemarkt“) auf die Reproduzierbarkeit der Studien wetten. In 18 von 21 Fällen sagten diese „Märkte“ die Ergebnisse stimmig voraus. Auch in der Einschätzung der Effektgrößen lag die Forschungsgemeinde vielfach richtig. „Der Einsatz von Prognosemärkten könnte eine Möglichkeit sein, die Entdeckung von neuen, zuverlässigen Forschungsergebnissen zu beschleunigen“, meint Kirchler.

Insgesamt sollten die neuen Ergebnisse nicht als Indiz dafür herangezogen werden, „dass die Wissenschaft in die falsche Richtung geht“, so Brian Nosek. „Ihre ständige Selbstkontrolle, um Probleme zu erkennen und zu korrigieren“, sei vielmehr die „größte Stärke der Wissenschaft“.

Eva Obermüller, science.ORF.at

Mehr zum Thema