Die Suche nach Bestätigung: Signifikanz vs. Relevanz

Ein häufiger Fallstrick in der frühen Planung von Forschungsprojekten liegt in der Fixierung von Wissenschaftern auf das Ermitteln von wissenschaftlicher Evidenz für eine einzelne Hypothese, der Vernachlässigung der Evidenz, die gegen diese Hypothese spricht, und vor allem das Versagen bei der Berücksichtigung anderer Erklärungsansätze. Der Mensch tendiert dazu, Fragen zu stellen, die sich mit „Ja“ beantworten lassen, wenn die von ihm favorisierte Hypothese zutrifft.

Eine häufige kognitive Falle bei der Analyse von Daten kann gut am Beispiel des texanischen Scharfschützen demonstriert werden: Ein mäßig begabter Schütze feuert eine Serie von Schüssen zufällig auf eine leere Wand, malt anschließend das Ziel um den Bereich mit den häufigsten Treffern und zeigt stolz auf seine Trefferrate. Natürlich erscheint uns dieses Verhalten lächerlich, aber auch in der wissenschaftlichen Forschung wird (hin und wieder?) nach diesem Prinzip gearbeitet: Häufig erhält der Wissenschafter vielversprechende Daten und interpretiert diese als den richtigen Weg, übersieht dabei aber die 27 weiteren Möglichkeiten der Interpretation dieser Daten und wählt nur die Option, welche die annehmbarsten oder interessantesten Ergebnisse liefert. Schon ist die Forschung auf einem Weg, der keine unbeeinflusste Repräsentation der Daten mehr erlaubt. Hier kommt das sogenannte p-Hacking ins Spiel: die Ausbeutung wissenschaftlicher Freiheitsgrade bis zu p < 0,05. Denn das Maß der Dinge in der (ernährungs-)wissenschaftlichen Forschung ist der p-Wert. Nur Unterschiede, die sich mit einem p-Wert von maximal 5 % (p < 0,05) ermitteln lassen, sind signifikante Unterschiede, alles andere ist irrelevant.

p-Hacking und p-HARKing

Eine Studie unter 2000 US-amerikanischen Psychologen zeigte, wie häufig dieses p-Hacking vorkommt (John, Loewenstein et al., 2012). Die Hälfte der Wissenschafter publizierte nur jene Studien, die „funktionierten“; 58 % schauten zunächst auf die Ergebnisse und entschieden dann, ob weitere Daten erhoben werden sollten, 43 % entschieden sich dafür, Daten auszuschließen, nachdem sie ihren Einfluss auf den p-Wert überprüft hatten, und 35 % gaben unerwartete Ergebnisse aus, als wären sie von vornherein postuliert worden. Norbert Kerr bezeichnete diese Praxis als HARKing – „Hypothetising after Results are Known“ (Hypothesenbildung nach Vorliegen der Ergebnisse).

Hier sei das ein wenig überstrapazierte, aber nichtsdestotrotz noch immer erschütternde Beispiel der medial erfolgreichen Schokoladenstudie erwähnt: Deutsche Dokumentationsfilmer ermittelten durch p-HARKing Studienergebnisse, die auch für sonst seriöse Medien ausreichend überzeugend waren, um Gewichtsverlust, gesenkte Blutcholesterinwerte oder höheres Wohlbefinden als wissenschaftlich bestätigt anzusehen. Hierzu führten sie 18 Messungen – u. a. Körpergewicht, Plasmaprotein und Schlafqualität – an 15 Probanden durch, von denen einige ein paar Wochen lang mit Extraschokoladeriegeln versorgt worden waren. Bei derart vielen Paarvergleichen ist die Wahrscheinlichkeit, allein durch Zufall statistisch signifikant erscheinende Ergebnisse zu finden, deutlich höher als 50 %. Tatsächlich war das bei drei der untersuchten Parameter der Fall, und genau diese wurden schließlich publiziert. Zur Ehrenrettung der Wissenschaft sei jedoch erwähnt, dass die Autoren für ihre Publikation ein „Fake-Journal“ erfanden, was allerdings der medialen Präsenz keinen Abbruch tat; offensichtlich war keiner der Wissenschaftsjournalisten in der Lage, die wissenschaftliche Integrität dieses Journals zu hinterfragen.

Signifikanz vs. Relevanz

Der p-Wert steht allerdings schon seit seiner Einführung vor mehr als 90 Jahren in der Kritik (Nuzzo, 2014). Ein häufiger Irrglaube im Zusammenhang mit dem p-Wert ist, dass dieser die Wahrscheinlichkeit angibt, mit der die Unterschiede in den Daten nicht zufällig sind. Die Annahme, dass signifikante Ergebnisse wissenschaftlicher Studien mit einer Chance von 1:20 oder 5: 100 nicht zufällig sind, ist zwar omnipräsent, aber dennoch falsch. Der p-Wert bezeichnet nämlich eben nicht die Wahrscheinlichkeit von zufälligen Unterschieden, da er bereits unter Annahme einer 100%igen Wahrscheinlichkeit berechnet wird. Anders formuliert: Der p-Wert gibt die Wahrscheinlichkeit der erhaltenen Ergebnisse unter der Annahme an, dass sie tatsächlich zufällig sind. Richtigerweise sollte der p-Wert als Indikator verwendet werden, der bei der Entscheidung hilft, ob die Wahrscheinlichkeit der Ergebnisse in der Tat zu 100 % zufällig bedingt sind. Ein niedriger p-Wert sollte also korrekterweise so interpretiert werden, dass unter der Annahme, dass die Ergebnisse zufällig sind, die erhaltenen Unterschiede in den Mittelwerten sehr unwahrscheinlich sind. Die Ursache für diese Unterschiede sind also nicht im Zufall zu suchen, vielmehr gilt es, andere Methoden zu finden, um die Ursache für die Unterschiede zu ermitteln (Lambdin, 2012).

Umgekehrt gilt Ähnliches: Der p-Wert bezeichnet nicht die Wahrscheinlichkeit für die Richtigkeit der Forschungshypothese. Die (statistische) Ablehnung der Null-Hypothese unterstützt alle Forschungshypothesen, die einen Effekt postulieren, nicht nur die eigene Hypothese; es gibt also eine unbestimmte Zahl möglicher Erklärungen für den gefundenen Effekt. Die Signifikanz indiziert also nur, dass eine weitere Untersuchung der Forschungshypothese gerechtfertigt ist, aber nicht, dass diese Forschungshypothese bestätigt wurde. Leider werden zur Publikation viele Forschungsarbeiten angenommen, in denen der p-Wert fälschlicherweise als Indikator für die Richtigkeit der Forschungshypothese herangezogen wird, obwohl die Methodik und die Hypothesen selbst zweifelhaft sind. In diesem Zusammenhang ist auch das „Ausmaß der Signifikanz“ zu kritisieren: Wenn Signifikanz bei einem p-Wert von < 0,05 festgelegt wird, dann kann bei einem p-Wert von 0,067 nicht von „knapp signifikant“ gesprochen werden; ebenso ist es Unsinn, bei diesem von vornherein festgelegten Signifikanzniveau und einem p-Wert < 0,001 von „hochsignifikant“ zu sprechen. Tatsächlich kommt dies in einer Vielzahl von Publikationen dennoch genauso vor (Hubbard, Lindsay, 2008). Möglicherweise die unglücklichste Folge dieser Fehlverwendung von statistischer Signifikanz auf Basis des p-Wertes ist die Menge an wissenschaftlicher Literatur, die auf dieser Grundlage produziert wurde. Inzwischen lässt sich nahezu für jede Position eine Studie finden, die auf der Basis signifikanter Ergebnisse bestätigt werden kann. Die Ironie hierbei ist, dass Ronald Fisher, der „Erfinder“ des p-Wertes, diesen nie als definitiven Test verstanden haben wollte, sondern lediglich als informelle Methode zur Beurteilung, ob die gefundene Evidenz im eigentlichen Sinne des Wortes signifikant ist: Es lohnt sich, weiter in diese Richtung zu forschen. Oder anders formuliert: Statistik ist ein abstraktes mathematisches Konstrukt, das uns bei der Entscheidung unterstützt, was wir als weitere sinnvolle Forschungsfragen formulieren. Es ist kein Konstrukt, das die Richtigkeit oder Falschheit unserer Hypothesen bestätigt.

Wie groß ist ein Effekt?

Zur Fehlinterpretation der statistischen Signifikanz kommt nun noch die Fehlbewertung des p-Wertes als Maß für die praktische Relevanz hinzu. Vernünftigerweise sollten wir uns nicht die Frage stellen, ob es einen Effekt gibt, sondern wie groß dieser Effekt ist. Die Diskussion um die (vermeintlich) krebserregende Wirkung von rotem, verarbeitetem Fleisch ist hier ein gutes Beispiel. Die von der WHO für diese Einstufung herangezogenen Metaanalysen ergaben ein um 18 % erhöhtes Risiko für Kolorektalkrebs pro 50 g an verarbeitetem Fleisch pro Tag. Zum einen sei in diesem Zusammenhang auf die Kritik an der Zuverlässigkeit von erinnerungsbasierten Daten verwiesen.Zum anderen zeigt die Betrachtung der absoluten Zahlen, dass bei einer Inzidenz von Kolorektalkrebs von 61 Fällen pro 1000 Menschen im Laufe des Lebens dieser Menschen (das entspricht den Zahlen für UK) eine Risikoerhöhung von 18 % bedeutet, dass 72 Menschen, also 11 Menschen mehr pro 1000 Einwohner, an dieser Krebsart erkranken. Insgesamt ist die Bedeutung dieser Ergebnisse für eine Vielzahl von Menschen relativ gering.

Zudem sei noch angemerkt, dass aufgrund der statistisch-mathematischen Berechnungen eine statistische Signifikanz gerade bei epidemiologischen Studien letztlich immer erreicht werden kann, dies ist lediglich eine Frage einer ausreichend großen Stichprobe.

Dieser Text ist ein gekürzter und adaptierter Auszug des Artikels „Wie viel Wissenschaft braucht Ernährung?“ aus der ernährung heute 2_2017.

Literaturverzeichnis

Hubbard R, Lindsay RM. Why: P Values are not a Useful Measure of Evidence in Statistical Significance Testing. Theory & Psychology 18 (1): 69–88 (2008).

Ioannidis JPA: Inplausible Results in Human Nutrition Research. BMJ 347: f6698 (2013)

John LK, Loewenstein G, Prelec D: Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science 23 (5): 524–532 (2012).

Lambdin C: Significance Tests as Sorcery: Science is Empirical-significance Tests are Not. Theory & Psychology 22 (1): 67–90 (2012).

Nuzzo R: Statistical Errors. Nature 506 (7487): 150–152 (2014).

Nuzzo R. Fooling Ourselves. Nature 526 (7572): 182–185 (2015).