Eine Studie sagt...
Zahlreiche Aussagen zum Thema Ernährung basieren auf empirischen Studien: Ernährungsempfehlungen, Krankheitsrisiken durch ungünstige Ernährungsweisen, präventive und kurative Wirkungen der Ernährung auf Krankheiten. Wie gut wissen wir wirklich Bescheid? Woraus leiten sich diese Aussagen ab? Welche Methoden der empirischen Forschung ermöglichen konkrete Schlussfolgerungen? Welche besonderen Herausforderungen ergeben sich beim Thema Ernährung für die Wissenschaft?
Grundübel Variation
In den Ernährungswissenschaften sind mittlerweile viele Mechanismen auf zellulärer Ebene bekannt. Von der Kenntnis des Zusammenspiels auf der Ebene eines Lebewesens ist man aber weit entfernt. Warum? Zum einen stehen viele Mechanismen zueinander in Wechselwirkung, zum anderen sind wir vielfältig: groß/klein, jung/alt, Frau/Mann. Und die sich beeinflussenden Faktoren wie Lebensstil, Stoffwechsel, Gene etc. sind zahlreich. Zusätzlich ist Essen Teil des Alltags und lässt sich schwer hinter verschlossenen Türen und vor weißen Wänden, sprich: unter kontrollierten Bedingungen, erforschen. Die Wissenschaft sieht sich also mit einer großen Menge an Variationen konfrontiert. Diese Variationen sind die Grundbedingung – oder das Grundübel – für die Anwendung empirischer und statistischer Forschungsmethoden!
Welche Pfeile hat die Wissenschaft im Köcher, um selbst in so komplexen Gebieten wie der Ernährung treffsicher zu sein? Entfernung und Größe des Ziels, eine „ruhige Hand“, die genau misst, und ein „gutes Auge“, das einen unverzerrten Blick ermöglicht, sind entscheidend für den Erfolg. Zu Beginn steht aber die Suche nach dem Ziel selbst. Aufgrund der Komplexität der Ernährung sehen sich Forscher versucht oder auch gezwungen, sehr viele Ziele gleichzeitig ins Visier zu nehmen. Eine Medikamentenstudie beschränkt sich typischerweise auf den Einfluss einer 0,5 g schweren Kapsel auf einen klar definierten Messwert – eine irrelevante Konstellation im Bereich Ernährung. Dennoch ist eine klar festgelegte Fragestellung ein enorm wichtiges und durchaus herausforderndes Element einer Studie und gleichzeitig ein relevantes Qualitätsmerkmal. Eine Studie ohne klar definierte Fragestellung verliert sich in unüberschaubaren Datenmengen und überrascht am Ende mit einem Treffer mitten ins Schwarze. Gerade bei einem solchen „Zufallstreffer“ muss die Anzahl der Ziele, d. h. die Anzahl der Fragestellungen, die zur Auswahl standen, genau berücksichtigt werden. Viele Fragestellungen erhöhen die Gefahr eines falsch-positiven Resultats.
Wissenswert
Multiples Testproblem: Jedes statistische Resultat basiert auf einer Stichprobe – einer unvollständigen Sicht der Dinge – und ist mit einer gewissen Irrtumswahrscheinlichkeit behaftet. Werden viele Fragestellungen zum selben Thema untersucht, akkumuliert sich der Irrtum.
Eine Frage des Designs
Grundsätzlich können Forschungsfragen folgendermaßen gruppiert werden:
1) Eine Studie soll eine Aussage für eine bestimmte Zielgruppe (Grundgesamtheit) treffen, z. B. den Anteil der Adipösen oder den Kohlenhydratanteil in der Ernährung bei über-70-Jährigen.
2) Eine Studie soll einen Zusammenhang zwischen zwei oder mehreren Merkmalen ermöglichen, z. B. wie stark sich der Anteil Adipöser zwischen Männern und Frauen unterscheidet oder ob der Anteil Adipöser mit der Kohlenhydrataufnahme zusammenhängt.
3) Eine Studie soll die Wirkung einer Intervention untersuchen, z. B. wie sich der Anteil der Adipösen in einer Gruppe, die sich über einen Zeitraum kohlenhydratreich ernährt, im Vergleich zu einer Gruppe, die sich kohlenhydratarm ernährt, verändert.
Die drei Arten von Fragestellungen erfordern unterschiedliche Herangehensweisen (Studiendesigns) und ermöglichen sehr unterschiedliche Schlussfolgerungen. Alle drei Gruppen von Fragestellungen können wertvolle Erkenntnisse liefern.
Fragestellung 1 quantifiziert den Kohlenhydratanteil bzw. den Anteil Adipöser. Die Herausforderung für das Studiendesign zur Beantwortung dieser Fragestellung ist es, einen „richtigen“ (unverzerrten) und genauen Wert (Schätzung) für den Kohlenhydratanteil zu ermitteln. Die Genauigkeit (Breite des Konfidenzintervalls) ist indirekt proportional zur Anzahl der erhobenen Personen (Stichprobengröße) und lässt sich somit meist gut in den Griff bekommen. Ein größeres Problem kann die Verzerrung (Bias) des Schätzers darstellen. Angefangen von einer nicht repräsentativen Stichprobe (Selection Bias) über Antwortverweigerungen bestimmter Personen (Response Bias) bis hin zu falschen Angaben (Measurement Bias) gibt es gerade bei Ernährungsstudien zahlreiche plausible Fehlerquellen. Gegen Verzerrung hilft keine große Stichprobe (die Antworten werden durch mehr falsche Antworten nicht richtiger), und die Diagnose, ob und wie stark eine Verzerrung vorliegt, lässt sich nur erahnen. Somit sind Aussagen über einen Parameter der Grundgesamtheit besonders vorsichtig zu interpretieren.
Fragestellung 2 zielt auf den Zusammenhang zwischen Merkmalen ab, zum Beispiel inwieweit die Kohlenhydrataufnahme mit dem Anteil der Adipösen zusammenhängt. Auf den ersten Blick mag diese Fragestellung höhere Anforderungen an eine entsprechende Studie stellen als Fragestellung 1. Gerade das eben geschilderte Problem der komplexen Verzerrungen entschärft sich jedoch bei der Frage nach dem Zusammenhang: Geben zum Beispiel alle Befragten in ihren Ernährungsprotokollen zu hohe Mengen an Brot, Kartoffeln, Reis und Nudeln an (Measurement Bias), oder ist die Teilnahmebereitschaft an der Studie unter Personen mit kohlenhydratarmer Ernährung grundsätzlich höher (Selection Bias), kommt die Studie zu Fragestellung 1 unabhängig von ihrem Umfang zu einem verzerrten und somit falschen Ergebnis. Interessieren wir uns hingegen nicht für die Kohlenhydrataufnahme per se, sondern für den relativen Unterschied zwischen Adipösen und nicht Adipösen, ergibt die Studie ein korrektes Ergebnis. Bedingung dafür ist jedoch, dass die Verzerrungen hinsichtlich Teilnahmebereitschaft bzw. Kohlenhydratangaben für Adipöse und nicht Adipöse konstant sind. Geben hingegen nicht Adipöse eine korrekte Kohlenhydrataufnahme an und Adipöse eine zu hohe (Differential Bias), sind auch die relativen Unterschiede verzerrt und das Ergebnis der Studie ist falsch.
Korrelation ≠ Kausalität
Im Rahmen einer Studie zum Zusammenhang zwischen Merkmalen muss klar gemacht werden, welche Schlussfolgerungen die Ergebnisse zulassen. Im obigen Beispiel mögen Autoren oder Leser der Studie versucht sein, eine Aussage über die Wirkung kohlenhydratreicher Ernährung auf das Risiko für Adipositas abzuleiten. Ein Zusammenhang darf jedoch nicht als Wirkung interpretiert werden (Korrelation bedeutet nicht Kausalität), aus dem einfachen Grund, da viele mögliche Faktoren des Lebensstils, der Ernährung usw. vorstellbar sind, die sowohl den Kohlenhydratanteil als auch den BMI beeinflussen (sogenannte Confounder). Eine Empfehlung zur Veränderung des Kohlenhydratanteils in der Ernährung könnte keinen Effekt zeigen, da die ursächlichen Faktoren für Adipositas nicht herausgefunden wurden.
Fragestellung 3 versucht mit der Methode der Intervention genau diesem Wirkungszusammenhang auf den Grund zu gehen. Im Gegensatz zu den ersten beiden Fragestellungen, die durch sogenannte Beobachtungsstudien behandelt werden, greift man im Rahmen einer Interventionsstudie aktiv in die Studie ein. „Beobachten“ darf nicht ganz wörtlich verstanden werden, auch im Rahmen von Beobachtungsstudien können Blut, Gewebeproben, DNA, Stuhlproben etc. genommen werden. Entscheidend ist, dass bei Interventionsstudien das untersuchte Merkmal, zum Beispiel der Kohlenhydratanteil in der Ernährung, den Studienteilnehmern vorgegeben wird. Somit wird der Kohlenhydratanteil unabhängig von allen anderen Merkmalen – Ernährung, Lebensstil etc. –, die mit dem Kohlenhydratanteil möglicherweise einhergehen, festgelegt. Diese Entkopplung ermöglicht es, tatsächlich eine Wirkung der Intervention auf eine Zielgröße festzustellen. Wichtig ist, dass die Zuordnung der Intervention nicht wiederum von potentiellen Einflussfaktoren abhängt (z. B. Motivation der Teilnehmer, Jahreszeiten, Versuchsleiter, …). Deshalb wird die Zuordnung typischerweise zufällig (randomisiert) durchgeführt.
Bezüglich der Verzerrung der Ergebnisse stellt sich die Situation ähnlich zur Fragestellung 2 dar. Eine nicht repräsentative Auswahl der Teilnehmer (aufgrund der Rekrutierung bzw. der Teilnahmebereitschaft) verzerrt die Ergebnisse, wenn sich der Effekt des Kohlenhydratanteils in der Ernährung auf den BMI zwischen Studienteilnehmern und Grundgesamtheit unterscheidet. Eine zusätzliche Verzerrung bei Studien, die über einen längeren Zeitraum laufen und mehrere Messzeitpunkte umfassen (Längsschnittstudien bzw. Longitudinal Studies), sind frühzeitige Ausfälle. Beenden beispielsweise vorwiegend Teilnehmer, bei denen die kohlenhydratarme Diät keinen Effekt zeigt, die Studie, ist die Zuordnung zu den Interventionen nicht mehr zufällig und ein Wirkungszusammenhang nicht mehr nachweisbar. Das Thema der falschen Angaben zum Kohlenhydratanteil stellt sich bei Interventionsstudien auf den ersten Blick nicht. Gerade bei Studien zum Thema Ernährung lässt sich die Aufnahme eines vorgeschriebenen Nährstoffanteils jedoch nur bedingt kontrollieren. Somit kann zwar eine Wirkung eines vorgeschriebenen Kohlenhydratanteils untersucht werden, aber nicht unbedingt eines tatsächlich aufgenommenen.
Zufällig, blind, aber kontrolliert – der Goldstandard
Die Studiendesigns zu den drei besprochenen Fragestellungen stellen klassische Werkzeuge der empirischen Forschung dar. Die Interventionsstudie steht in der Wissenschaft meist für den Goldstandard empirischer Forschung, insbesondere in der Umsetzung als
• randomisiert,
• doppeltblind,
• kontrolliert.
Randomisiert wurde bereits besprochen. Kontrolliert bedeutet, dass neben einer Interventionsgruppe eine geeignete Kontrollgruppe existiert, sodass die mögliche Wirkung einer Intervention relativ zu einer anderen Gruppe gemessen werden kann. Die Wahl einer geeigneten Kontrollgruppe bei Ernährungsstudien kann durchaus eine Herausforderung darstellen. Doppeltblind bedeutet, dass weder die Teilnehmer noch die Studienleiter wissen, wer zur Intervention und wer zur Kontrollgruppe gehört. Diese Anforderung lässt sich bei der Verabreichung von weißen Kapseln mit unterschiedlichem Inhalt leichter erfüllen als bei Ernährungsvorschriften. Der Nachteil einer unvollständigen Verblindung ist geringer, wenn die Teilnehmer dadurch nicht die Fragestellung der Studie erahnen (und ihr Verhalten davon unbeeinflusst bleibt). In manchen Fällen muss den Teilnehmern aber auch der Zweck der Studie offengelegt werden.
Does Money Burn Fat?
Zum Beispiel ist die Studie „Does Money Burn Fat“ der Frage nachgegangen, ob ein finanzieller Anreiz eher zur Erreichung eines definierten Abnehm-Ziels führt. Die Teilnehmer wurden zwar zufällig einer Gruppe zugeordnet, ihnen musste aber mitgeteilt werden, dass sie am Ende eine Belohnung bei Erreichen des Ziels bekommen – oder eben nicht. Die Vermutung liegt nahe, dass in der Belohnungsgruppe von den Personen, die ihr Ziel nicht erreichten, überproportional viele die letzte Untersuchung ausließen.
Neben den diskutierten Herausforderungen beim Einsatz von randomisierten, kontrollierten Interventionsstudien in der Ernährungswissenschaft stellt sich die Frage, inwieweit die Ergebnisse, die unter Studienbedingungen erzielt wurden, auf „das wirkliche Leben“ übertragen werden können (externe Validität). Die Teilnahme an einer Studie und die damit verbundene Auseinandersetzung mit dem Thema Ernährung führt möglichweise schon zu einer Sensibilisierung und Veränderung des Lebensstils, was wiederum den Effekt einer Intervention verstärken kann. Diese Limitierungen sprechen nicht grundsätzlich gegen Interventionsstudien, sie müssen nur bei der Planung der Studie sowie der Bewertung der Ergebnisse mitgedacht werden.
Vielversprechend sind Interventionsstudien auf jeden Fall in Situationen, wo es um die Ausgestaltung einer Maßnahme geht. Beispiele zum Thema Ernährung, wo eine zufällige Zuordnung der Teilnehmer zu unterschiedlichen Maßnahmen gut umsetzbar ist:
• Einfluss alternativer Verpackungen auf das Kaufverhalten
• Verweildauer auf Webseiten mit unterschiedlichen Darstellungen von Ernährungsinformationen
• Entwicklung des Anteils übergewichtiger Kinder in Abhängigkeit vom angebotenen Schulmenü
• Erfolg unterschiedlicher Programme bei Diätcamps
Von Krankenschwestern lernen
Neben Interventionsstudien finden vielfach aufwändige Beobachtungsstudien Anwendung, die über lange Zeiträume durchgeführt werden, z. B. die viel zitierte Nurses‘ Health Study. Wie bereits besprochen leidet die Aussagekraft dieser Studien – insbesondere bezüglich der Wirkungszusammenhänge – unter möglichen alternativen Erklärungsfaktoren, den Confoundern. Gerade groß angelegte, sorgfältig durchgeführte Studien, die parallel zu den zentralen Faktoren zahlreiche mögliche Confounder erheben und in der späteren statistischen Analyse berücksichtigen, stellen durchaus Alternativen zu Interventionsstudien dar.
Eine weiteres Studienformat bilden sogenannte Quasi-Experimente, die sowohl Elemente von Beobachtungs- als auch Interventionsstudien vereinen. Es findet eine Intervention statt, die aber nicht randomisiert zugewiesen wird (z. B. aus ethischen oder praktischen Gründen). Beispiele aus dem Bereich der Ernährung sind die Einführung einer gesunden Jause in einer Auswahl an Schulen, eine politische Maßnahme wie eine Fettsteuer oder eine spezielle Nährstoffkennzeichnung, die in manchen Regionen eingeführt wurde und in anderen nicht. Aufgrund der fehlenden Randomisierung müssen mittels statistischer Methoden mögliche Confounder berücksichtigt werden. Je besser die Datenlage und je weniger die Zuordnung der „Behandlung“ (z. B. gesunde Jause, Fettsteuer) mit der interessierenden Messgröße (z. B. Anteil Übergewichtiger) zusammenhängt, umso belastbarer sind Ergebnisse aus diesen Studien.
Power durch Größe
Das Ergebnis einer Studie, d. h. ob ein Unterschied zwischen Gruppen besteht oder ein Zusammenhang zwischen Messgrößen vorliegt, wird meist auf Basis der Signifikanz beurteilt. Zur Beurteilung der Signifikanz dient der P-Wert, der ausdrückt, wie wahrscheinlich es ist, den vorgefundenen oder einen noch größeren Unterschied bzw. Zusammenhang vorzufinden, obwohl eigentlich kein Effekt vorliegt. Ein kleiner P-Wert – oft wird eine Schwelle von 5 % herangezogen – wird als signifikant gewertet.
Für die Gesamtbeurteilung, ob Evidenz für einen Zusammenhang vorliegt, greift die alleinige Betrachtung des P-Werts aber oft zu kurz. Einerseits spielt wie bereits erläutert das Studiendesign für die Aussage eine große Rolle, andererseits steht der P-Wert in (zu) engem Zusammenhang mit der Stichprobengröße. Liegt ein kleiner Effekt vor, kann dieser von einer kleinen Studie rein mathematisch nie als signifikant ausgewiesen werden. Grund dafür ist, dass die statistische Power zu gering ist. Sie gibt an, mit welcher Wahrscheinlichkeit ein vorhandener Effekt in einer Studie nachgewiesen werden kann. Je größer die Stichprobe und der vorhandene Effekt, umso größer die Power. Umgekehrt weist eine große Studie auch für einen moderaten Effekt, der eventuell physiologisch oder wirtschaftlich unbedeutend ist, ein hochsignifikantes Ergebnis aus. Die Effektgröße (mit einem entsprechenden Konfidenzintervall) ist deshalb für die Beurteilung eines Ergebnisses immer im Auge zu behalten.
In den vergangenen Jahren gab es zahlreiche Bestrebungen, die Evidenz aus allen bereits vorhandenen Studien in Form von sogenannten Metastudien und Systematic Reviews zusammenzufassen und durch den entsprechend großen Stichprobenumfang eine vertrauenswürdige Faktenlage zu schaffen. Die Vorgehensweise ist auf jeden Fall sinnvoll. Da diese Zusammenfassungen aus vielen Einzelstudien bestehen, gelten die bereits beschriebenen Kriterien für Einzelstudien. Hinzu kommt der sogenannte Publication Bias, eine Verzerrung aufgrund der Tendenz, dass Studien mit einem signifikanten Ergebnis eher publiziert werden und somit für eine Metastudie zur Verfügung stehen als Studien, die keinen Effekt zeigen. Es existieren aber sowohl Methoden zur Identifikation des Publication Bias als auch Bestrebungen, ein umfassendes Register mit allen durchgeführten Studien, egal ob publiziert oder nicht, zu führen.
Last Words by Winston Churchill
Als Resümee möchte ich nicht das historisch wahrscheinlich falsch überlieferte Zitat „Traue keiner Statistik, die du nicht selbst gefälscht hast“ anführen. Vielmehr ist angelehnt an Winston Churchills Ausspruch zur Demokratie festzuhalten: Empirische Studien stellen vielleicht die schlechtesten Methoden zur Generierung von Evidenz dar, ausgenommen jene Methoden, die von Zeit zu Zeit ausprobiert werden.
Der Artikel wurde erstveröffentlicht in der ernährung heute 1_2014.
Über den Autor
Dr. Andreas Baierl ist Statistiker und wissenschaftlicher Mitarbeiter am Österreichischen Institut für Familienforschung. Zudem hält er Statistik-Vorlesungen im Rahmen seiner Lehrtätigkeit an der Universität Wien und ist Mitglied des wissenschaftlichen Beirats zur Evaluierung der ehe- und familienbezogenen Leistungen in Deutschland.
Literatur
Augurzky B, Bauer TK, Reichert AR, Schmidt CM, Tauchmann H: Does Money Burn Fat? Evidence from a Randomized Experiment (No. 6888). Discussion Paper Series, Forschungsinstitut zur Zukunft der Arbeit (2012).
Nuzzo R: Statistical Error. Nature 506: 150–152 (2014).