Härtegrade der Evidenz: Wie die Belastbarkeit wissenschaftlicher Daten bewertet wird

Wer für eine Seminararbeit recherchiert oder wissenschaftliche Informationen prüft, merkt schnell: Manche Studien liefern nur Hinweise, andere dienen wiederum als Basis für Empfehlungen. Doch was heißt es konkret, wenn von „möglicher“ oder „überzeugender“ Evidenz die Rede ist?

Evidenz bezeichnet eine nachgewiesene Ursache-Wirkungs-Beziehung, beispielweise zwischen einer Therapie und der damit behandelten Erkrankung. Im Bereich der evidenzbasierten Medizin (engl. evidence-based medicine) bzw. Ernährungsforschung (engl. evidence-based nutrition) wird sie herangezogen, um die Aussagekraft epidemiologischer Studien zu beurteilen. So ergeben sich für unterschiedliche Studiendesigns entsprechende Evidenzklassen (engl. levels of evidence). Meinungen von Expertinnen oder Experten, sowie Lehrbücher oder Review-Artikel stehen an unterster Stelle der Evidenzpyramide. Ergebnisse aus randomisierten kontrollierten Studien (RCT) liefern eine weitaus höhere Evidenz, systematische Reviews fassen diese zusammen. An der Spitze der Pyramide stehen letztlich die Metaanalysen.

Deep Dive

Ernährungsstudien und deren Evidenz

Mehr zu den Evidenzklassen unterschiedlicher Studiendesigns gibt es im Artikel „Ernährungsstudien und deren Evidenz“ nachzulesen.

ZUM ARTIKEL

Von der Einzelstudie zur evidenzbasierten Leitlinie

Damit wissenschaftliche Erkenntnisse ihren Weg in die Praxis finden, reicht es nicht, einzelne Studien zu betrachten. Vielmehr werden sämtliche verfügbare Daten zusammengeführt und in „Evidenzbasierten Leitlinien“ zusammengefasst. Dafür werden zusätzlich zu den Evidenzklassen auch Härtegrade der Evidenz (engl. grade of recommendation) vergeben. Sie unterstreichen die Aussagekraft der Datenlage insgesamt und sind abhängig von der Zahl verfügbarer Studien und deren Qualität [DGE, 2015].

Auch in der Ernährungsforschung geben die Härtegrade Auskunft darüber, wie konsistent die Datenlage ist, die zu einer Ernährungsempfehlung geführt hat. Es gibt verschiedene standardisierte Systeme, um Härtegrade einzuordnen.

Modelle der Evidenzgrade im Wandel

In der DGE-Leitlinie zur Fettzufuhr und Prävention ausgewählter ernährungsmitbedingter Krankheiten aus dem Jahr 2015, wurde die Evidenz in „überzeugend“, „wahrscheinlich“, „möglich“ und „unzureichend“ eingeteilt. Für jede dieser Evidenzstufen gab es klare Voraussetzungen [DGE, 2015].

Härtegrad der Evidenz	Voraussetzung
Überzeugende Evidenz	≥ 2 Interventionsstudien höchster Evidenzklasse mit übereinstimmendem Ergebnis (bei methodischen Schwächen ≥ 5) Alternativ: ≥ 5 Kohortenstudien mit konsistentem Ergebnis aus verschiedenen Populationen Absicherung der Kausalität durch Interventionsstudien mit Intermediärmarkern Idealerweise Meta-Analyse der Kohortenstudien ohne statistischen Hinweis auf Heterogenität
Wahrscheinliche Evidenz	≥ 5 epidemiologische Studien mit konsistentem Ergebnis Schwächen bei Kausalitätsbeweis oder widersprüchliche Evidenz Hinweise auf Heterogenität oder fehlende Interventionsstudien mit Intermediärmarkern
Mögliche Evidenz	Ungenügend gut durchgeführte kontrollierte Interventionsstudien, Beobachtungsstudien, oder nicht-kontrollierte klinische Studien ≥ 3 Studien mit übereinstimmendem Ergebnis Einzelne Studien können keinen oder gegenteiligen Zusammenhang zeigen
Unzureichende Evidenz	Zu wenige Studien vorhanden oder Uneinheitliche, widersprüchliche Studienlage (Mehrzahl ohne oder mit gegenteiligem Zusammenhang)

Quelle: DGE, 2015

Wissenswert

Intermediärmarker sind Messgrößen, die zwar keine Beschwerden verursachen, aber stellvertretend für wichtige Endpunkte stehen können – etwa Blutdruck als Risikofaktor für Schlaganfall. „Absicherung der Kausalität“ bedeutet, dass Interventionsstudien prüfen, ob sich solche Marker passend zum beobachteten Effekt verändern. Sinkt also das Schlaganfallrisiko und zugleich der Blutdruck, spricht das für einen ursächlichen Zusammenhang.

Die aktuelle Vorgehensweise der DGE ist die Bewertung anhand der mittlerweile international etablierten GRADE-Methodik des Cochrane-Instituts, die die Evidenz als „hoch“, „moderat“, „niedrig“ oder „sehr niedrig“ einstuft [Schlesinger et al., 2025]. Anders als im älteren System, bei dem zunächst einzelne Studien anhand ihres Studiendesigns in Evidenzklassen eingeteilt und daraus anschließend Härtegrade für eine konkrete Empfehlung abgeleitet wurden, bewertet GRADE die Gesamtevidenz zu einem Endpunkt direkt. Zwar bestimmt das Studiendesign den Ausgangspunkt (RCTs beginnen mit hoher, Beobachtungsstudien mit niedriger Evidenz), doch das Endurteil ergibt sich durch ein systematisches Up- und Downgrading anhand vordefinierter Kriterien (z. B. Bias-Risiko, Heterogenität, Ausmaß und Relevanz des beobachteten Effektes). Damit verschmelzen in GRADE die früher getrennten Ebenen von Evidenzklassen und Härtegraden in einer einheitlichen Bewertung der Sicherheit der Evidenz (Certainty of Evidence, CoE) [Guyatt et al., 2011].

Bezüglich Krebsrisiko gibt es zusätzlich eigene Evidenzgrade der International Agency for Research on Cancer (IARC). Sie werden folgendermaßen unterteilt [IARC, 2019]:

Gruppe 1: Karzinogen für den Menschen (zB.: Alkohol, Tabakrauch, verarbeitetes Fleisch, das Schimmelpilzgift Aflatoxin)
Gruppe 2A: Wahrscheinlich karzinogen (zB.: rotes Fleisch, Acrylamid, das Insektizid DDT, Konsum von heißen Getränken über 65 °C)
Gruppe 2B: Möglicherweise karzinogen (zB.: Aspartam, das Schimmelpilzgift Ochratoxin)
Gruppe 3: Nicht klassifizierbar in Bezug auf Karzinogenität (zB.: Koffein, Kaffee, Tee)

Die Begriffe „wahrscheinlich“ und „möglich“ beziehen sich hier ausdrücklich auf die Gefahr, die von einem Stoff ausgeht, nicht auf das Risiko bzw. die Qualität der Gesamtdatenlage zu einer Ernährungsempfehlung [IARC, 2019].

Ein Beispiel: Ein Apfelstückchen birgt grundsätzlich die Gefahr, daran zu ersticken. Das Risiko variiert jedoch durch die konkrete Exposition, also etwa wie oft und in welchem Tempo man Äpfel isst.

Fazit

Man kann zwischen der Evidenz einzelner Studiendesigns (Evidenzklassen) und Härtegraden der Evidenz (Aussagekraft bestimmter Thesen/Empfehlungen) unterscheiden. Die häufig genutzte GRADE-Methodik des Cochrane-Instituts verbindet beides miteinander. Da jedoch mehrere unterschiedliche Klassifikationssysteme existieren, ist es für das Verständnis und die Einordnung wissenschaftlicher Aussagen essenziell, die jeweils zugrundeliegende Evidenzbewertung zu berücksichtigen.

Literatur

Deutsche Gesellschaft für Ernährung (DGE): Leitlinie „Fettzufuhr und Prävention ausgewählter ernährungsmitbedingter Krankheiten, 2. Version (2015).

Guyatt G et al.: GRADE guidelines: 1. Introduction—GRADE evidence profiles and summary of findings tables. Journal of Clinical Epidemiology 64(4): 383-394 (2011).

International Agency for Research on Cancer (IARC): IARC Monographs on the Identification of Carcinogenic Hazards to Humans: Questions and Answers (2019).

Schlesinger S. et al.: Dietary carbohydrate intake and health-related outcomes: a protocol for the evidence evaluation methodology for the new guideline on dietary carbohydrate intake of the German nutrition society. European Journal of Nutrition 64(5): 226 (2025).