Härtegrade der Evidenz: Wie die Belastbarkeit wissenschaftlicher Daten bewertet wird
Evidenz bezeichnet eine nachgewiesene Ursache-Wirkungs-Beziehung, beispielweise zwischen einer Therapie und der damit behandelten Erkrankung. Im Bereich der evidenzbasierten Medizin (engl. evidence-based medicine) bzw. Ernährungsforschung (engl. evidence-based nutrition) wird sie herangezogen, um die Aussagekraft epidemiologischer Studien zu beurteilen. So ergeben sich für unterschiedliche Studiendesigns entsprechende Evidenzklassen (engl. levels of evidence). Meinungen von Expertinnen oder Experten, sowie Lehrbücher oder Review-Artikel stehen an unterster Stelle der Evidenzpyramide. Ergebnisse aus randomisierten kontrollierten Studien (RCT) liefern eine weitaus höhere Evidenz, systematische Reviews fassen diese zusammen. An der Spitze der Pyramide stehen letztlich die Metaanalysen.
Deep Dive
Ernährungsstudien und deren Evidenz
Mehr zu den Evidenzklassen unterschiedlicher Studiendesigns gibt es im Artikel „Ernährungsstudien und deren Evidenz“ nachzulesen.
ZUM ARTIKEL
Von der Einzelstudie zur evidenzbasierten Leitlinie
Damit wissenschaftliche Erkenntnisse ihren Weg in die Praxis finden, reicht es nicht, einzelne Studien zu betrachten. Vielmehr werden sämtliche verfügbare Daten zusammengeführt und in „Evidenzbasierten Leitlinien“ zusammengefasst. Dafür werden zusätzlich zu den Evidenzklassen auch Härtegrade der Evidenz (engl. grade of recommendation) vergeben. Sie unterstreichen die Aussagekraft der Datenlage insgesamt und sind abhängig von der Zahl verfügbarer Studien und deren Qualität [DGE, 2015].
Auch in der Ernährungsforschung geben die Härtegrade Auskunft darüber, wie konsistent die Datenlage ist, die zu einer Ernährungsempfehlung geführt hat. Es gibt verschiedene standardisierte Systeme, um Härtegrade einzuordnen.
Modelle der Evidenzgrade im Wandel
In der DGE-Leitlinie zur Fettzufuhr und Prävention ausgewählter ernährungsmitbedingter Krankheiten aus dem Jahr 2015, wurde die Evidenz in „überzeugend“, „wahrscheinlich“, „möglich“ und „unzureichend“ eingeteilt. Für jede dieser Evidenzstufen gab es klare Voraussetzungen [DGE, 2015].
Härtegrad der Evidenz | Voraussetzung |
|---|---|
Überzeugende Evidenz |
|
Wahrscheinliche Evidenz |
|
Mögliche Evidenz |
|
Unzureichende Evidenz |
|
Quelle: DGE, 2015
Wissenswert
Intermediärmarker sind Messgrößen, die zwar keine Beschwerden verursachen, aber stellvertretend für wichtige Endpunkte stehen können – etwa Blutdruck als Risikofaktor für Schlaganfall. „Absicherung der Kausalität“ bedeutet, dass Interventionsstudien prüfen, ob sich solche Marker passend zum beobachteten Effekt verändern. Sinkt also das Schlaganfallrisiko und zugleich der Blutdruck, spricht das für einen ursächlichen Zusammenhang.
Die aktuelle Vorgehensweise der DGE ist die Bewertung anhand der mittlerweile international etablierten GRADE-Methodik des Cochrane-Instituts, die die Evidenz als „hoch“, „moderat“, „niedrig“ oder „sehr niedrig“ einstuft [Schlesinger et al., 2025]. Anders als im älteren System, bei dem zunächst einzelne Studien anhand ihres Studiendesigns in Evidenzklassen eingeteilt und daraus anschließend Härtegrade für eine konkrete Empfehlung abgeleitet wurden, bewertet GRADE die Gesamtevidenz zu einem Endpunkt direkt. Zwar bestimmt das Studiendesign den Ausgangspunkt (RCTs beginnen mit hoher, Beobachtungsstudien mit niedriger Evidenz), doch das Endurteil ergibt sich durch ein systematisches Up- und Downgrading anhand vordefinierter Kriterien (z. B. Bias-Risiko, Heterogenität, Ausmaß und Relevanz des beobachteten Effektes). Damit verschmelzen in GRADE die früher getrennten Ebenen von Evidenzklassen und Härtegraden in einer einheitlichen Bewertung der Sicherheit der Evidenz (Certainty of Evidence, CoE) [Guyatt et al., 2011].
Bezüglich Krebsrisiko gibt es zusätzlich eigene Evidenzgrade der International Agency for Research on Cancer (IARC). Sie werden folgendermaßen unterteilt [IARC, 2019]:
- Gruppe 1: Karzinogen für den Menschen (zB.: Alkohol, Tabakrauch, verarbeitetes Fleisch, das Schimmelpilzgift Aflatoxin)
- Gruppe 2A: Wahrscheinlich karzinogen (zB.: rotes Fleisch, Acrylamid, das Insektizid DDT, Konsum von heißen Getränken über 65 °C)
- Gruppe 2B: Möglicherweise karzinogen (zB.: Aspartam, das Schimmelpilzgift Ochratoxin)
- Gruppe 3: Nicht klassifizierbar in Bezug auf Karzinogenität (zB.: Koffein, Kaffee, Tee)
Die Begriffe „wahrscheinlich“ und „möglich“ beziehen sich hier ausdrücklich auf die Gefahr, die von einem Stoff ausgeht, nicht auf das Risiko bzw. die Qualität der Gesamtdatenlage zu einer Ernährungsempfehlung [IARC, 2019].
Ein Beispiel: Ein Apfelstückchen birgt grundsätzlich die Gefahr, daran zu ersticken. Das Risiko variiert jedoch durch die konkrete Exposition, also etwa wie oft und in welchem Tempo man Äpfel isst.

Fazit
Man kann zwischen der Evidenz einzelner Studiendesigns (Evidenzklassen) und Härtegraden der Evidenz (Aussagekraft bestimmter Thesen/Empfehlungen) unterscheiden. Die häufig genutzte GRADE-Methodik des Cochrane-Instituts verbindet beides miteinander. Da jedoch mehrere unterschiedliche Klassifikationssysteme existieren, ist es für das Verständnis und die Einordnung wissenschaftlicher Aussagen essenziell, die jeweils zugrundeliegende Evidenzbewertung zu berücksichtigen.
Literatur
Deutsche Gesellschaft für Ernährung (DGE): Leitlinie „Fettzufuhr und Prävention ausgewählter ernährungsmitbedingter Krankheiten, 2. Version (2015).
Guyatt G et al.: GRADE guidelines: 1. Introduction—GRADE evidence profiles and summary of findings tables. Journal of Clinical Epidemiology 64(4): 383-394 (2011).
International Agency for Research on Cancer (IARC): IARC Monographs on the Identification of Carcinogenic Hazards to Humans: Questions and Answers (2019).
Schlesinger S. et al.: Dietary carbohydrate intake and health-related outcomes: a protocol for the evidence evaluation methodology for the new guideline on dietary carbohydrate intake of the German nutrition society. European Journal of Nutrition 64(5): 226 (2025).
