Absolutes Risiko (AR)
Das absolute Risiko (AR) beschreibt die Wahrscheinlichkeit, dass bei einer Person ein bestimmtes Ereignis – etwa Krankheit oder Tod – in einer bestimmten Zeit eintritt.
Der Bereich liegt zwischen 0 (das Ereignis tritt keinesfalls ein) und 1 (das Ereignis wird definitiv eintreten). Ein absolutes Risiko von 0,15 bedeutet, dass das Ereignis mit einer Wahrscheinlichkeit von 15 Prozent eintritt; also bei 15 von 100 Personen.
Neben dem absoluten Risiko gibt es das relative Risiko, das das Verhältnis zweier absoluter Risiken wiedergibt.
Absolute Risikoreduktion (ARR)
Die absolute Risikoreduktion (ARR) ist ein Effektmaß, um die Wirksamkeit einer Behandlung zu beschreiben und deren individuellen Nutzen einzuschätzen. Sie gibt die Differenz des absoluten Risikos an ungünstigen Ereignissen in der experimentellen Gruppe (E) im Vergleich zur Kontrollgruppe (K) an, wenn die Intervention wirksam bzw. das Risiko in der Behandlungsgruppe niedriger ist (ARR = K-E).
Der Kehrwert der ARR ergibt die Number Needed to Treat (NNT = 1/ARR).
Absolute Risikozunahme (ARI, „increase“)
Die absolute Risikozunahme (ARI) beschreibt die absolute Differenz zwischen der Wahrscheinlichkeit eines ungünstigen Ereignisses in der experimentellen Gruppe (E) im Vergleich zum Kontrollarm (K), wenn die Intervention das Risiko für einen unerwünschten Endpunkt in der Behandlungsgruppe erhöht (ARI = |K-E|).
Der Kehrwert der ARI ergibt die Number Needed to Harm (NNH = 1/ARI).
Alpha-Fehler
Als Alpha-Fehler (Fehler erster Art) wird das Risiko bezeichnet, dass die Nullhypothese (N0H0) verworfen wird, weil der statistische Hypothesentest auf einen Sachverhalt hindeutet, der in Wahrheit nicht vorhanden ist.
Die Wahrscheinlichkeit eines Alpha-Fehlers wird meist mit 5 Prozent beziffert. Bei der Berechnung von Signifikanzen verwendet man ein 5%-Signifikanzniveau als Irrtumswahrscheinlichkeit; das heißt, dass eine Nullhypothese mit einem Risiko von maximal 5 Prozent fälschlicherweise verworfen wird.
Äquivalenzdesign
Das Äquivalenzdesign ist ein Studiendesign, um nachzuweisen, dass zwei Behandlungen gleichwertig sind bzw. sich klinisch kaum voneinander unterscheiden. Hierfür wird vorab ein Äquivalenzbereich definiert, innerhalb dessen von einer klinisch gleichwertigen Wirkung gesprochen werden kann.
Im Gegensatz zu einer Nichtunterlegenheitsstudie (NUS) kann ein Äquivalenzdesign sowohl die Überlegenheit als auch die Unterlegenheit einer Behandlungsmethode gegenüber einer anderen ausschließen.
Audit
Ein Audit ist ein Prüfprozess im Bereich des Qualitätsmanagements. Die Qualitätsbewertung erfolgt durch eine unabhängige externe Person. Diese kontrolliert, ob vorab definierte Anforderungen und Richtlinien erfüllt werden.
In einer klinischen Studie stellt ein Audit sicher, dass der Prüfplan und die Standard Operating Procedures (SOPs) gemäß der Guten Klinischen Praxis (GCP) eingehalten werden, um die Qualität der Daten und die Sicherheit der Studie zu gewährleisten. Prüfschwerpunkte sind unter anderem:
- Vollständigkeit der Patientenidentifikationslisten (und ob die Patienten tatsächlich existieren)
- ordnungsgemäße Unterschriften in den Einwilligungserklärungen
- Beachtung der Ein- und Ausschlusskriterien
- Existenz und Eintragung von Quelldaten
- Einhaltung der Datenschutzbestimmungen (inkl. Pseudonymisierung)
- Erkennung und Meldung von Serious Adverse Events (SAE)
- angemessene Lagerung der Prüfmedikamente bzw. Prüfprodukte
Ein Audit wird meist vom Sponsor durchgeführt. Erfolgt das Audit einer klinischen Studie durch eine zuständige Überwachungsbehörde, spricht man von einer Inspektion.
Beta-Fehler
Der Beta-Fehler (Fehler 2.zweiter Art) ist das Risiko, beim statistischen Hypothesentest einen Sachverhalt nicht zu erkennen, obwohl er tatsächlich vorhanden ist. Er wird deshalb auch als Übersehfehler bezeichnet.
Der Beta-Fehler wird begangen, wenn laut Testentscheidung – berechnet nach Stichprobendaten – die Nullhypothese (H0) irrtümlicherweise beibehalten wird. Man kann sich also nicht für die Alternativhypothese (HA) entscheiden, obwohl der Effekt bzw. Sachverhalt in Wahrheit existiert.
In einer klinischen Studie kann das Beta-Risiko durch eine Fallzahlplanung minimiert werden, sodass eine ausreichend große Anzahl von Probanden in die Auswertung einbezogen wird.
Bias
Als Bias wird allgemein ein systematischer Fehler bezeichnet, der zu Verzerrung von Studienergebnissen führt; das heißt zu Resultaten, die systematisch in eine bestimmte Richtung von den tatsächlichen Werten abweichen.
In kontrollierten Studien soll der tatsächliche Unterschied zwischen zwei oder mehr Alternativen (zum Beispiel Behandlungsmaßnahmen oder Diagnosemittel) geschätzt werden, ohne dass andere Faktoren das Ergebnis beeinflussen. Gelingt das nicht, spricht man von einem Bias. Es gibt sichtbare und unsichtbare Faktoren, die den Unterschied systematisch vergrößern, verkleinern oder selbst umkehren, sodass die gemessene Differenz nicht mehr allein auf die untersuchten Alternativen, sondern auf andere Einflüsse zurückzuführen ist. Der systematische Fehler bzw. Bias kann so ausgeprägt sein, dass ein Nutzen suggeriert wird, obwohl real ein Schaden vorliegt.
Es gibt eine Vielzahl von Bias-Arten, die Studienergebnisse verzerren. Ohne geeignete Schutzmaßnahmen bergen Daten die Gefahr einer unzureichenden Ergebnissicherheit. Der Schutz vor Bias ist deshalb auch das zentrale Qualitätsmerkmal klinischer Studien. Diese sollen so geplant, angelegt, durchgeführt und ausgewertet werden, dass das Bias-Risiko so gering wie möglich ist.
Bias-Arten
Verzerrte Studienergebnisse können auf unterschiedliche Arten von Bias zurückgehen. Dazu gehören:
- Attrition-Bias: Verzerrung durch vorzeitiges Ausscheiden von Probanden bzw. Studienabbrechern, etwa aufgrund von Nebenwirkungen. Fehlen diese in der Auswertung, kann das zu einer Überschätzung des Effekts einer Behandlungsmaßnahme führen. Dies wird mit der Intention-to-treat-Auswertung verhindert, bei der auch Studienabbrecher mitberücksichtigt werden.
- Detection-Bias bzw. Informationsbias: Verzerrung, wenn die Erfassung einer Exposition von einem Outcome beeinflusst wird oder weil entweder zwei oder mehrere Gruppen unterschiedliche Verfahren zur Feststellung der Endpunkte verwenden. Deshalb ist es wichtig, dass in allen Studiengruppen dieselben Untersuchungsmethoden eingesetzt werden.
- Interviewer-Bias: Verzerrung durch bewusste oder unbewusste Beeinflussung von Personen im Rahmen von mündlichen Erhebungen. Dem kann mit einer Verblindung von Patient und Interviewer (Evaluator) entgegengewirkt werden.
- Lead-Time-Bias: Verzerrung bei der Beurteilung von Methoden zur Früherkennung von Krankheiten durch die reine Vorverlegung einer Diagnose im Vergleich zu Patienten, bei denen die Krankheit erst nach dem Auftreten klinischer Symptome festgestellt wird. Damit erscheint der zeitliche Abstand zwischen Diagnose und Verschlechterung/Tod auch bei Maßnahmen als verlängert, die real keine Auswirkungen auf den Todeszeitpunkt haben. Besser sind kontrollierte Studien, in denen alle Teilnehmer ab einem einheitlich festgelegten Zeitpunkt beobachtet werden – und nicht erst ab Diagnosestellung.
- Observer-Bias: Urteilsverzerrung. Dieser Bias entsteht, wenn der Interviewer bzw. Evaluator in klinischen Studien bewusst oder unbewusst Fragen und Antworten bzw. Beobachtungen seinen Erwartungen anpasst. Das Risiko lässt sich reduzieren, wenn Patient und Studienpersonal verblindet werden.
- Performance-Bias: Mögliche Verzerrung, weil eine Studiengruppe eine zusätzliche Behandlung erhält, die nicht im Rahmen der Studie untersucht wird. Um einen eventuellen Unterschied in den Vergleichsgruppen beurteilen zu können, sollten Begleittherapien immer angegeben sein. Mit einer Verblindung des ärztlichen Personals können Unterschiede in Begleitanwendungen zwischen den zu vergleichenden Gruppen vermieden werden.
- Publication-Bias: Verzerrung durch eine selektive Publikationspraxis. Häufig werden Studien, die einen negativen oder keinen statistisch signifikanten Unterschied zwischen der Interventions- und Kontrollgruppe aufweisen, seltener und später publiziert als Studien mit positiven und signifikanten Ergebnissen. So kann ein systematischer Review oder eine Meta-Analyse, die lediglich publizierte Studien einbezieht, Gefahr laufen, den Effekt der untersuchten Intervention zu überschätzen. Zur Vermeidung sollten bei der Auswertung auch bislang unpublizierte Studien berücksichtigt werden.
- Recall Bias (Rumination Bias): Erinnerungsverzerrung in retrospektiven Studien, deren Daten auf einer verzerrten Erinnerung beruhen. Besonders anfällig dafür sind Fall-Kontroll-Studien.
- Selektionsbias: Verzerrung aufgrund ungleicher Zusammensetzung der Interventionsgruppen; das heißt, eine Gruppe ist älter oder schwerer erkrankt (zum Beispiel hospitalisierte Patienten) als die andere. Dies kann durch eine randomisierte und verdeckte Gruppenzuteilung verhindert werden.
Blockrandomisierung
Die Blockrandomisierung ist eine Methode, bei der Patienten randomisiert in Blöcke eingeteilt werden, sodass die Vergleichsgruppen stets ähnlich groß und ausgeglichen sind. In jedem Block sind beispielsweise fünf Personen der Verum- und fünf der Kontrollgruppe zugeordnet. Eine Blockrandomisierung ist vor allem bei Studien mit kleinerer Fallzahl sinnvoll, da das Verhältnis von Verum- und Kontrollarm nahezu immer 1 ist.
Cochrane-Review
Cochrane Reviews sind systematische Übersichtsarbeiten, in denen Forschungsergebnisse relevanter Studien länderübergreifend zusammengefasst werden. Sie sind international als Qualitätsstandard in der evidenzbasierten Medizin anerkannt.
Alle Reviews beziehen sich auf eindeutig formulierte Fragen und erlauben wissenschaftlich begründete Aussagen über die Wirksamkeit von Maßnahmen zur Prävention, Diagnose, Therapie und Rehabilitation. Cochrane Reviews werden extern begutachtet (Peer Review) und sind dynamisch. Sie werden regelmäßig aktualisiert, sobald neue Forschungsergebnisse verfügbar sind.
Cut-off-Wert
Der Cut-off-Wert (Grenzwert, Schwellenwert) legt fest, bis zu welchem Messergebnis ein negativer Befund und ab welchem ein positiver Befund vorliegt. So gilt ein Laborwert oberhalb eines bestimmten Cut-off-Werts als diagnostischer Hinweis für eine eingeschränkte Nierenfunktion und rechtfertigt weitere Diagnostik- und ggf. Therapiemaßnahmen.
Bei klinisch-epidemiologischen Studien sind beispielsweise definierte Cut-off-Werte für Lebensstil-Einflüsse (Nikotindosis in Packungsjahren, Alkohol pro Kilogramm Körpergewicht, sportliche Aktivität pro Woche) und Outcomes (Blutdruck, Schmerzintensität, Lungenfunktionswerte) sinnvoll. Um Bias bei wissenschaftlichen Untersuchungen zu vermeiden, sollte der Cut-off-Wert bereits zu Studienbeginn im Protokoll festgelegt sein und nicht nachträglich bestimmt werden.
Effectiveness
Effectiveness beschreibt die Wirksamkeit einer Maßnahme unter Alltagsbedingungen. Effectiveness-Studien untersuchen beispielsweise, wie sich therapeutische Interventionen unter Routinebedingungen auswirken. Die Untersuchungen zielen auf eine möglichst hohe externe Validität ab.
Das Gegenteil von Effectiveness ist Efficacy, die die Wirksamkeit unter Idealbedingungen beschreibt.
Effektmaß
Mit einem Effektmaß wird die Stärke eines Effekts im Vergleich von zwei Interventionen quantifiziert. Gebräuchliche Effektmaße für dichotome Endpunkte sind das relative Risiko (RR) und die Odds Ratio (OR); gebräuchliche Effektmaße für kontinuierliche Endpunkte sind die standardisierte mittlere Differenz (SMD) und die gewichtete mittlere Differenz (Weighted Mean Difference, WMD).
Efficacy
Efficacy beschreibt die Wirksamkeit einer Intervention unter Idealbedingungen. In der Regel wird ein randomisiert-kontrolliertes Studiendesign (RCT) gewählt – mit dem Ziel einer möglichst hohen internen Validität.
Das Gegenteil von Efficacy ist Effectiveness, die Wirksamkeit unter Alltagsbedingungen wiedergibt.
Effizienz
Effizienz ist ein Beurteilungsmerkmerkmal der Aufwand-Nutzen-Beziehung. Sie beschreibt das Verhältnis zwischen der Qualität oder dem Nutzen einer Leistung in Relation zum Aufwand bzw. den Kosten. Dies kann bei Präventionsmaßnahmen, diagnostischen Methoden oder therapeutischen Verfahren bedeutsam sein. Effizient ist eine Maßnahme dann, wenn das größtmögliche Ziel mit den kleinstmöglichen Anstrengungen erreicht wird.
Einschlusskriterien
In der klinischen Forschung werden die erforderlichen Merkmale der Probanden über Einschluss- und Ausschlusskriterien definiert. Diese müssen erfüllt sein, um an der Studie teilzunehmen oder ausgeschlossen zu werden. Wer in die Studienpopulation aufgenommen wird oder nicht, leitet sich einerseits aus der klinischen Fragestellung oder dem epidemiologischen Untersuchungsgegenstand ab, andererseits aus rechtlichen und ethischen Vorgaben. Im ersten Schritt wird beurteilt, ob alle Zugangskriterien vorliegen; im zweiten Schritt, ob Merkmale die Teilnahme an der Studie verbieten.
Typische Ein- und Ausschlusskriterien sind ein bestimmtes Alter und Geschlecht, das Vorliegen einer genetischen Mutation oder das Vorhandensein einer Erkrankung – gegebenenfalls spezifiziert nach Schweregrad bzw. Stadium, Verlaufsform und Vorbehandlungen.
Empirisch
Empirisch bedeutet, dass gewonnene Erkenntnisse auf wissenschaftlichen Beobachtungen und Erfahrungen an realen Objekten oder Personen basieren, das heißt dokumentiert und belegt sind. Entgegen der subjektiven Annahme bzw. alltagsweltlichen Wahrnehmung werden empirische Daten methodisch-systematisch erhoben, objektiv analysiert und die Schlussfolgerungen aus konkreten – das heißt überprüfbaren – Beweisen gezogen. Ein bedeutsames Werkzeug der empirischen Forschung sind klinische Studien.
Endpunkt
Ein Endpunkt ist das in einer klinischen Studie erhobene und vorab festgelegte Zielkriterium. Häufig werden verschiedene Parameter als Endpunkte definiert – abhängig von der Gewichtung als primärer Endpunkt, sekundärer Endpunkt oder kombinierter Endpunkt.
Typische Endpunkte sind Ereignisse bzw. Outcomes, die im Studienzeitraum eingetroffen oder nicht eingetroffen sind, zum Beispiel pathologische Ereignisse wie Myokardinfarkt und Pneumonie, aber auch Remission, Rezidiv, Überlebensrate und Tod. Ebenso können Ergebnisse auf einer kontinuierlichen Werteskala als Surrogatmarker definiert werden, etwa die Höhe des Blutdrucks, die Leukozytenzahl oder Cholesterinkonzentration.
Primärer Endpunkt
Der primäre Endpunkt in einer klinischen Studie ist der vorrangige Zweck bzw. das Hauptziel der Studie. Die Kriterien werden vorab festgelegt und im Studienverlauf anhand eines klinischen Prüfplans beurteilt. Das Erreichen oder nicht Erreichen eines primären Endpunkts belegt, ob die angewendeten Maßnahmen/Interventionen erfolgreich waren.
Als primäre Endpunkte sollten möglichst messbare und eindeutig definierte Parameter gewählt werden. Zu diesen sogenannten „harten“ Kriterien gehören beispielsweise:
- Erkrankungsereignis
- Remission
- Rezidiv
- Tod (innerhalb eines festgelegten postinterventionellen Zeitraums)
Nicht oder nur schlecht quantifizierbare Parameter bzw. „weiche“ Kriterien wie Schmerzen oder Wohlbefinden sind nicht messbar und somit als Beweis für einen klinisch relevanten Behandlungserfolg nur sehr bedingt geeignet. Sie werden zuweilen als sekundäre Endpunkte gewählt.
Sekundärer Endpunkt
Der sekundäre Endpunkt ist das zweitrangige Ziel in einer klinischen Studie und wird, wie der primäre Endpunkt, vor Studienbeginn definiert. Hierfür werden meist schlecht messbare bzw. „weiche“ Parameter herangezogen – etwa um den Erfolg oder die Sicherheit einer Behandlungsmaßnahme aus einem subjektiven Blickwinkel zu bewerten. Typische sekundäre Endpunkte sind Schmerzen, Übelkeit, Verträglichkeit der Therapie, Lebens- und Schlafqualität.
Sekundäre Endpunkte allein beweisen keinen klinisch relevanten Behandlungseffekt. Sie stehen in unmittelbarem Zusammenhang mit den primären Kriterien und sind von ihnen abhängig bzw. unterstützen deren Aussagewert.
Evidenz
Als Evidenz wird die Gesamtheit der Informationen hinsichtlich einer spezifischen Fragestellung bezeichnet, die aus wissenschaftlichen Studien hervorgehen und einen Sachverhalt erhärten oder widerlegen.
Sehr zuverlässige Aussagen über den Nutzen von Behandlungsmaßnahmen oder anderen Interventionen erhält man aus randomisierten kontrollierten Studien (RCT) und Metaanalysen. Fundierte Nachweise über die Ausbreitung von Erkrankungen in der Bevölkerung liefern hingegen epidemiologische nicht-interventionelle Studien wie Fall-Kontroll-Kohorten- und Querschnittsstudien.
Evidenzbasierte Medizin (Evidence-Based Medicine, EbM)
Die evidenzbasierte Medizin (EbM) beschreibt die Art und Weise des medizinischen Handelns, jeden Patienten auf Basis der besten zur Verfügung stehenden Daten zu versorgen. Sie stützt sich nicht auf Übereinkünfte, Annahmen oder Meinungen, sondern auf aktuelle und wissenschaftlich geprüfte Belege.
EbM beinhaltet:
- eine systematische Literaturrecherche bezüglich der relevanten Evidenz für eine spezifische klinische Fragestellung
- die kritische Bewertung der Validität der Evidenz nach klinisch-epidemiologischen Gesichtspunkten
- die Beurteilung von Ausmaß und Umfang der Evidenz auf das spezifische Problem
- die individuelle patientenbezogene Anwendung der Evidenz unter Einbeziehung der klinischen Erfahrung und Vorstellung des Patienten.
Evidenzgrade/Evidenzlevel (Level of Evidence, LoE)
Evidenzgrade kategorisieren die formale und inhaltliche Qualität einer klinischen Studie nach ihrer Hierarchie. Die Ergebnissicherheit der vorliegenden Evidenz wird auf einer Skala bewertet und eingeordnet. Allgemeingültige internationale Standards gibt es nicht. Länderabhängig werden unterschiedliche Definitionen und Gradeinteilungen verwendet.
Studien mit einer hohen Anfälligkeit für Bias haben allgemein einen niedrigeren Evidenzgrad als Studien mit einem geringen Bias-Risiko. So weisen randomisierte kontrollierte Studien (RCT) in der Regel ein höheres Evidenzlevel auf als Beobachtungsstudien oder Fallserien.
Evidenzklassifikation
Die Evidenzklassifikation (Evidenzstufen, Hierarchie der wissenschaftlichen Evidenz, „levels of evidence“) findet sich in Leitlinien. Hierbei werden Studientypen entsprechend methodischen Charakteristika bezüglich ihrer wissenschaftlichen (internen) Aussagekraft eingeordnet.
In den „levels of evidence“ wird transparent und verlässlich dargestellt, auf welcher Grundlage die Empfehlungen der Leitlinienexperten basieren. Hierfür werden klar definierte und nachvollziehbare Bewertungsstufe verwendet. Die Bewertung einer Original-Publikation erfolgt in drei Schritten:
- Klärung von Untersuchungsschwerpunkt und Fragestellung
- Bestimmung des Studientyps
- Festlegung des „levels of evidence“ nach den beiden oberen Kriterien und ggf. zusätzlichen Qualitätsmerkmalen
Bei Interventionen und therapeutischen Maßnahmen stehen systematische Reviews und randomisierte kontrollierte Studien an oberster, Expertenmeinungen an letzter Stelle der Hierarchie.
Falsch positiv und falsch negativ
Die meisten Testverfahren bergen eine gewisse Fehleranfälligkeit, etwa bei nicht ordnungsgemäßer Durchführung/Handhabung, dem falschen Zeitpunkt oder lagerungsbedingt. In dem Fall können Tests inkorrekte Ergebnisse liefern.
Fällt eine Untersuchung oder ein diagnostischer Test falsch positiv aus, wird eine real gesunde Personen fälschlicherweise als infiziert/krank bewertet. Ein falsch negatives Ergebnis bedeutet, dass eine in der Tat infizierte/erkrankte Personen laut Testergebnis gesund ist.
Das bedeutet:
- falsch positiv (FP) – gesund, aber positives Testergebnis
- falsch negativ (FN) – krank, aber negatives Testergebnis
Follow-up
Follow-up ist die nachträgliche Beobachtungsdauer einer klinischen Studie, um Untersuchungsschwerpunkte mit zeitlichem Abstand zu bewerten; zum Beispiel die nachhaltige Wirksamkeit eines neuen Therapieverfahrens und dessen Langzeitwirkung.
Goldstandard
Als Goldstandard werden Diagnoseverfahren oder Therapiemaßnahmen bezeichnet, mit denen zum aktuellen Zeitpunkt in einem spezifischen Fall die genauesten diagnostischen oder besten therapeutischen Ergebnisse erzielt werden. In klinischen Studien ist der Goldstandard die Referenz, mit der neue Entwicklungen verglichen werden.
Überdies wird der Goldstandard bei allgemeinen wissenschaftlichen Methoden angelegt. So gelten randomisierte kontrollierte Studien (RCT) in der klinischen Forschung als Goldstandard, um die Wirksamkeit und Sicherheit einer neuen Intervention zu belegen.
Good Clinical Practice (GCP)
Die gute klinische Praxis oder Good Clinical Practice (GCP) bezeichnet international anerkannte, nach ethischen Gesichtspunkten und wissenschaftlichen Regeln aufgestellte Standards für die Art, Durchführung, Überwachung, Analyse und Publikation von klinischen Studien. Dies soll sicherstellen, dass die Rechte der Probanden geschützt bleiben, die Qualität der Daten gewährleistet ist und die Ergebnisse korrekt und vollständig sind.
GRADE
Die GRADE-Methodik (Grading of Recommendations Assessment, Development and Evaluation) ist eine standardisierte Vorgehensweise, um die Evidenzgraduierung und die Stärke von Empfehlungen in Leitlinien einzustufen und für den Anwender nachvollziehbar zu gestalten. Das Konzept ist international zur Erstellung präziser und transparenter klinischer Versorgungsleitlinien sowie allgemeiner Empfehlungen im Gesundheitswesen anerkannt.
Bei der GRADE-Methodik wird zu vorab definierten patientenrelevanten Endpunkten die Qualität der Gesamtevidenz pro Endpunkt in vier Evidenzgrade (Level of evidence, LoE) eingeteilt: hoch, moderat, niedrig oder sehr niedrig. Nach Bewertung aller Parameter wird eine Handlungsempfehlung formuliert, für die es zwei mögliche Empfehlungsstärken bzw. Härtegrade gibt: stark und schwach. Starke Empfehlungen drücken aus, dass die erwünschten Behandlungsfolgen mit hoher Wahrscheinlichkeit potenziell unerwünschte Effekte überwiegen. Bei abgeschwächten Empfehlungen ist der Gesamtnutzen weniger eindeutig.
Hazard/Hazard Ratio
Hazard bezeichnet die Wahrscheinlichkeit, dass ein Ereignis – etwa die Progression einer Tumorerkrankung, Heilung oder Tod – eintritt. Das Hazard Ratio ist ein Quotient aus den Hazards von zwei Gruppen.
Mit der Hazard Ratio werden zwei Ereignisse in zwei Patientengruppen über einen bestimmten Zeitraum verglichen.
Im Unterschied zum relativen Risiko, das nur zwischen „Ereignis“ und „kein Ereignis“ unterscheidet, fließen in die Hazard Ratio Wahrscheinlichkeiten bzw. Risiken als zeitabhängige Funktionen der beiden Kohorten ein und werden in Relation gesetzt. Bei einem Hazard ratio von 1 gibt es keinen Unterschied zwischen den beiden Gruppen in der Zeit, in der sie unter Beobachtung standen. Bei einem Wert größer oder kleiner als 1 ist das Risiko für das Ereignis in der beobachteten Gruppe größer bzw. kleiner als im Vergleichsarm.
Impact-Faktor (IF)
Der Impact-Faktor (IF) bewertet den Einfluss wissenschaftlicher Fachzeitschriften insofern, wie häufig ein Artikel einer Zeitschrift in anderen wissenschaftlichen Publikationen durchschnittlich pro Jahr zitiert wurde. Je höher der IF ist, als umso bedeutsamer gilt ein Fachmagazin.
Zur Berechnung des Impact-Faktors wird die Anzahl der zitierten Artikel, die in den zwei vorangegangenen Jahren publiziert wurden, zur Gesamtzahl der veröffentlichen Artikel in diesen zwei Jahren ins Verhältnis gesetzt. Veröffentlichte ein Fachmagazin in den Jahren 2019 und 2020 beispielsweise gesamt 580 Artikel, die im darauffolgenden Jahr 4.162 Mal zitiert wurden, ergibt sich für 2021 ein IF von 7,2.
Intention-to-treat-Analyse (ITT-Analyse)
Die Intention-to-treat-Analyse (ITT-Analyse) ist ein medizinstatistisches Verfahren zur Auswertung der Ergebnisse von kontrollierten randomisierten Studien (RCT). Hierbei fließen die Daten der gesamten Studienpopulation in die Endauswertung ein, selbst wenn Teilnehmer aus der laufenden Studie ausgeschieden sind oder die Therapie gewechselt haben.
Im ITT-Prinzip werden also die Daten aller Probanden aus der Verum- und Placebogruppe analysiert, wie sie von Studienbeginn an (Intention) für die Studie bzw. Behandlung (to treat) vorgesehen waren. So wird das Risiko vermindert, dass die Resultate einer Gruppe besser erscheinen, als sie es tatsächlich unter Einbeziehung aller Teilnehmer wären.
Das Gegenteil der Intention-to-treat-Analyse ist die Per-Protokoll-Analyse, bei der lediglich die Daten der Probanden ausgewertet werden, die prüfplankonform (Per-Protokoll) die ihnen zugewiesene Intervention (Verum oder Placebo) tatsächlich erhalten haben.
Inzidenz
Inzidenz und Prävalenz sind Begriffe aus der medizinischen Statistik.
Definitionsgemäß beschreibt die Inzidenz die in einem festgelegten Zeitraum – oft ein Jahr – aufgetretene Anzahl an Neuerkrankungen einer bestimmten Krankheit in einer definierten Personengruppe/Population. Die Inzidenz wird deshalb auch als Neuerkrankungsrate bezeichnet.
Die Prävalenz gibt Aufschluss über bestehende Erkrankungsfälle.
Inzidenzrate
Die Inzidenz gibt die Anzahl der Neuerkrankungen innerhalb einer definierten Personengruppe (beispielsweise den Einwohnern einer Stadt oder eines Landes) in einem bestimmten Zeitraum (häufig ein Jahr) an. Zur besseren Vergleichbarkeit wird sie als Inzidenzrate angegeben. Weitere Bezeichnungen für die Inzidenzrate sind Neuerkrankungsziffer, Zugangsrate und Ereignisrate.
Die Inzidenzrate bezieht sich auf den Anteil der erkrankten Personen an der zu untersuchenden Gesamtpopulation unter Berücksichtigung von epidemiologischen Veränderungen wie Zu- und Weggezogenen, Geburten und Sterbefälle. Sie berechnet sich, indem man die Anzahl der Neuerkrankungen innerhalb einer definierten Personengruppe (Inzidenzfälle) durch die mittlere Anzahl der betrachteten Bevölkerung im definierten Beobachtungszeitraum teilt. Als Ergebnis erhält man beispielsweise 125 Neuerkrankungen pro 100.000 Personen Bevölkerung pro Jahr.
Irrtumswahrscheinlichkeit (alpha, beta)
Als Irrtumswahrscheinlichkeit „alpha“ wird die vorgegebene maximale Wahrscheinlichkeit bezeichnet, in einer Studie per Zufall eine Abweichung zu erfassen, die in Wahrheit nicht existiert (Fehler erster Art, Alpha-Fehler).
„Beta“ ist die Irrtumswahrscheinlichkeit, in einer Studie einen in Wahrheit vorhandenen Effekt wegen einer zu geringen Stichprobengröße nicht zu erkennen (Fehler zweiter Art, Beta-Fehler).
Kaplan-Meier-Kurve/Kaplan-Meier-Verfahren
Kaplan-Meier-Kurven werden in der medizinischen Forschung meist genutzt, um Überlebensraten grafisch darzustellen – beispielsweise um den Anteil der überlebenden Patienten, die mit unterschiedlichen Methoden behandelt wurden, zu veranschaulichen.
Die Überlebenswahrscheinlichkeiten werden mit dem Kaplan-Meier-Verfahren geschätzt. Ein besonderer Vorteil dieser Methode besteht darin, dass auch zensierte Daten in die Analyse einfließen. Dies sind beispielsweise Patienten, die vorzeitig aus der Studie ausgeschieden sind und nur eine bestimmte Zeit nachbeobachtet werden konnten.
Das Kaplan-Meier-Verfahren bzw. Kaplan-Meier-Kurven eignen sich auch für andere Ereignisse, die zeitabhängig analysiert werden sollen, etwa Rezidivfreiheit oder kompletter Wundverschluss.
Kohorte
Als Kohorte wird eine Gruppe von Personen mit gemeinsamen Charakteristika (wie Alter, Geschlecht, Lebensgewohnheiten, geografische Verortung etc.) bezeichnet, die in epidemiologischen und klinischen sowie Studien über einen bestimmten Zeitraum beobachtet werden. Unterschieden werden:
- geschlossene Kohorten: Die Beobachtung aller Probanden erstreckt sich von Beginn der Studie bis zu deren Ende bzw. bis das Zielereignis eintritt. Die Kohorte ist vorab definiert, es werden keine neuen Studienteilnehmer aufgenommen.
- offene (dynamische) Kohorten: Teilnehmer werden auch nach Beginn der Beobachtungsperiode in die Studie aufgenommen und/oder scheiden nach einer gewissen Beobachtungsdauer wieder aus. Die Studienpopulation verändert sich permanent.
- Geburtskohorte: Eine Geburtskohorte umfasst alle Personen einer Region, die im gleichen Zeitraum (etwa einem Kalenderjahr) geboren wurden.
Konfidenzintervall (KI)
Das Konfidenzintervall ist die Spanne, in der der „wahre“ Mittelwert einer Messung (beispielsweise ein Therapieeffekt, eine Testsensitivität etc.) ziemlich sicher zu erwarten ist. Deshalb wird dieser Bereich auch als Vertrauensbereich bezeichnet. Üblicherweise ist ein 95%-KI angegeben. Das bedeutet, dass der tatsächliche Parameter (der ja unbekannt ist) mit einer Wahrscheinlichkeit von 95 Prozent zwischen der oberen und unteren Konfidenzgrenze liegt.
Konsensusverfahren
Konsensusverfahren bzw. Konsensustechniken sind informelle oder formelle Methoden, um bei Gruppen mit divergierenden Meinungen zu bestimmten medizinischen Sachverhalten eine Einigung herbeizuführen bzw. einen Konsens zu finden. Zu den bekanntesten formellen Konsensusverfahren gehören die Delphi-Methode und der nominale Gruppenprozess (NGP).
Kontrollgruppe
Die Teilnehmer in kontrollierten Studien werden meist zwei Gruppen zugewiesen: der Interventions- oder der Kontrollgruppe. Letztere wird auch als Vergleichsgruppe bezeichnet. Im Gegensatz zur Interventions- bzw. Experimentalgruppe, bei der die Probanden die zu untersuchende Behandlung bzw. Interventionsmaßnahme erhalten, werden die Probanden im Kontrollarm mit einem Scheinmedikament (Placebo) oder einer Standardbehandlung versorgt. Bei der Auswertung der Daten – etwa zu Ausmaß der Effektparameter und Dauer von Therapieerfolgen – werden die Resultate beider Gruppen verglichen.
Leitlinie
Leitlinien sind systematisch entwickelte, wissenschaftlich begründete und praxisorientierte Handlungsempfehlungen, die medizinischem Personal die Entscheidung über eine angemessene Vorgehensweise bei speziellen gesundheitlichen Problemen erleichtern sollen. Im Gegensatz zu Richtlinien sind Leitlinien nicht verbindlich. Vielmehr sind sie als Orientierungshilfe im Sinne von Handlungs- und Entscheidungskorridoren zu verstehen, von denen unter Berücksichtigung der individuellen Situation (zum Beispiel Vorerkrankungen, Medikation, Risikofaktoren, Nebenwirkungen etc.) abgewichen werden kann oder sogar muss.
Letalität
Letalität (Tödlichkeit) und Mortalität (Sterblichkeit) sind demografische Begriffe, die in der Statistik von Krankheiten verwendet werden.
Letalität bezeichnet die Anzahl der Erkrankten, die irgendwann an einer Krankheit sterben, bezogen auf die Gesamtzahl der an der Krankheit Erkrankten.
Median
Median (auch Zentralwert genannt) ist derjenige Wert, der in einer nach Größe geordneten Datenreihe genau in der Mitte liegt. Somit befindet sich exakt die Hälfte der geordneten Beobachtungswerte jeweils ober- und unterhalb des Medians. Der Median wird häufig bei wenig einheitlichen Datensätzen bestimmt, damit sogenannte „Ausreißer“ den Datensatz nicht nach oben oder unten verzerren – wie es etwa bei der Mittelwertberechnung der Fall wäre.
Bei Messwerten von 2, 2, 3, 3, 2, 5, 28 beträgt der Mittelwert 6,4. Bis auf den Ausreißer von 28 sind aber alle Werte kleiner als der Mittelwert, womit nicht wirklich die „Mitte“ dargestellt wird. Der Median hingegen liegt bei 3, was eher der mittleren Lageverteilung entspricht.
Mittelwert
Der Mittelwert oder Durchschnitt berechnet sich aus der Summe aller Werte dividiert durch die Anzahl der Werte. Bei einheitlichen Datensätzen mit normalen Zahlenverteilungen ist das arithmetische Mittel deutlich präziser als der Medianwert. Allerdings reagiert der Mittelwert sensibler auf Ausreißer – also Werten, die stark von den restlichen Werten abweichen. In diesem Fall ist der robustere Median von Vorteil.
Morbidität
Morbidität ist ein epidemiologischer Gesundheitsindikator, mit dem die Häufigkeit von Erkrankungsfällen in einer bestimmten Bevölkerungsgruppe innerhalb einer definierten Zeitspanne erfasst wird. Bedeutsame Kennziffern zur Bestimmung der Morbidität sind die Inzidenz (Neuerkrankungsrate) und die Prävalenz (Anteil der bereits Erkrankten).
In der Praxis wird der Begriff auch als Inzidenz von Beschwerden und Komplikationen verstanden, beispielsweise nach therapeutischen Interventionen.
Mortalität
Mortalität (Sterblichkeit) und Letalität (Tödlichkeit) sind demografische Begriffe, die in der Statistik von Krankheiten verwendet werden.
Mortalität bezeichnet die Anzahl an tödlichen Ereignissen innerhalb eines definierten Zeitraums, bezogen auf die Gesamtbevölkerung.
Negativer prädiktiver Wert (NPV)
Prädiktive Werte sind Parameter, um die Zuverlässigkeit von medizinischen Testverfahren bezüglich einer Diagnose einzuschätzen. Unterschieden werden der negative prädiktive Wert (NPV) und der positive prädiktive Wert (PPV).
Der negative prädiktive Wert beschreibt den Anteil der Personen, deren Testergebnis negativ ist, und die auch tatsächlich nicht an der gesuchten Krankheit leiden.
Sowohl der NPV als auch der PPV hängen von der Sensitivität und Spezifität des Diagnoseverfahrens sowie von der Prävalenz der Erkrankung in der untersuchten Gruppe ab.
Number Needed to Treat (NNT)
Mit der Number Needed to Treat (NNT) wird der therapeutische Vorteil einer Intervention gegenüber einer Kontrolle bewertet. Die NNT gibt den geschätzten durchschnittlichen Anteil der Patienten an, der behandelt werden muss, um bei einem weiteren Patienten ein unerwünschtes Ereignis zu verhindern, das ohne die Intervention aufgetreten wäre.
Die NNT ist der Kehrwert der absoluten Risikoreduktion und wird als NNT = 1/ARR berechnet. Aus den Ereignisraten der experimentellen Gruppe von 20 Prozent und der Kontrolle von 45 Prozent ergibt sich eine ARR von 25 (45-20) und eine NNT von 4 (1/25=0,04x100).
Number Needed to Harm (NNH)
Mit der Number Needed to Harm (NNH) werden die ungünstigen Auswirkungen einer Intervention beschrieben – wenn also die Rate unerwünschter Ereignisse unter der Behandlung größer ist als in der Kontrollgruppe. Die NNH gibt die Anzahl der Patienten wieder, die im Durchschnitt behandelt werden können, bis eine Komplikation auftritt, die ohne diese Intervention nicht eingetreten wäre.
Die NNH ist der Kehrwert der absoluten Risikozunahme und wird als NNH = 1/ARI x 100 berechnet. Wurde beispielsweise in der experimentellen Gruppe bei 58 Prozent ein negativer Effekt beobachtet und in der der Kontrollgruppe bei 48 Prozent, liegt die ARI für dieses Ereignis bei 10 (58-48) und die NNH bei 10 (1/10=0,1x100).
Observer-Bias
Siehe Bias-Arten.
Odds
Odds ist eine Möglichkeit in der Statistik, Chancen anzugeben. Sie wird aus dem Quotienten der Wahrscheinlichkeit, dass ein Ereignis eintritt, zu der Gegenwahrscheinlichkeit, dass das Ereignis nicht eintritt, berechnet. Ein Odds von 3 bedeutet beispielsweise, dass ein Ereignis mit einer Wahrscheinlichkeit von 75 Prozent eintritt bzw. mit einer Wahrscheinlichkeit von 25 Prozent nicht zu erwarten ist. Die Odds ist wertneutral und kann sich sowohl auf positive Effekte (zum Beispiel Behandlungserfolg) als auch negative Entwicklungen (etwa Rezidivbildung) beziehen.
Die Odds beschreibt das Wahrscheinlichkeitsverhältnis, mit dem ein Effekt eintritt, und ist nicht mit Risiko oder Wahrscheinlichkeit gleichzusetzen.
Odds Ratio (OR, Chancenverhältnis)
Odds Ratio (OR) beschreibt das Chancenverhältnis bzw. den Zusammenhang von Ereignissen in zwei Gruppen und berechnet sich aus dem Quotienten zweier Odds.
Beispiel: In Gruppe 1 versterben 4 Patienten, 90 überleben. In Gruppe 2 versterben 12, 102 Patienten überleben. Das heißt, Odds 1 = 408 (4 x 102) geteilt durch Odds 2 = 1080 (90 x 12) ergibt ein OR von 0,38.
Bewertung:
- Ein OR < 1 zeigt an, dass die experimentelle Intervention wirksam ist bzw. eine Exposition protektiv wirkt.
- Ist der OR > 1 wirkt sich die Interventionsmaßnahme bzw. Exposition nachteilig aus.
- Bei einem OR von 1 gibt es zwischen beiden Gruppen keinen Unterschied.
Outcome
Outcome bezeichnet das abschließende Ergebnis für einen Patienten im Verlauf einer klinischen Studie. Um die Wirksamkeit von Präventions- und Therapieverfahren zu beurteilen, werden vor Beginn der Studie verschiedene Endpunkte definiert. Endpunkte, die als Kriterien für ein Outcome festgelegt werden können, sind zum Beispiel Laborparameter, messbare Werte wie Blutdruck, Gewicht oder Insulinbedarf, Erkrankungsereignisse, Lebensqualität, Teilhabe am Arbeitsleben oder Tod.
p-Wert
Der p-Wert (p = probability) ist ein Maß der statistischen Wahrscheinlichkeit, der zur Hypothesentestung verwendet wird. Er gibt einen Hinweis darauf, ob ein in einer Stichprobe beobachteter Effekt – zum Beispiel eine neue Therapiemethode vs. Standardregime – ein Zufallsbefund ist (die Nullhypothese also stimmt) und nicht auf Unterschieden zwischen den Gruppen basiert. Der p-Wert kann zwischen 0 und 1 liegen. Je kleiner der p-Wert ist, umso unwahrscheinlicher handelt es sich um Zufallsergebnisse bzw. umso stärker spricht das beobachtete Ergebnis gegen die Nullhypothese.
Vor der Datenerhebung sollte ein Signifikanzniveau (α) festgelegt werden (meist auf 5% bzw. 0,05). Allgemein gilt ein Ergebnis als statistisch signifikant, wenn der p-Wert gleich oder kleiner als α ist. Dies wird in der Regel durch p ≤ 0,05 ausgedrückt. Zur Bestimmung der Signifikanz sollten p-Werte möglichst zusammen mit Konfidenzintervallen verwendet werden.
Peer Review
Peer Review ist ein unabhängiges Begutachtungsverfahren für wissenschaftliche, zur Publikation eingereichte Arbeiten. Vor einer Veröffentlichung der Artikel wird deren Qualität von Experten bzw. Autoren desselben Fachgebiets geprüft.
Per-Protocol Analyse
Bei einer Per-Protocol Analyse werden nur die Daten der Probanden ausgewertet, die wie im Studienprotokoll festgelegt behandelt wurden und alle vorgegebenen Kriterien erfüllt haben. Im Gegensatz zur Intention-to-treat-Analyse werden beispielsweise Personen ausgeschlossen, die an geplanten Untersuchungen nur lückenhaft teilnahmen, Fehler bei der therapeutischen Anwendung aufwiesen oder vorzeitig aus der klinischen Studie ausgeschieden sind.
PICO-Schema
Das PICO-Schema ist ein Hilfsmittel in der evidenzbasierten Medizin, das zur Strukturierung systematischer Literaturrecherchen in Datenbanken verwendet wird. Es hilft bei der Formulierung von konkreten Fragen zur Wirkung von Interventionen und ermöglicht eine sinnvolle Verknüpfung von Suchbegriffen, was das Auffinden relevanter Publikationen erleichtert. Die Buchstaben stehen für:
- Patient, Population (inkl. Anliegen bzw. Beschwerden)
- Intervention (zu untersuchende Behandlungsmaßnahme)
- Comparison, Control (Vergleichstherapie)
- Outcome (Endpunkt, Zielgröße)
Bei einigen Fragestellungen kann es sinnvoll sein, das Format mit Parametern zu Zeitpunkt (Time) und Studientyp (Type of Study) oder Umgebung (Setting) weiter zu präzisieren. Dies wird als PICOTS-Schema bezeichnet.
Positiver prädiktiver Wert (PPV)
Prädiktive Werte sind Parameter, um die Zuverlässigkeit von medizinischen Testverfahren bezüglich einer Diagnose einzuschätzen. Unterschieden werden der positive prädiktive Wert (PPV) und der negative prädiktive Wert (NPV).
Der positive prädiktive Wert beschreibt den Anteil der Personen mit positivem Testergebnis, bei denen auch tatsächlich die gesuchte Erkrankung vorliegt.
Der PPV hängt wie der NPV von der Sensitivität und Spezifität des Diagnoseverfahrens sowie von der Prävalenz der Erkrankung in der untersuchten Gruppe ab.
Power (statistische Trennschärfe)
Die Power bzw. statistische Trennschärfe ist die Wahrscheinlichkeit, in einer Studie bzw. einem Hypothesentest einen tatsächlich existenten Unterschied – zum Beispiel zwischen zwei Interventionen – statistisch signifikant nachzuweisen und eine falsche Nullhypothese korrekterweise zu verwerfen.
Bei hoher Power sinkt die Wahrscheinlichkeit, einen Fehler 2.zweiter Art zu begehen oder festzustellen, dass es keinen Effekt gibt, obwohl dieser tatsächlich vorhanden ist.
Prädiktoren/Risikofaktoren
Prädiktoren und Risikofaktoren sind Merkmale, Einflüsse oder Konstellationen, deren Dasein oder Ausprägung die prognostische Einschätzung erlauben, dass eine bestimmte Situation (Erkrankung, Zustand) oder ein Zielereignis (Outcome) eintreten wird.
Die Korrelation von Prädiktor und Outcome lässt sich mithilfe von Regressionsanalysen ermitteln.
Prävalenz
Prävalenz und Inzidenz sind Begriffe aus der medizinischen Statistik.
Definitionsgemäß beschreibt die Prävalenz den Anteil von Erkrankten an der Gesamtzahl einer definierten Bevölkerung bzw. Population zu einem bestimmten Zeitpunkt.
Kurz gesagt gibt die Prävalenz Aufschluss über bestehende Fälle, die Inzidenz über Neuerkrankungen.
Primärliteratur
Als Primärliteratur werden Beiträge, Artikel oder Arbeiten bezeichnet, in denen Wissenschaftler eigene Forschungsergebnisse bzw. die Ergebnisse ihrer Arbeitsgruppe präsentieren.
Regressionsanalyse
Die Regressionsanalyse ist ein statistisches Verfahren, um einen Zusammenhang zwischen zwei (oder mehreren) Einflussvariable(n) und einer Zielgröße zu prüfen, zum Beispiel den Einfluss von Gewicht, Alter, Geschlecht und Rauchen auf den systolischen Blutdruck.
Relatives Risiko (RR)
Das relative Risiko (RR) beschreibt das Verhältnis von zwei absoluten Risiken. Definitionsgemäß gibt es die Wahrscheinlichkeit an, dass ein unerwünschtes Ereignis (etwa zu erkranken oder zu sterben) in einer exponierten Gruppe im Vergleich zu einer nicht-exponierten bzw. Kontrollgruppe auftritt.
Beispiel: Im Interventionsarm einer klinischen Studie versterben 6 von 100 Teilnehmern; das absolute Risiko beträgt 0,06. In der Kontrollgruppe versterben 17 von 104 Personen; das absolute Risiko beträgt 0,16. Das relative Risiko berechnet sich aus dem Quotienten der beiden Risiken (0,06/0,16) und liegt demnach bei 0,38 bzw. 38 Prozent.
Bei einem relativen Risiko von 1 besteht kein Unterschied zwischen den Vergleichsgruppen (die Intervention zeigt keinen Effekt). Bei einem RR < 1 ist das Risiko verringert (die Intervention also wirksam), bei Werten > 1 erhöht (das heißt, die Intervention wirkt sich negativ aus). Zur genaueren Interpretation wissenschaftlicher Studiendaten empfiehlt es sich jedoch, das Konfidenzintervall des relativen Risikos zu beachten.
Bei randomisierten kontrollierten Studien (RCT) und Fall-Kontroll-Studien wird anstelle des relativen Risikos häufig auch die relative Odds bzw. das Odds-Ratio verwendet, um das Verhältnis bzw. den Zusammenhang zwischen den Gruppen darzustellen.
Risiko (Rate, Ereignisrate)
Das Risiko bzw. die Ereignisrate beschreibt den Anteil von Gruppenteilnehmern, bei denen ein vorab definierter Endpunkt eintritt. Erreichen diesen beispielsweise 68 von 100 Personen und 32 nicht, liegt das Risiko bei 0,68 bzw. 68 Prozent.
Sekundärliteratur
Sekundärliteratur sind Publikationen, die über Arbeiten anderer Wissenschaftler berichten, zum Beispiel deren Forschungsergebnisse beschreiben, interpretieren oder analysieren. Dazu gehören medizinische Standardlehrbücher, Nachschlagewerke und Leitlinien.
Eine Sonderform der Sekundärliteratur sind Literaturübersichten, in denen wissenschaftliche Erkenntnisse aus mehreren Einzelpublikationen (Primärliteratur) zusammengefasst werden, inklusive systematischer Übersichtsarbeiten und Meta-Analysen.
Selektionsbias
Siehe Bias-Arten.
Sensitivität
Die Sensitivität gibt Auskunft darüber, wie zuverlässig ein medizinisches Diagnoseverfahren ist. Mit ihr wird die Wahrscheinlichkeit angegeben, dass ein diagnostischer Test ein korrektes Ergebnis liefert bzw. die Erkrankten richtigerweise als krank identifiziert. Tests mit hoher Sensitivität detektieren eine bestimmte Erkrankung bei möglichst vielen Erkrankten und übersehen nur sehr wenige Betroffene.
Signifikanzniveau
Das Signifikanzniveau (α-Niveau) legt im statistischen Test fest, ab wann ein Ergebnis als signifikant bezeichnet werden kann. Genauer wird damit die Höhe der Wahrscheinlichkeit angegeben, dass eine Nullhypothese irrtümlich verworfen wird, obwohl sie in Wahrheit richtig ist (Fehler 1.erster Art bzw. Alpha-Fehler). Je kleiner das Signifikanzniveau gewählt wird, umso niedriger ist die Wahrscheinlichkeit, die Nullhypothese irrtümlich zu verwerfen.
Meist werden Signifikanzniveaus zwischen 0,05 und 0,01 Prozent verwendet. Ein Niveau von α = 0,05 bedeutet, dass eine Fehlerwahrscheinlichkeit von 5 Prozent in Kauf genommen wird. Bescheinigt also ein Test zum α-Niveau von 0,05 Signifikanz, ist mit einer 5-prozentigen Wahrscheinlichkeit davon auszugehen, dass die gezogenen Rückschlüsse falsch sind.
Standardabweichung
In der Statistik werden drei Streuungsparameter unterschieden: die Spannweite (Distanz zwischen kleinstem und größtem Messwert), Varianz (Streuungsstärke) und Standardabweichung. Die Standardabweichung beschreibt die durchschnittliche Entfernung der Messwerte vom Mittelwert und gibt die Streuungsbreite an. Ihre Berechnung erfolgt aus der Wurzel der Varianz. Eine größere Standardabweichung bedeutet eine höhere Varianz und umgekehrt.
Standardfehler
Der Standardfehler beschreibt, wie stark ein Parameter aus einer gewählten Stichprobe – zum Beispiel der Mittelwert – durchschnittlich vom tatsächlichen Parameter in der Grundgesamtheit abweicht. Er berechnet sich aus dem Quotienten der Standardabweichung der Stichprobe und der Wurzel aus dem Stichprobenumfang. Dabei gilt: Je größer der Stichprobenumfang ist, umso kleiner der Standardfehler und umgekehrt.
Statistische Signifikanz
Eine statistische Signifikanz liegt vor, wenn das beobachtete Ergebnis einer Studie trotz einer gewissen Irrtumswahrscheinlichkeit nicht mehr als Zufallsbefund erklärbar ist. Die Stichprobendaten weichen also von der vorher festgelegten Nullhypothese so stark ab, dass der Unterschied tatsächlich vorhanden sein muss – und die Nullhypothese abzulehnen ist. Die Signifikanz wird üblicherweise mit dem p-Wert ausgedrückt. Das beobachtete Ergebnis gilt als statistisch signifikant, wenn der p-Wert gleich oder kleiner als das Signifikanzniveau (α) ist – in der Regel p ≤ 0,05.
Der Nachweis einer Signifikanz gibt weder Auskunft darüber, ob der gefundene Unterschied wirklich so groß ist, wie in der Studie beobachtet, (siehe Konfidenzintervall) noch ob eine klinische Relevanz besteht.
Stichprobe
Als Stichprobe wird die Teilmenge einer Population bezeichnet, über die in einer Studie eine Aussage getroffen werden soll. Die Daten, die von den Teilnehmern erhoben werden, stehen also stellvertretend für eine bestimmte Bevölkerungsgruppe. Eine repräsentative Abbildung der Grundgesamtheit gelingt nur, wenn die Stichprobe ausreichend groß ist und ohne Verzerrung – idealerweise per Zufall – ausgewählt wird.
Validierung
Mit der Validierung (Validation) wird die Validität einer Messmethodik belegt. Studien, die auf eine Validierung zielen, werden Validierungsstudien genannt. Sie beziehen sich oft auf psychometrische Instrumente (insbesondere zur Lebensqualität).
Validität
Validität ist neben der Reliabilität (Zuverlässigkeit, Reproduzierbarkeit) und Objektivität (Unabhängigkeit der Testergebnisse von den Messbedingungen) eines der Hauptgütekriterien von wissenschaftlichen Tests bzw. Messmethoden. Der Begriff beschreibt die Übereinstimmung, mit dem ein Merkmal tatsächlich gemessen wird, wie es vorgesehen bzw. geplant war. Der Begriff gibt also den Genauigkeitsgrad wieder.
In der evidenzbasierten Medizin geht es vornehmlich um die Validität von Studienergebnissen und in Studien gezogenen Schlussfolgerungen. Vereinfacht ausgedrückt bildet die Validität die Belastbarkeit bestimmter Aussagen ab. Hierbei wird nochmal zwischen interner Validität (Eindeutigkeit) und externer Validität (Verallgemeinerungs- bzw. Übertragungsfähigkeit) unterschieden. Einschränkungen der Validität ergeben sich insbesondere aus dem Vorhandensein von Bias.
Varianz
In der Statistik werden drei Streuungsparameter unterschieden: die Spannweite (Distanz zwischen kleinstem und größtem Messwert), Standardabweichung (Streuungsbreite) und Varianz. Die Varianz ist das Quadrat der Standardabweichung und gibt die Streuungsstärke an. Sie errechnet sich, indem die Summe der quadrierten Abweichungen aller Messwerte durch die Anzahl der Messwerte dividiert wird.
Verblindung
Als Verblindung wird die Geheimhaltung von Gruppen während einer vergleichenden Studie bezeichnet. Es gibt einfach- und doppelblinde Studiendesigns. In einer einfach verblindeten Studie wissen nur die Probanden (subject-blind) oder der Untersucher (investigator-blind) nicht, wer dem Verum- oder Kontrollarm zugeordnet wurde. In Doppelblindstudien ist die Zuordnung sowohl dem Studienteilnehmer als auch dem Prüfarzt/Pflegepersonal bzw. dem Forschungsteam unbekannt. Mit der Maßnahme sollen Verzerrungen durch Vorurteile und Beeinflussung vermieden werden.
Wahrscheinlichkeit
Die Wahrscheinlichkeit ist ein Maß dafür, wie hoch die Chance ist, dass ein Aspekt bzw. Ereignis eintritt oder nicht. Im Rahmen von Studien errechnet sich die Wahrscheinlichkeit aus dem Verhältnis derjenigen einer Gruppe mit einem Ereignis zu allen Gruppenteilnehmern. Bei 20 von 100 Teilnehmern beträgt die Wahrscheinlichkeit 20 von 100 oder 0,2 oder 20%.
Wirksamkeit
Wirksamkeit beschreibt die Fähigkeit von Interventionsmaßnahmen bzw. Arzneimitteln, einen vorab definierten Effekt herbeizuführen. Zur Bewertung werden vor Studienbeginn unterschiedliche Endpunkte festgelegt. Wird dieser Endpunkt erreicht, gilt die Wirksamkeit (zum Beispiel eines neuen Wirkstoffs) als belegt.