Medizinische Statistik

Prinzipien der therapeutischen Prüfung

Therapiestudien

Die häufigste Therapieform in der Medizin ist die Behandlung mit Arzneimitteln. Aufgrund schlechter Erfahrungen mit unerwünschten Wirkungen von Medikamenten (Contergan) wurde vor etwa dreißig Jahren ein strenges Schema zur Arzneimittelprüfung eingeführt, das alle Substanzen, die eventuell als Medikament in Frage kommen, durchlaufen müssen.

In verschiedenen Gesetzen und Verordnungen sind sowohl die biometrischen als auch die rechtlichen und ethischen Aspekte der Arzneimittelprüfung verbindlich festgelegt. Die Kontrolle und Zulassung von Arzneimitteln erfolgen in der Bundesrepublik durch das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) und das Paul-Ehrlich-Institut (PEI). Auf europäischer Ebene ist die "European Medicines Agency (EMA)" zuständig. Die "International Conference on Harmonization of Technical Requirements for Registration of Pharmaceuticals for Human Use (ICH)" hat Richtlinien (Guidelines) für die bei der Arzneimittelprüfung anzuwendenden Prinzipien der "Good Clinical Practice (GCP)" verabschiedet. Insbesondere ICH E6 "Guideline for Good Clinical Practice" und ICH E9 "Statistical Principles for Clinical Trials" sind für klinische Studien von Bedeutung.

Nach der präklinischen Phase (Labor- und Tierversuche) gliedert sich die Arzneimittelprüfung am Menschen in vier Phasen:

Phase I: Prüfung der Pharmakokinetik, d.h. des Konzentrationsverlaufs im Serum nach intravenöser Gabe des Medikaments. Prüfung der Bioverfügbarkeit, d.h. des Konzentrationsverlaufs der Substanz am Wirkort in der geplanten Applikationsform und der Verträglichkeit an (gesunden) Freiwilligen.
Phase II: Mit Hilfe von Beobachtungsstudien an Kranken mit der vorgesehenen Indikation wird die Wirksamkeit überprüft und die Dosierung des Arzneimittels festgelegt (Pharmakodynamik).
Phase III: Wirksamkeits- und Überlegenheitsnachweis des Arzneimittels durch eine kontrollierte klinische Therapiestudie. Diese Art der Studie ist Voraussetzung für die Zulassung eines Arzneimittels.
Phase IV: Arzneimittelüberwachung nach der Zulassung, d.h. Prüfung der Wirksamkeit unter Praxisbedingungen und Untersuchung der Inzidenz und Ätiologie unerwünschter Wirkungen.

Um erwünschte und unerwünschte Wirkungen von Arzneimitteln nachzuweisen, müssen klinische und epidemiologische Studien durchgeführt werden. Dabei handelt es sich in der Regel um geplante, wissenschaftliche Beobachtungen von Zuständen und Krankheitsprozessen. Im Gegensatz zu Beobachtungsstudien, bei denen die Probanden nur beobachtet werden, handelt es sich bei Therapiestudien (insbesondere bei Phase-III-Studien) um Interventionsstudien, die bis zu einem gewissen Grad naturwissenschaftlichen Experimenten entsprechen.

Solche Experimente sind durch zwei Kriterien gekennzeichnet:

  1. Durch das Experiment wird die Natur nach der Willkür des Experimentators manipuliert. Immanuel Kant hat dies so ausgedrückt, dass die "Natur zur Antwort gezwungen wird".
  2. Die Versuchsbedingungen, mit Ausnahme der vom Experimentator geänderten Bedingungen, sollen für den ganzen Versuch und alle daran Beteiligten konstant bleiben (ceteris-paribus-Prinzip).

Werden diese Prinzipien auf den Menschen angewandt, so können sie zu einem Konflikt zwischen Forderungen des naturwissenschaftlichen Experiments und der Würde des Menschen führen. Aus diesem Grunde müssen ethische Grundsätze eingehalten werden, die vom Weltärztebund erstmals im Jahre 1964 festgelegt wurden und als Deklaration von Helsinki bekannt sind. Andererseits sind auch nach Auffassung des Weltärztebundes wissenschaftlich sachgerecht durchgeführte Versuche am Menschen unverzichtbar, um Wirksamkeit bzw. Äquivalenz therapeutischer, diagnostischer und prophylaktischer Verfahren objektiv zu beurteilen. Vor Durchführung einer klinischen Studie muss der Prüfplan von einer Ethikkommission einer Medizinischen Fakultät oder einer Ärztekammer gutgeheißen werden.

Historische Beispiele kontrollierter Therapiestudien

Beispiel: Skorbut-Studie (James Lind 1758)

Die erste bekannte kontrollierte Therapiestudie wurde von James Lind im Jahre 1758 durchgeführt. Er war Kapitän in der Flotte vom James Cook, die sich auf der Fahrt von der Südsee nach Portsmouth befand. Drei Wochen vor Erreichen der englischen Küste hatten 12 Seeleute seiner Besatzung Skorbut.

James Lind bildete sechs Therapie-Vergleichsgruppen nach folgendem Schema:

Art der Therapie (einmal täglich) Anzahl Matrosen
Trinken von ¼ Liter Apfelwein 2
Gabe einer Arznei aus Vitriol 2
Trinken bzw. gurgeln mit Weinessig 2
Trinken von Seewasser 2
Essen von Zitrusfrüchten (zwei Orangen, eine Zitrone) 2
Gabe von Knoblauch, Senf und Perubalsam 2
Tab. 1: Skorbut-Studie

Der Studienverlauf wurde im Logbuch des Schiffes dokumentiert. Nach sechs Tagen war ein Matrose der Zitrusfrucht-Therapiegruppe gesund, der andere wesentlich gebessert. Bei allen anderen Matrosen hatte sich bis zur Ankunft in Portsmouth kein Therapieerfolg eingestellt. Lind empfahl daher der Admiralität das Mitführen von Zitrusfrüchten auf allen Schiffen der Navy. Erst fünfzig Jahre später wurde eine entsprechende Verordnung erlassen.

Beispiel: Pneumonie-Studie (Joseph Dietl 1849)

Um die Wirksamkeit verschiedener Therapien bei Pneumonie zu ermitteln, führte Dietl 1849 in einem Wiener Krankenhaus die erste bekannte placebo-kontrollierte Therapiestudie durch. Die Studie lief über 14 Jahre und umfasste 380 Patienten. Es wurden drei Therapie-Vergleichsgruppen betrachtet, eine davon war die Placebo-Behandlung. Placebo-Behandlung bedeutete in diesem Fall stationäre Pflege und gute leichte Kost. Das Maß für den Therapie-Erfolg war die Letalität. Die Studie hatte folgendes Ergebnis:

Art der Therapie Letalität
Aderlass durch Blutegel 20,4%
Weinsteinbrechmittel 20,7%
Placebo 7,4%
Tab. 2: Pneumonie-Studie

Wie beurteilt man Studien?               

Es gibt Grundprinzipien, nach denen die Qualität von klinischen Studien, insbesondere von kontrollierten Studien, beurteilt werden kann.

Beobachtungsgleichheit

Es muss sichergestellt sein, dass bei allen an einer Studie beteiligten Patienten unter den gleichen Bedingungen beobachtet und dokumentiert wird. Dies betrifft sowohl die Beobachtung des Behandlungserfolges (der Zielgröße) als auch die Beobachtung aller Einflussgrößen, d.h. aller durchgeführten therapeutischen, diagnostischen und anamnestischen Maßnahmen. Es darf z.B. nicht vorkommen, dass eine Gruppe gründlicher diagnostiziert wird als die andere und daher z.B. nur dort Nebenwirkungen festgestellt werden.

Beobachtungsgleichheit hat darüber hinaus auch zeitliche Aspekte (historische Vergleichsgruppen sind problematisch, z.B. der Vergleich von Operationsmethoden von vor zwanzig Jahren mit heutigen Methoden) und regionale Aspekte (Vergleichsgruppen aus verschiedenen Regionen sind problematisch, z.B. Deutschland und USA).

Vergleichsgruppen, die aus der Literatur erhoben werden, sind besonders problematisch, da der Dokumentationsumfang und die Dokumentationstiefe in der Regel erhebliche Unterschiede aufweisen. Dies gilt besonders für retrospektive Auswertungen an Hand von Krankenakten.

Strukturgleichheit

Es muss bei kontrollierten Studien sichergestellt sein, dass alle Therapie-Vergleichsgruppen untereinander homogen sind, d.h. dass die Vergleichsgruppen sich ausschließlich in der Art der Therapie unterscheiden. Innerhalb jeder Gruppe muss Behandlungsgleichheit gegeben sein (ceteris-paribus-Prinzip).

Zwischen den Vergleichsgruppen dürfen, außer der Therapieform, keine weiteren Unterschiede bezüglich anderer Einflussgrößen wie z.B. Schweregrad der Erkrankung oder Alters- und Geschlechtsverteilung auftreten. Nur dann können Unterschiede bezüglich der Wirksamkeitskriterien (Zielgrößen) kausal auf die Behandlung zurückgeführt werden.

Homogenität von Vergleichsgruppen wird gewöhnlich mit Methoden der Randomisierung und Stratifikation erreicht. Dies stellt die oben erwähnte Willkür des Experimentators dar. Sie beruht allerdings auf objektiven naturwissenschaftlichen Methoden und ist keineswegs eine subjektive Willkür.

Repräsentativität

Die Grundgesamtheit ist die Menge der Beobachtungseinheiten, auf die sich das Ergebnis einer Studie beziehen soll. Wenn beispielsweise in einer Studie die Wirksamkeit eines Medikaments zur Therapie einer bestimmten Krankheit nachgewiesen wurde, kann dieses Medikament potenziell zur Behandlung aller an dieser Krankheit Leidenden (= Grundgesamtheit) verwendet werden. Falls die Beobachtungseinheiten Patienten sind, muss daher bei ihrer Aufnahme in die Studie (z.B. histologisch) sichergestellt sein, dass sie auch wirklich an der bestimmten Erkrankung leiden und damit der Grundgesamtheit angehören.

Durch Ein- und Ausschlusskriterien wird die Grundgesamtheit der Erkrankten üblicherweise weiter eingeschränkt. Es kann im Prüfplan, der sowohl gesetzlich als auch ethisch vorgeschrieben ist, z.B. festgelegt werden, dass nur Patienten ohne Nebenerkrankungen oder ohne Prämedikation oder in einer bestimmten Altersgruppe oder in einem bestimmten Krankheitsstadium in die Studie aufgenommen werden.

Dies beeinflusst selbstverständlich die Repräsentativität, die eine Aussage über den Therapieerfolg zulässt. Wenn sich z.B. in einer Studie mit erwachsenen Patienten eine Therapie als überlegen erweist, braucht dies bei erkrankten Kindern nicht notwendigerweise der Fall zu sein.

Verallgemeinerungsfähigkeit

Aussagen über therapeutische Wirksamkeit werden anhand einer gewissen Anzahl von Patienten, der sogenannten Stichprobe, ermittelt. Benötigt wird aber eine Aussage über den Therapieerfolg in der Grundgesamtheit aller Patienten, die an der bestimmten Krankheit leiden und die den festgelegten Ein- und Ausschlusskriterien genügen. Die Ergebnisse einer klinischen Studie, die auf einer bestimmten Anzahl von Patienten beruhen, müssen also auf die Grundgesamtheit aller Erkrankten verallgemeinert werden können.

Dies setzt einen induktiven Schluss von der Stichprobe auf die Grundgesamtheit voraus. Objektive mathematische Methoden, die eine solche Schlussweise gestatten, sind u.a. statistische Tests und die Bestimmung von Konfidenzintervallen.

Sie setzten ihrerseits voraus, dass neben der Beobachtungsgleichheit, der Strukturgleichheit und der Repräsentativität auch die Fallzahl in den Therapie-Vergleichsgruppen hinreichend groß ist, um eine Verallgemeinerung der Ergebnisse der Studie zu ermöglichen.

Die Berechnung des erforderlichen Stichprobenumfangs wird mit konfirmatorischen Methoden der Medizinischen Biometrie durchgeführt und sollte stets vor Beginn der Studie im Prüfplan festgelegt sein.

Beurteilung der historischen Therapiestudien

Bewertet man nun die Qualität der Skorbut- und der Pneumonie-Studie unter diesen Gesichtspunkten, so ergibt sich folgendes Bild.

Skorbut-Studie

Bei der Skorbut-Studie kann Beobachtungsgleichheit vorausgesetzt werden (Eintragung ins Logbuch). Strukturgleichheit ist wohl kaum gegeben, da die Einteilung der Matrosen in die Therapiegruppen wohl auf der subjektiven Willkür des Experimentators beruht und nicht auf einem objektiven Randomisierungsverfahren.

Repräsentativität hingegen scheint vorhanden, da ein Kapitän der damaligen Zeit, der gleichzeitig auch Schiffsarzt war, die Diagnose Skorbut wohl eindeutig stellen konnte, und da sein Segler wohl auch als repräsentativ für das Auftreten von Skorbut bei damaligen Südseefahrten anzusehen war.

Falls Strukturgleichheit unterstellt werden könnte, wäre auch Verallgemeinerungsfähigkeit gegeben. Nach dem heutigen Wissen über induktive Schlussweisen (exakter Fisher-Test) ergibt sich ein p-Wert von p = 0.014, wenn von 12 Probanden ausschließlich die beiden Probanden der Zitrusgruppe geheilt werden.

Dieser p-Wert besagt, dass der Therapieerfolg in der Zitrusgruppe mit einer Wahrscheinlichkeit von 1.4% auf purem Zufall beruht, falls man annimmt, dass die Zitrustherapie die gleiche Wirksamkeit bzw. Unwirksamkeit aufweist wie die Vergleichstherapien.

Da die Wahrscheinlichkeit für einen Zufallserfolg unter 5% liegt, kann man diese Hypothese verwerfen und annehmen, dass die Zitrustherapie wirksam ist.

Pneumonie-Studie

Dass in der Pneumonie-Studie Beobachtungsgleichheit herrscht, ist nicht anzunehmen. Die Studiendauer betrug 14 Jahre und die Studie war offenbar nicht prospektiv geplant, wie dies bei der Skorbut-Studie der Fall ist.

Strukturgleichheit ist in der Pneumonie-Studie kaum zu erwarten. Vermutlich hat Dietl den leichteren Fällen von Pneumonie die Placebo-Behandlung verordnet und die ernsten Fälle mit den damaligen Standardtherapien, Aderlass durch Blutegel und Weinsteinbrechmittel, behandelt. Dies wäre das Recht und nach unseren heutigen Gesetzen sogar die Pflicht eines Arztes.

Allerdings sind derartige Studien dann auch ohne jede Aussagekraft und ohne jeden Erkenntniswert. Das Ergebnis, dass fortgeschrittenere Erkrankungen die schlechtere Prognose haben, wäre nicht sehr erstaunlich.

Nehmen wir aber einmal an, dass in der Pneumonie-Studie Beobachtungsgleichheit, Strukturgleichheit und auch Repräsentativität geherrscht hätten, dann wäre die Interpretation der oben angegebenen Ergebnisse, nämlich dass Placebo die Behandlungsmethode der Wahl ist, immer noch äußerst fragwürdig. Erstens fehlen Angaben über den Stichprobenumfang in den einzelnen Therapiegruppen und zweitens fehlt der zeitliche Bezug zur Letalität.

Nach unserem heutigen Stand des Wissen müsste man Überlebenszeitanalysen durchführen, die die unterschiedlichen Beobachtungszeiten der einzelnen Patienten berücksichtigen. Dies wäre in der Skorbut-Studie nicht nötig, da sämtliche Erkrankten den gleichen Beobachtungszeitraum aufweisen, nämlich drei Wochen.

Eigenschaften von Studien            

Sämtliche Studienformen können durch vier Eigenschaften charakterisiert werden:

kontrolliert

Eine Studie ist kontrolliert, wenn nicht nur eine Gruppe von Beobachtungseinheiten untersucht wird, sondern mindestens noch eine zweite Gruppe, und wenn die beiden Gruppen miteinander verglichen werden. Bei kontrollierten Therapiestudien wird der relative Wirksamkeitsnachweis angestrebt. Die Wirksamkeit der Prüftherapie wird mit der Wirksamkeit einer Kontrolltherapie (oder mehrerer Kontrolltherapien) verglichen. In der Regel ist die Kontrolltherapie die bisher übliche Standardtherapie. Die Probanden in beiden Gruppen stammen in diesem Fall aus der gleichen Population kranker Menschen.

Eine Placebo-Kontrolle würde einen absoluten Wirksamkeitsnachweis für die Prüftherapie ermöglichen. Allerdings ist bei schwerwiegenden Erkrankungen eine Placebo-Kontrolle sowohl aus rechtlichen (Arzneimittelgesetz) als auch aus ethischen (Deklaration von Helsinki) Gründen ausgeschlossen.

Ohne Kontrolle ist der Wirksamkeitsnachweis einer Therapie unmöglich, da nicht festgestellt werden kann, ob der beobachtete Effekt nicht auch ohne die eigentliche Therapie eingetreten wäre (Placebo-Effekt).

randomisiert

Um Strukturgleichheit innerhalb der verschiedenen Therapiegruppen zu erreichen, wird bei kontrollierten klinischen Studien randomisiert, d.h. es erfolgt eine streng zufällige Zuteilung der Therapieart für den Patienten. Der Stichprobenumfang darf aber nicht zu klein sein, weil sonst Strukturgleichheit kaum zu erreichen ist.

Dabei bedient man sich sogenannter Randomisierungspläne, bei denen vom Computer (Zufallsgenerator) erstellte Listen von Zufallszahlen benutzt werden.

Ersatzverfahren, wie die Zuordnung anhand des Geburtsdatums, z.B. Prüftherapie, falls der Geburtsmonat ungerade und Kontrolltherapie, falls der Geburtsmonat gerade ist, sind nicht empfehlenswert. Eine willkürliche oder sogar systematische Zuordnung z.B. nach dem Schweregrad der Krankheit durch den behandelnden Arzt muss ausgeschlossen sein.

Um neben dem Therapieeffekt auch andere Einflussgrößen in der Studie kontrollieren zu können, werden häufig Stratifizierungs-Techniken angewendet. Bei multizentrischen Studien wird zum Beispiel innerhalb jeder der beteiligten Kliniken randomisiert. Um Aussagen über die klinische Prognose bestimmter Krankheitsstadien kontrollieren zu können, sollte z.B. innerhalb der einzelnen Stadien randomisiert werden.

prospektiv

Die Verwendung des Begriffes prospektiv ist mehrdeutig. Zum einen bezieht er sich auf die prospektive Erfassung der erwünschten bzw. unerwünschten Wirkung. Zum anderen auf die prospektive Erfassung der Einflussgrößen.

Wir sprechen von einer prospektiven Studie, wenn das gesuchte Zielereignis erst nach Fertigstellung des Prüfplans, nach Beginn der Studie und nach der Rekrutierung der Patienten eintritt.

Zielereignisse bei Krebserkrankungen sind z.B. das Eintreten von Tumorremission, das Auftreten von Metastasen oder Rezidiven oder der Eintritt des Todes (Überlebenszeitanalysen). Üblicherweise ist der Behandlungsbeginn gleichzeitig der Beginn der Beobachtungsphase des Patienten. Ferner werden in prospektiven Studien auch die Einflussvariablen prospektiv erfasst.

Eine prospektive Erfassung der Einflussvariablen kann aber auch bei retrospektiven Studien erfolgen, d.h. mit Patienten, bei denen das untersuchte Zielereignis (z.B. Lungenkrebs) bereits eingetreten ist und bei denen die Risikofaktoren (z.B. Rauchen) erfragt bzw. durch Laboruntersuchungen (Lungenfunktionsprüfung) beobachtet werden.

longitudinal

Der Krankheitsprozess wird in seinem zeitlichen Verlauf beobachtet und analysiert. In regelmäßigen Zeitabständen werden Daten erfasst. Eine andere Bezeichnung für longitudinale Studien ist Längsschnittstudien.

Im Gegensatz dazu sind transversale Studien (Querschnittstudien) Momentaufnahmen des Krankheitsgeschehens. Transversale Studien sind z.B. demographische Befragungen oder Umfragen (Wie z.B. "Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären?") oder Erhebungen bei Patienten, bei denen der Krankheitsstatus und die Symptome anamnestisch erfasst und ausgewertet werden.

Studientypen

Aufgrund obiger Eigenschaften können alle Studientypen eindeutig charakterisiert werden.

Kontrollierte klinische Therapiestudie

Eine kontrollierte klinische Therapiestudie (controlled clinical trial bzw. randomized controlled trial (RCT)) liegt vor, wenn eine klinische Studie alle vier eben genannten Eigenschaften (kontrolliert, randomisiert, prospektiv und longitudinal) erfüllt. Dabei handelt es sich um eine Interventionsstudie.

Beispiel: Fragestellung: Wirkt der Hypericum-Extrakt LI 160 im Vergleich zu Placebo bei leichter bis mittelschwerer Depression? Es wurden zwei Gruppen von Probanden gebildet: eine Gruppe erhielt Hypericum (Verum), eine Gruppe Placebo für 4 Wochen. Die Zuordnung der Patienten zu den Gruppen erfolgte randomisiert. Zielgröße war die Veränderung der depressiven Symptomatik anhand der Hamilton-Depressionskala nach 4 Wochen im Vergleich zum Ausgangswert. (Harrer G, Sommer H (1993): Therapie leichter/mittelschwerer Depressionen mit Hypericum. Münchner Medizinische Wochenschrift 135(22), 305-309).

Kohortenstudie

Eine Kohortenstudie (cohort study) ist eine Beobachtungsstudie, bei der eine gewisse Gruppe von Menschen (eine Kohorte) bezüglich ihrer Exposition (Einflussgrößen) und dem Auftreten möglicher unerwünschter Wirkungen (Zielgrößen) über einen gewissen Zeitraum beobachtet wird. Kohortenstudien dienen in der Regel nicht der Ermittlung der therapeutischen Wirksamkeit (erwünschte Wirkung), sondern vielmehr der Ermittlung der Inzidenz und Ätiologie unerwünschter Wirkungen (Nebenwirkung).

Beispiel: Die bekannteste und umfangreichste Kohortenstudie ist die sogenannte Framingham-Studie. Framingham ist eine Stadt in Massachusetts von ca. 200.000 Einwohnern. Zwischen 1948 und 1978 wurde eine Kohorte von 5200 Einwohnern jährlich auf seinen Herz-Kreislauf-Zustand überprüft, und das Auftreten von Herz-Kreislauf-Erkrankungen prospektiv erfasst. Aus der Anamnese und dem Auftreten der Erkrankungen lassen sich Schlüsse über die Inzidenz und die Ätiologie dieser Erkrankungen ableiten. Die heute bekannten Risikofaktoren, wie Hypercholesterinämie, Rauchen, Hypertonie oder Diabetes, wurden mit dieser Studie identifiziert.

Kohortenstudien sind prospektiv und longitudinal. Sie sind bei Studienbeginn i.a. nicht kontrolliert. Nach Abschluss der Studie können allerdings geeignete Vergleichsgruppen gebildet werden. Manchmal werden aber auch zu Beginn Gruppen definiert (z.B. Exposition ja/nein), die getrennt nachbeobachtet werden. Eine Randomisierung ist nicht möglich. Kohortenstudien geben in der Regel ein repräsentatives Bild der Erkrankungen in einer Bevölkerung, da das Krankheitsgeschehen einer gesamten Population betrachtet wird.

Beispiel einer Kohortenstudie mit Kontrollgruppe: Fragestellung: Sind antiphlogistische Medikamente, die kein Aspirin und keine Steroide enthalten (z.B. Naproxen, englische Abkürzung: NANSAID), zur Herzinfarktprophylaxe geeignet? Über einen Zeitraum von 11 Jahren wurden 181.441 Patienten, die solche Medikamente einnahmen, und eine gleich große Gruppe von Kontrollen, die nach passenden demographischen Kriterien ebenfalls aus dem Tennessee Medicaid-Programm zufällig ausgewählt wurden, in die Studie eingeschlossen und ein bis zwei Jahre beobachtet. (Ray WA, Stein CM, Hall K, Daugherty JR, Griffin MR (2002): Non-steroidal anti-inflammatory drugs and risk of serious coronary heart disease: an observational cohort study. The Lancet 359, 118-123).

Fall-Kontroll-Studie              

Sind die zu erwartenden unerwünschten Wirkungen äußerst selten, wäre eine Kohortenstudie viel zu aufwendig und zu teuer, z.B. ist die Inzidenz von Herz-Kreislauf-Erkrankungen in der Regel erheblich größer als die Inzidenz bestimmter Krebs-Erkrankungen.

Deshalb werden zur Analyse seltener unerwünschter Wirkungen Fall-Kontroll-Studien (case-control study) durchgeführt.

Bei Fall-Kontroll-Studien wird eine Gruppe von Fällen, bei denen das unerwünschte Ereignis (z.B. Krebs) aufgetreten ist, bezüglich der Exposition (z.B. Rauchen und Trinken) mit einer Gruppe von Kontrollen verglichen, bei denen das unerwünschte Ereignis nicht eingetreten ist. Es handelt sich daher bezüglich des Eintretens des unerwünschten Ereignisses um eine retrospektive Studie.

Die Erhebung möglicher Risikofaktoren kann retrospektiv, z.B. aus Patientenakten, oder prospektiv erfolgen, z.B. durch Befragen der Betroffenen oder durch Laboruntersuchungen. Weil für die Erhebung der Risikofaktoren möglichweise mehrere Untersuchungen erforderlich sind, ist es schwierig zu entscheiden, ob Fall-Kontroll-Studien transversal oder longitudinal sind.

Die Fall-Kontroll-Studie ist kontrolliert, d.h. es ist eine Kontrollgruppe vorhanden. Allerdings bezieht sich diese Kontrolle nicht auf die Exposition (z.B. Raucher gegenüber Nichtraucher oder Prüftherapie gegenüber Kontrolltherapie), sondern vielmehr auf die unerwünschte Wirkung (z.B. Krebskranker gegenüber nicht an Krebs Erkranktem). Dementsprechend kann auch nicht randomisiert werden. Bei einer bevölkerungsbasierten Fall-Kontroll-Studie bilden die Kontrollen eine Zufallsstichprobe aus der gleichen Grundgesamtheit, aus der die Fälle stammen (siehe Beispiel).

Zur Homogenisierung werden andere Erhebungsverfahren, z.B. die matched-pairs-Technik eingesetzt, die eine Strukturgleichheit bezüglich Alter und Geschlecht sowie weiterer möglicher Störgrößen zwischen den Fällen und Kontrollen erzielen soll.

Fall-Kontroll-Studien dienen der Analyse der Ätiologie unerwünschter Wirkungen. Inzidenzaussagen sind bei Fall-Kontroll-Studien nicht möglich.

Beispiel: Fragestellung: Haben Betablocker bei Patienten mit Bluthochdruck eine präventive Wirkung auf die KHK? 248 Fällen aus einem Gesundheitsprogramm im US-Bundesstaat Washington, bei denen innerhalb von 2 Jahren Angina pectoris und/oder ein Herzinfarkt diagnostiziert wurde, wurde eine Zufallsstichprobe von 737 Kontrollen, die aus der gleichen Grundgesamtheit zufällig gezogen und nach Alter, Geschlecht und Jahr der Diagnosestellung "gematcht" wurden und deren Bluthochdruck ebenfalls mit Betablockern behandelt wurde, gegenübergestellt. (Psaty BM, Koepsell TD, LoGerfo JP, Wagner EH, Inui TS (1989): β-Blockers and Primary Prevention of Coronary Heart Disease in Patients with High Blood Pressure. JAMA 261(14), 2087-2094).

Fall-Kohorten-Studie

In jüngerer Zeit werden auch sogenannte Fall-Kohorten-Studien (case-cohort studies) durchgeführt. Falls ein unerwünschtes Ereignis analysiert werden soll, das sogar unter Exposition sehr selten auftritt, bietet sich eine solche Studienform an, nicht zuletzt aus organisatorischen und finanziellen Gründen. Bei Fall-Kohorten-Studien wird, wie bei Kohortenstudien, eine definierte Population prospektiv über einen gewissen Zeitraum beobachtet. Es werden sämtliche Personen erfasst, bei denen das unerwünschte Ereignis auftritt. Zu diesen Fällen werden geeignete Kontrollen aus der Population rekrutiert. Dabei kann es passieren, dass in der Kontrollgruppe auch Erkrankte (Fälle) sind. Dieser Sachverhalt muss durch spezielle Auswertungsverfahren berücksichtigt werden. Der Vorteil gegenüber herkömmlichen Fall-Kontroll-Studien besteht darin, dass die Inzidenz des unerwünschten Ereignisses bestimmt werden kann. Der Vorteil gegenüber herkömmlichen Kohortenstudien liegt in dem geringeren Studien-Aufwand.

Beispiel: Fragestellung: Welche Risikofaktoren begünstigen einen Diabetes vom Typ 2? Innerhalb einer Kohortenstudie zur Risikoanalyse kardiovaskulärer Erkrankungen wurde eine Fall-Kohorten-Studie zur Risikoanalyse des Typ-2-Diabetes durchgeführt. Die Basispopulation betrug 7936 Probanden. Zu 555 Fällen wurden als Kontrollen 1885 Probanden aus der Basispopulation zufällig gezogen. Diese Kontrollgruppe enthielt 128 Fälle. (Thorand B, Schneider A, Baumert J, Döring A, Marowsky-Köppl M, Meier M, Meisinger C, Löwel H (2005): Fall-Kohorten-Studien: Ein effektives Design zur Untersuchung von Biomarkern als Risikofaktoren für chronische Krankheiten - Darstellung am Beispiel der MONICA/KORA Augsburg Fall-Kohorten-Studie 1984-2002. Gesundheitswesen 2005, 67 (Sonderheft 1), S98-S102).

Tabelle 3 zeigt die Eigenschaften der genannten Studientypen. Kohortenstudien, Fall-Kontroll-Studien und Fall-Kohorten-Studien werden zur Beantwortung von epidemiologischen Fragestellungen durchgeführt.

  Kontrollierte
klinische Studie
Kohortenstudie Fall-Kontroll-Studie Fall-Kohorten-Studie
kontrolliert + (+) + +
randomisiert + - - -
prospektiv + + - +
longitudinal + + ? +
Tab. 3: Studientypen

Krankheitsregister            

Häufig werden auch Krankheitsregister, insbesondere Tumorregister, sowohl zur Forschung als auch zur Krankenversorgung verwendet. Der Begriff Register ist keinesfalls selbsterklärend und bedarf einer exakten Definition.

Er lässt selbst dann die unterschiedlichsten Deutungen zu, wenn er zusätzlich mit den Attributen klinisch bzw. klinik-übergreifend ausgestattet wird. Benutzt man den Begriff Register (register) nicht als Bezeichnung einer institutionellen Organisation, sondern in Zusammenhang mit der Aufgabe, die durch Führung und Auswertung von Kranken- bzw. Krankheitsdaten bewältigt werden soll, dann ist es international üblich, drei Registerformen zu unterscheiden:

  1. Regionale bzw. nationale Gebietsregister / epidemiologische Register (population-based registries)
  2. Klinische Register(hospital-based registries)
  3. Pathologisch-anatomische Tumorkataster

Zur Klassifikation von Tumorregistern, insbesondere derjenigen, die in jüngerer Zeit im Rahmen von Modellmaßnahmen zur Krebsbekämpfung konzipiert wurden, scheint obige Dreiteilung jedoch nicht immer hinreichend trennfähig.

Man kann dies darauf zurückführen, dass viele Modellmaßnahmen, auch einige der onkologischen Nachsorge, einen die Institution der Klinik übergreifenden Charakter besitzen. So wird zum Beispiel das Mainzer Register über Malignome im Kindesalter als kombiniertes regionales und klinisches Register und das Tumorregister München als klinik-übergreifendes Verlaufsregister mit epidemiologischer Zielsetzung bezeichnet. Es ergibt sich eine Unschärfe in den Kategorien hospital-based und population-based.

Daher unternehmen wir zunächst den Versuch, geeignete Kriterien zur Charakterisierung von Tumorregistern aufzustellen, die dann zur Klassifikation von Tumorregistern eingesetzt werden. Die Darstellung dieser Register erfolgt zusätzlich unter Verwendung von Bewertungskriterien, die einen Leistungsvergleich zwischen ähnlichen Tumorregistern ermöglichen sollen.

Kriterien

Ein Klassifikationssystem zur Charakterisierung von Tumorregistern sollte mit Hilfe weniger, sich ausschließender semantischer Dimensionen dargestellt werden können. Wir meinen, dass zwei Dimensionen hinreichend und notwendig sind: Funktion des Registers und Patientengut. Als zusätzliche Kenngröße, die auf die datenschutzrechtliche Problematik der Speicherung und Verarbeitung von Patientendaten eingehen soll, verwenden wir ferner als dritte Dimension die Identifikation.

Funktion

Patientengut

Identifikation

Tab. 4: Kriterien zur Charakterisierung von Krankheitsregistern

Tabelle 4 zeigt diese semantischen Dimensionen und ihre Substrukturen, die unseres Erachtens ausreichen, um die unterschiedlichen Registerformen mit hinreichender Trennschärfe eindeutig zu charakterisieren. Die Tabelle ist so konzipiert, dass neben Tumorregistern auch andere Krankheitsregister klassifiziert werden können. Im folgenden wird dieses Klassifikationssystem erläutert.

Funktion des Registers

Es sollte unterschieden werden, ob ein Register primär für die Unterstützung der Behandlung krebskranker Patienten oder primär für die Erforschung von Krebskrankheiten eingesetzt wird.

Im Bereich der Patientenversorgung können drei Teilgebiete durch ein Tumorregister abgedeckt werden:

Bei der Forschung erscheint es zweckmäßig, eine Gliederung nach Forschungsrichtungen, nämlich diagnostische/therapeutische Forschung, ätiologische Forschung und Gesundheitssystem-Forschung vorzunehmen. Gesundheitssystem-Forschung wird hier verstanden als Funktionsanalyse des Gesundheitswesens und Verbesserung seiner Struktur, insbesondere der Informationsstruktur.

So ist z.B. eine bevölkerungsbezogene und flächendeckende Erfassung aller bösartigen Neubildungen nach dem Krebsregistergesetz (KRG) von 1994 verbindlich vorgeschrieben. Dieses bundesweite epidemiologische Krebsregister dient der Erfassung der Inzidenz und Ätiologie von Krebskrankheiten.

Beispiel: Im Saarländischen Krebsregister werden seit 1967 alle Fälle bösartiger Tumore im Saarland registriert. Dieses Register ist vor allem im internationalen Vergleich die wichtigste Quelle für die Prävalenz und Inzidenz bösartiger Erkrankungen in Deutschland.

Eine Klassifikation nach Fachgebieten, z.B. klinisch, pathologisch-anatomisch, epidemiologisch, arbeitsmedizinisch, sozialmedizinisch oder nach eingesetzten Methoden der Versuchsplanung und der Auswertungsstrategie scheint in Bezug auf die Funktion des Registers weniger aussagefähig zu sein.

Patientengut

Als weiteres Charakteristikum eines Krankheitsregisters sollte das erfasste Patientengut klar definiert sein, unter Angabe des Einzugsbereiches und der Patientenauswahl.

Von primärer Bedeutung für den Einzugsbereich sind die Institutionen, die Daten an ein Register liefern. Dies kann ein monozentrischer Einzugsbereich, z.B. der einer Klinik, jedoch auch ein multizentrischer Einzugsbereich von verschiedenen, an der Datenerhebung beteiligten Institutionen sein.

Der Begriff multizentrisch hat hier mindestens drei Bedeutungen. Er kann verstanden werden als fachübergreifend, z.B. dass mehrere klinische und funktionsdiagnostische Abteilungen gemeinsam an der Patientenbehandlung beteiligt sind. Ferner als klinikübergreifend in dem Sinne, dass mehrere klinische Zentren an gemeinsamen wissenschaftlichen Studien beteiligt sind, und schließlich in Bezug auf Institutionen, die über den Bereich der ärztlichen Versorgung hinausgehen, z.B. im Rahmen der ätiologischen Forschung.

Eine Konkretisierung der Ein- und Ausschlusskriterien in Bezug auf die Patienten-Auswahl ist ebenfalls erforderlich. Solche Kriterien betreffen insbesondere die Krankheit, z.B. ob alle oder nur bestimmte Tumorarten erfasst werden, und sollten ebenfalls die Behandlungsphase kennzeichnen, z.B. Prävention, Vorsorge, Diagnostik, Therapie, Nachsorge, Nachbehandlung und Rehabilitation.

Identifikation

Die Patientenidentifikation innerhalb eines Registers ist ein für den Datenschutz erforderliches Kriterium zur Charakterisierung von Tumorregistern. Wir untergliedern den Begriff der Patientenidentifikation in personenbezogen, anonymisiert und anonym. Dabei bedeutet Anonymisieren eine Verschlüsselung (Kryptographie) personenidentifizierender Angaben und anonym, dass keine den Patienten reidentifizierenden Angaben im Register erfasst werden.

Prüfplan

Bei allen Studienformen sollte vor Durchführung der Studie ein ausführlicher Prüfplan (oder Studienprotokoll) vorliegen. Bei klinischen Prüfungen sind Prüfpläne grundsätzlich vorgeschrieben. Im Anhang wird der Prüfplan im Rahmen von ICH E6 genau beschrieben. Im Folgenden werden hier wichtige Punkte des Prüfplans erläutert.

Festlegung der Fragestellung

Bei allen medizinischen Studien sollte die zu untersuchende Fragestellung vor Beginn der Durchführung der Studie festliegen.

Bei der Festlegung der Fragestellung muss man sich auf eigene Voruntersuchungen oder auf entsprechende Fachliteratur stützen.

Geht es zum Beispiel um den Nachweis der Wirksamkeit bzw. der Überlegenheit einer neuen Prüftherapie, dann muss sowohl Vorwissen über die Prüftherapie bestehen, z.B. aus Laboruntersuchungen, sowie aus Phase-I- und Phase-II-Studien, als auch das entsprechende Wissen über die Vergleichstherapien (Standardtherapie) vorhanden sein und im Prüfplan festgelegt werden.

Wesentlich ist festzulegen, nach welchen Kriterien Wirksamkeit beurteilt werden soll. Wirksamkeitskriterien bei Studien über maligne Lymphome sind z.B.:

Es muss vor Durchführung der Studie festgelegt sein, welche dieser Variablen als primäre Zielgröße bei der Beurteilung der Äquivalenz bzw. der Überlegenheit von Prüftherapie und Kontrolltherapie angesehen wird. Ferner muss im Prüfplan festgelegt sein, mit welchen medizinischen Verfahren die Wirksamkeitskriterien (z.B. Remissionsgrad oder Lebensqualität) gemessen werden und mit welchen Methoden die biometrische Auswertung erfolgen soll.

Außer den zu vergleichenden Therapiearten müssen auch andere Einflussfaktoren und deren Messmethodik festgelegt sein. Dies gilt insbesondere für die zu erhebenden anamnestischen Befunde und für die Durchführung der Funktionsdiagnostik.

Schleppnetzforschung

Häufig wird Schleppnetzforschung betrieben, d.h. ohne spezifische Hypothese wird ein Datensatz erhoben und analysiert. Geschieht dies mit Methoden der analytischen Statistik (statistische Tests), dann ist man zum Scheinerfolg verdammt.

Wenn in einem Datensatz keinerlei Zusammenhänge zwischen klinischen Wirksamkeits- und Einflussfaktoren und auch keinerlei Zusammenhänge innerhalb dieser Faktoren bestehen, werden von 100 durchgeführten statistischen Tests im Durchschnitt 5 Tests signifikant ausfallen.

Dies würde einer Irrtumswahrscheinlichkeit von α = 5% entsprechen, die häufig als nominales Signifikanzniveau für statistische Tests angesehen wird.

In der Regel sind klinische Einflussfaktoren untereinander hoch korreliert. Dann kann der Anteil der signifikanten Testergebnisse weit über 50% betragen, obgleich kein Zusammenhang zwischen klinischen Wirksamkeits- und Einflussfaktoren besteht.

Die Anzahl der durchgeführten Tests beeinflusst das Signifikanzniveau. Das Signifikanzniveau sollte daher bei multiplen statistischen Tests unbedingt adjustiert werden, z.B. nach der Bonferroni-Holm-Prozedur.

Signifikanz               

Ein signifikantes statistisches Testergebnis braucht weder klinisch bedeutsam zu sein, noch einen kausalen Zusammenhang zwischen Wirksamkeits- und Einflusskriterien zu beweisen.

Klinische Bedeutsamkeit setzt zunächst eine klinisch relevante Fragestellung voraus, und ferner, dass die beobachteten Unterschiede auch wirklich bedeutsam sind, falls ein Testergebnis signifikant ausfällt. Wirksamkeitsunterschiede von 0.5% zwischen Prüf- und Kontrolltherapie sind klinisch wohl weniger bedeutsam als Unterschiede in der Größenordnung von 5% oder 10%. Was als bedeutsam betrachtet wird, muss von dem jeweiligen Substanzwissenschaftler festgelegt werden.

Auch sehr geringe und damit irrelevante Unterschiede können sich als statistisch hoch signifikant erweisen, d.h. nicht durch Zufall bedingt, falls der Stichprobenumfang hinreichend groß gewählt wird.

Kausalität der therapeutischen Wirkung kann nur bei sachgerecht durchgeführten kontrollierten klinischen Studien angenommen werden. Dies wäre eine konfirmatorische Analyse, im Gegensatz zu einer explorativen Analyse durch Screening von Datensätzen. Insbesondere bei Fall-Kontroll-Studien brauchen signifikante Ergebnisse keineswegs kausal zu sein. Dies wird im Kapitel Epidemiologie an Hand realer Daten ausführlich demonstriert.

Ein- und Ausschlusskriterien

Wie bereits diskutiert, wird durch Einschluss- und Ausschlusskriterien für die Teilnahme von Patienten an einer Studie die Grundgesamtheit definiert, auf die sich die Aussage der Studie bezieht. Es kann z.B. festgelegt werden, dass nur Patienten mit Primärerkrankung und ohne Polymorbidität aufgenommen werden, oder nur Patienten mit gewissen Krankheitsstadien, oder nur Patienten in einem gewissen Alter.

Zu den Einschlusskriterien gehört auf jeden Fall die schriftliche Einwilligung des Patienten, die von diesem jederzeit zurückgenommen werden kann.

Ferner müssen genaue Kriterien festgelegt sein, unter denen ein Patient aus der Studie ausscheidet, z.B. bei Unverträglichkeit und Resistenz.

Darüber hinaus müssen Kriterien festgelegt sein, unter denen eine klinische Studie abgebrochen werden muss, z.B. falls in einer Therapiegruppe gehäuft therapiebedingte unerwünschte Wirkungen festgestellt werden oder falls therapeutische Unwirksamkeit einer Therapiegruppe bzw. klare Überlegenheit der anderen Therapiegruppe vorliegt.

Randomisierung

Bei kontrollierten klinischen Studien muss die Art der Randomisierung und der Stratifikation vor Studienbeginn festgelegt sein. Die Zuordnung der Patienten zu den Zufallszahlen erfolgt üblicherweise in der chronologischen Reihenfolge des Eintritts der Patienten in die Studie.

Bei bestimmten Fragestellungen, z.B. bei der Wirksamkeit von Psychopharmaka oder Analgetika, kann auch überlegt werden, ob die Studie blind, d.h. der Patient weiß nicht, was er erhält, oder sogar doppelblind, d.h. auch der Arzt weiß nicht was er gibt, angelegt werden muss. Dadurch wird der Einfluss des subjektiven Empfindens von Patient und Arzt auf den Therapieerfolg ausgeschaltet.

Bei Fall-Kontroll Studien kann zwar keine Randomisierung erfolgen, jedoch sollte auch hier vor Studienbeginn festgelegt sein, wie die Kontrollgruppe beschaffen sein muss, um repräsentative Aussagen machen zu können (z.B. Anwendung der matched-pairs-Technik).

Studien-Dokumentation

Vor Durchführung der Studie müssen Erhebungsbögen festgelegt sein, mit denen der Status des Patienten bei Aufnahme in die Studie und seine Verlaufsbeobachtungen dokumentiert werden sollen. Nur so ist Beobachtungsgleichheit zu gewährleisten.

Ferner sollen vor Studienbeginn die aktiven Teilnehmer der Studie und ihre Verantwortlichkeiten festgelegt sein. Der Leiter der klinischen Prüfung (LKP) und die durchführenden Ärzte für die Durchführung der Prüfung besonders qualifiziert sein ("Prüfarzt"). Gleiches gilt für den verantwortlichen Biometriker.

Erforderlicher Stichprobenumfang

Wesentlich bei der Planung von Studien ist die Ermittlung des erforderlichen Stichprobenumfangs. Für randomisierte kontrollierte Studien muss eine sog. Fallzahlung durchgeführt und im Prüfplan dokumentiert werden. Die Festlegung des Stichprobenumfangs erfordert substanzwissenschaftliches und biometrisches Vorwissen. Folgende Größen müssen bekannt sein:

Aufgrund der Ergebnisse einer empirischen Studie ist es möglich zu behaupten, dass Unterschiede in der therapeutischen Wirksamkeit bestehen, obgleich sie tatsächlich nicht vorhanden sind. Die Wahrscheinlichkeit für diese irrtümliche Behauptung (Fehler 1. Art) wird als Signifikanzniveau α bezeichnet und üblicherweise auf einen Wert ≤ 5% festgelegt.

Es besteht aber auch die Möglichkeit, aufgrund der Ergebnisse einer empirischen Studie zu behaupten, dass keine therapeutischen Unterschiede vorliegen, obgleich sie tatsächlich vorhanden sind. Die Wahrscheinlichkeit dieser irrtümlichen Behauptung (Fehler 2. Art) wird mit β bezeichnet und üblicherweise auf einen Wert ≤ 10% festgelegt.

Ein statistisches Testverfahren sollte also so angelegt sein, dass bei einem nichtsignifikanten Ergebnis der Fehler 2. Art kontrolliert werden kann (β ≤ 10%) und bei einem signifikanten Ergebnis der Fehler 1. Art kontrolliert werden kann (α ≤ 5%).

Darüber hinaus muss festgelegt werden, was unter klinischer Bedeutsamkeit zu verstehen ist. Es muss die klinisch relevante Differenz zwischen dem Erfolg der Prüftherapie und dem Erfolg der Kontrolltherapie vorgegeben werden. Hierzu benötigt man Vorkenntnisse über den Therapieerfolg der Prüf- und Kontrolltherapie und ihrer biologischen Variabilität.

Bei der Berechnung von Fallzahlen unterscheidet man zwischen stetigen und qualitativen Zielgrößen.

Analyse stetiger Daten              

Die Berechnung des Stichprobenumfanges bei stetigen Zielgrößen soll am Beispiel der Eigenblutspende nach Gabe von rekombinantem humanem Erythropoetin dargestellt werden. Zur Ermittlung der zu erwartenden Unterschiede und der biologischen Variabilität wurde ein Pilotstudie gestartet.

Statistische Maßzahlen Gesamtvolumen Erythrozyten
  Erythropoetin Placebo
Stichprobenumfang n1 = 23 n0 = 24
Mittelwert xquer1 = 890.0 ml xquer0 = 589.7 ml
Standardabweichung s1 = 115.3 ml s0 = 82.6 ml
Tab. 5: Kontrollierte Studie zur Eigenblutspende (Pilotstudie)

In der Prüfgruppe wurde während der Eigenblutspende über drei Wochen zweimal wöchentlich 600 U/kg humanes Erythropoetin verabreicht. Die Placebo-Gruppe wurde nicht behandelt. Die Zuteilung der Patienten zu den Therapiegruppen erfolgte randomisiert. Tabelle 5 zeigt die statistischen Maßzahlen für das innerhalb von drei Wochen gespendete Gesamtvolumen an Erythrozyten in beiden Vergleichsgruppen.

Der benötigte Stichprobenumfang ergibt sich aus folgender Formel

                    Stichprobenumfang mit eigenen Daten berechnen       Anleitung

Dabei sind s ein Schätzwert für die Standardabweichung, Δ die klinisch relevante Differenz und z1-α/2 und z1-β die Quantile der Standard-Normalverteilung, z.B. gilt

z1-α/2 = z0.975 = 1.96 für α = 5% und z1-β = z0.9 = 1.29 für β = 10%.

Für das Beispiel wird als Schätzwert für die Standardabweichung die aus beiden Gruppen gepoolte Standardabweichung und als klinisch relevante Differenz Δ = 100 ml Erythrozytenvolumen angenommen.

Dann beträgt der erforderliche Stichprobenumfang pro Gruppe:

Es werden also 22 Fälle in jeder Gruppe benötigt.

Statistischer Test für Mittelwerte

Es muss geklärt werden, ob die beobachteten Unterschiede im gespendeten Gesamtvolumen an Erythrozyten durch Zufall erklärt werden können und ob diese Effekte nicht nur in der Stichprobe, sondern auch in der Grundgesamtheit bestehen.

Wir beurteilen daher nicht die Differenz der beobachteten Mittelwerte in der Stichprobe, sondern die Differenz der Erwartungswerte μ1 und μ0 der Gesamtvolumina an Erythrozyten in der Grundgesamtheit. Die Erwartungswerte würden mit den Mittelwerten übereinstimmen, falls der Stichprobenumfang in beiden Gruppen unendlich groß wäre.

Um zu entscheiden, ob sich die Erwartungswerte unterscheiden, formuliert man die

Nullhypothese H0: μ1 - μ0 = 0

und die

Alternativhypothese H1: μ1 - μ0 ≠ 0

Der adäquate statistische Test für diese Hypothesen bei Vorliegen normalverteilter Daten ist der sogenannte t-Test (Gosset-Test) für unverbundene Stichproben.

Die Teststatistik lautet:

 

Die Testentscheidung sieht folgendermaßen aus:

Falls der t-Wert dem Betrag nach größer oder gleich dem kritischen Wert tKrit = 2.014 ist, d.h. |t| ≥ tKrit, wird die Nullhypothese verworfen und die Alternativhypothese mit einer Irrtumswahrscheinlichkeit von α ≤ 5% angenommen.

Falls der t-Wert dem Betrag nach kleiner dem kritischen Wert tKrit = 2.014 ist, d.h. |t| < tKrit, wird die Nullhypothese mit einer Irrtumswahrscheinlichkeit von β ≤ 10% beibehalten. Das würde bedeuten, dass mit einer Irrtumswahrscheinlichkeit von β ≤ 10% keine Unterschiede zwischen den wahren Gesamtvolumina μ1 und μ0 an Erythrozyten bestehen, die größer als Δ = 100 ml sind.

Das Ergebnis der obigen Pilotstudie ist |t| = 10.2. Also kann mit α ≤ 5% Irrtumswahrscheinlichkeit angenommen werden, dass statistisch signifikante Unterschiede zwischen den Erwartungswerten bestehen.

p-Wert

Für die Berechnung statistischer Maßzahlen und für die numerische Berechnung statistischer Tests stehen geeignete Programmsysteme zur Verfügung, z.B. die Systeme SAS (Statistical Analysis System) und SPSS (Statistical Package for the Social Sciences).

Die Ergebnisse statistischer Tests werden in der Regel als sogenannte p-Werte (p-values) angegeben. Der p-Wert ist die Wahrscheinlichkeit, dass ein beobachteter therapeutischer Unterschied auf purem Zufall beruht, falls man annimmt, dass alle Therapiearten die gleiche Wirksamkeit haben, d.h. falls die Nullhypothese gilt (Überschreitungswahrscheinlichkeit).

Für obigen t-Test beträgt der p-Wert z.B. p = 0.0001. Er ist die Wahrscheinlichkeit, dass ein t-Wert auftritt, der dem Betrag nach größer als der berechnete Wert von t = 10.2 ist. Als Formel dargestellt lautet dies p (|t| ≥ 10.2) = 0.0001, wobei p Wahrscheinlichkeit (probability) bedeutet.

Da der p-Wert von p = 0.0001 erheblich kleiner als das vorgegebene Signifikanzniveau von α = 0.05 ist, muss man die Nullhypothese ablehnen und die Alternativhypothese annehmen.

Der p-Wert kann für jedes statistische Testverfahren angegeben werden. Für das Signifikanzniveau α ergibt sich ein p-Wert von p (|t| ≥ tKrit) = α.

Unabhängig von der Art des statistischen Testes bedeutet also p ≤ α die Ablehnung der Nullhypothese und die Annahme der Alternativhypothese, während p > α die Beibehaltung der Nullhypothese bedeutet.

Wie oben erläutert, bedeutet Beibehaltung jedoch keineswegs die Gültigkeit der Nullhypothese. Zur Beurteilung der Nullhypothese bedarf es der Kenntnis der Wahrscheinlichkeit β für den Fehler 2. Art, der vom Stichprobenumfang abhängig ist.

Analyse von Häufigkeiten

Betrachtet man keine stetigen Zielgrößen (z.B. Gesamtvolumen Erythrozyten), sondern qualitative Zielgrößen (z.B. Behandlungserfolg: ja/nein) dann läuft dies auf den Vergleich von relativen Häufigkeiten hinaus.

Das folgende Beispiel bezieht sich auf die Nebenwirkungen von Arzneimitteln. Es sei bekannt, dass eine gewisse unerwünschte Wirkung (z.B. Schock) bei einer Standardtherapie (z.B. einem Analgetikum) mit einer Prävalenz von p0 = 1‰ auftritt.

Es soll nun ein neues Medikament in bezug auf Nebenwirkungen untersucht werden, dessen Wirksamkeit und Überlegenheit im Rahmen einer Phase-III-Studie klar erwiesen wurde, dessen Nebenwirkungsrate p jedoch nicht bekannt ist.

Als klinisch relevante Differenz wird Δ = 4‰ angesehen, d.h. es wird in Kauf genommen, dass sich die Nebenwirkungsrate gegenüber dem Standardpräparat erhöht, da das neue Medikament sich als therapeutisch überlegen erwiesen hat.

Die Nullhypothese lautet, dass sich die Nebenwirkungsrate des Prüfmedikaments nicht von der Nebenwirkungsrate des Standardpräparates unterscheidet, d.h.

Nullhypothese H0: p = p0 = 0.001.

Die Alternativhypothese lautet, dass sich die Nebenwirkungsrate des Prüfmedikaments um mehr als Δ = 4‰ gegenüber der Nebenwirkungsrate des Standardpräparates erhöht, d.h.

Alternativhypothese H1: p p1 = 0.005.

Die Bestimmung des erforderlichen Stichprobenumfanges erfolgt durch

          Stichprobenumfang mit eigenen Daten berechnen       Anleitung

Gehen wir von einer Irrtumswahrscheinlichkeit α = 5% für den Fehler 1. Art mit dem Quantil z1-α = z0.95 = 1.65 und der gleichen Irrtumswahrscheinlichkeit β = 5% für den Fehler 2. Art mit dem Quantil z1-β = z0.95 = 1.65 aus, dann ergibt sich:

Man muss also n = 1776 Fälle der Prüftherapie bezüglich des Auftretens der Nebenwirkung untersuchen.

Teststatistik

Der kritische Wert der Teststatistik ergibt sich aus

d.h.

Falls unter den 1775 beobachteten Fällen der Prüftherapie die Anzahl nx der Nebenwirkungen kleiner als nKrit = 4 ist (nx < nKrit), wird die Nullhypothese beibehalten, d.h. man kann mit einer Irrtumswahrscheinlichkeit α = 5% davon ausgehen, dass die Nebenwirkungsrate der Prüftherapie sich um höchstens Δ = 4‰ von dem Wert p0 = 1‰ unterscheidet.

Falls die Anzahl nx  der beobachteten Nebenwirkungen größer oder gleich nKrit = 4 ist (nxnKrit), wird die Nullhypothese verworfen, d.h. man kann mit einer Irrtumswahrscheinlichkeit α = 5% davon ausgehen, dass die Nebenwirkungsrate des Prüfmedikaments über 1‰ beträgt. Sie beträgt sogar mehr als 5‰ bezogen auf die oben formulierte Alternativhypothese.

Die eben durchgeführte Analyse bezieht sich auf das sogenannte Ein-Stichprobenproblem. Es wurde untersucht, ob sich die beobachtete Nebenwirkungsrate Prüftherapie von einem bestimmten Wert (p0 = 1‰) unterscheidet oder nicht.

Zusätzlich handelt es sich hier um eine einseitige Fragestellung, d.h. es wird nur nach Unterschieden gefragt, die in eine Richtung (Erhöhung des Risikos) gehen.

Vergleich relativer Häufigkeiten

Bei einem Zwei-Stichprobenproblem, falls also sowohl die Nebenwirkungsrate p0 in der Standardtherapie als auch die Nebenwirkungsrate p1 in der Prüftherapie unbekannt sind, muss man von einer zweiseitigen Fragestellung ausgehen, d.h. wir betrachten die

Nullhypothese H 0: p1 - p0 = 0

und die

Alternativhypothese H 1: p1 - p0 ≠ 0.

Es kann also sowohl möglich sein, dass die Standardtherapie die größere Nebenwirkungsrate hat, d.h. p1 - p0 < 0, als auch dass die Prüftherapie die größere Nebenwirkungsrate aufweist, d.h. p1 - p0 > 0, oder dass beide Nebenwirkungsraten gleich sind, d.h. p1 - p0 = 0.

Die gepoolte Standardabweichung dieser Nebenwirkungsraten lautet

und die gesuchte Fallzahl pro Gruppe ist dann:

          Stichprobenumfang mit eigenen Daten berechnen       Anleitung

Bleiben wir bei unserem Beispiel und gehen davon aus, dass man von der Standardtherapie eine Rate von p0 = 0.001 und von der Prüftherapie eine Rate von p1 = 0.005 erwartet, dann ist die klinisch relevante Differenz, wie gehabt, gleich Δ = p1 - p0 = 4‰.

Setzen wir ferner eine Irrtumswahrscheinlichkeit für den Fehler 1. Art von α = 5% voraus, d.h. z1-α/2 = z0.975 = 1.96, und eine Irrtumswahrscheinlichkeit für den Fehler 2. Art von β = 5% voraus, d.h. z1-β = z0.95 = 1.65, dann ist

und

Es werden also 4866 Probanden pro Behandlungsgruppe benötigt, um eine Differenz von Δ = 4‰ in den Behandlungseffekten nachzuweisen.

Statistischer Test für relative Häufigkeiten

Wir gehen davon aus, dass in der Standardtherapiegruppe n0 Personen beobachtet wurden und die relative Häufigkeit der erwünschten (bzw. unerwünschten) Wirkung h0 beträgt. In der Prüfgruppe wurden n1 Personen untersucht und eine relative Häufigkeit der erwünschten (bzw. unerwünschten) Wirkung von h1 festgestellt. Die relativen Häufigkeiten h1 und h0 sind Schätzungen für die Wahrscheinlichkeiten p1 und p0. Wie bei der Analyse stetiger Daten lässt sich der t-Test approximativ anwenden. Auch der χ 2-Test wäre möglich.

Die entsprechende Teststatistik des t-Tests lautet dann

Die Nullhypothese wird abgelehnt, falls |t| ≥ tKrit gilt, wobei für das Signifikanzniveau α = 5% der kritische Wert tKrit = 1.96 beträgt. Um bei unserem Beispiel den Fehler 2. Art auf den Niveauβ = 5% kontrollieren zu können, muss n1 ≥ 4866 und n0 ≥ 4866 sein. Zur Verdeutlichung betrachten wir folgendes hypothetische Beispiel.

Therapieart Nebenwirkung ja Nebenwirkung nein Gesamt
Standardtherapie 17 5983 n0 = 6000
Prüftherapie 9 5891 n1 = 5900
Tab. 6: Kontingenztafel

Die beobachtetenNebenwirkungsraten der Standard- und Prüftherapie sowie der t-Wert betragen

und

Der aus der Stichprobe berechnete t-Wert ist dem Betrag nach kleiner als tKrit = 1.96. Dies ist 

ein nicht-signifikantes Testergebnis. Wir müssen also die Nullhypothese beibehalten.

Da aber in beiden Gruppen die Anzahl der Probanden größer als 4866 ist, können wir mit einer Irrtumswahrscheinlichkeit von α < 5% behaupten, dass keine Unterschiede zwischen den wahren Nebenwirkungsraten p1 und p0 bestehen, die größer als Δ = 4‰ sind.

Drop-out-Rate

Bei Fallzahlberechnungen muss berücksichtigt werden, dass Patienten während der Durchführung der Studie ausscheiden können. Die Gründe wurden im Abschnitt Ein- und Ausschlusskriterien dargelegt. Die Anzahl der zu erwartenden drop-outs muss vor Studienbeginn geschätzt und zu den berechneten Fallzahlen addiert werden.

Es ist wichtig zu dokumentieren, aus welchen Gründen der Patient aus der Studie ausscheidet. Dies können nicht-therapiespezifische Gründe sein, z.B. Wohnortwechsel oder Zurücknahme der Einwilligung, es können aber auch therapiespezifische Gründe vorliegen, z.B. Unverträglichkeit oder Resistenz.

Würde man das therapiebedingte Ausscheiden bei der Auswertung der Studie nicht berücksichtigen, käme es zu einer erheblichen Verzerrung der Ergebnisse.

Aber auch therapieunabhängiges Ausscheiden (zensierte Beobachtungen) muss in der Auswertung berücksichtigt werden. Dies wird zumindest bei Überlebenszeitanalysen gewährleistet.

Überlebenszeitanalyse              

Um Krankheitsprozesse in ihrer Dynamik darzustellen, werden Überlebenszeitanalysen durchgeführt. Obgleich es üblich ist, von Überlebenszeitanalyse (survival time analysis) zu sprechen, gehören hierzu selbstverständlich auch andere Analysen zeitlicher Prozesse, z.B. die Rezidivfreiheitszeit oder die Metastasenfreiheitszeit. Deshalb spricht man allgemeiner von der Analyse von Ereigniszeiten.

Die Schwierigkeit solcher Analysen am Menschen besteht darin, dass in kontrollierten klinischen Studien nicht von allen Personen die exakte Überlebenszeit bzw. die exakte Rezidiv- oder Metastasenfreiheitszeit bekannt ist. Dies liegt nicht daran, dass solche Zeiten nicht generell erfasst werden könnten, sondern vielmehr daran, dass ein Teil der Patienten aus der Studie ausscheidet, bevor das Zielereignis eingetreten ist (zensierte Beobachtungen).

Abbildung 7 soll diesen Vorgang veranschaulichen. Eine kontrollierte klinische Studie ist prospektiv geplant. Nach Fertigstellung des Prüfplans werden Patienten in chronologischer Reihenfolge in die Studie aufgenommen. Die Patienten werden üblicherweise während oder unmittelbar nach Abschluss der Primärbehandlung prospektiv und nacheinander (Abb.7) in die Studie aufgenommen.

Zu Beginn der Studie ist bei allen Patienten das untersuchte Zielereignis (z.B. Tod, Rezidiv oder Metastase) noch nicht eingetreten. In der Regel tritt das gesuchte Zielereignis während der Verweildauer des Patienten in der Studie ein. In diesem Fall kennt man die exakte Überlebenszeit. Die Studiendauer muss also so ausgelegt sein, dass möglichst viele nichtzensierte Beobachtungen erfolgen, um überhaupt Überlebenszeiten bzw. Rezidiv- oder Metastasen-Freiheitszeiten messen zu können.

Es kann aber auch in Ausnahmefällen geschehen, dass die Beobachtungszeit eines Patienten abläuft, ohne dass das gesuchte Zielereignis eingetreten ist. Gründe für solche zensierten Beobachtungen (censoring) wurden bereits genannt. Sie können therapiebedingt aber auch therapieunabhängig sein.

Da die Patienten aufgrund ihres chronologischen Eintritts in die Studie nicht die gleichen Beobachtungszeiten haben können, ist es einleuchtend, dass z.B. der zuletzt eingetretene Patient nur eine relativ kurze Beobachtungsdauer bis zum vorgesehenen Endpunkt der Studie aufweist. Falls also bis zum Ende der Studie das gesuchte Zielereignis nicht eingetreten ist, wäre dies ein typisch therapieunabhängiges Ausscheiden.

Überlebenszeit-Verteilungen können nur dann mit einfachen Methoden berechnet werden, wenn man von allen Beteiligten die Überlebenszeit exakt kennt. Aber auch zensierte Beobachtungen haben einen Informationswert, denn man weiß zumindest, dass der Patient nicht vor Ablauf der Beobachtungszeit gestorben ist bzw. dass bei ihm kein Rezidiv oder keine Metastase aufgetreten ist.

Ein Auswertungsverfahren für Überlebenszeiten muss also auch die Information über zensierte Überlebenszeiten berücksichtigen können. Bis Ende der siebziger Jahre unseres Jahrhunderts wurde in der Medizin die sogenannte Life-Table-Methode angewendet, die letztlich auf den britischen Astronomen Halley zurückgeht und damit aus dem 17. Jahrhundert stammt. Im Jahre 1958 haben die Mathematiker Kaplan und Meier eine Methode zur Überlebenszeitanalyse entwickelt, die der Life-Table-Methode überlegen ist, und die heute zum Standard bei der Auswertung von Überlebenszeiten zählt. Es dauerte allerdings über 20 Jahre, bis sich diese Methode international in der Medizin etabliert hatte.

Überlebensraten

Wir wollen das Verfahren von Kaplan und Meier an einem einfachen Beispiel erläutern. Tabelle 8 zeigt Beobachtungszeiten von 8 Bronchialkarzinom-Patienten, von denen die Hälfte verstorben ist.

Beobachtung                               i = 1 2 3 4 5 6 7 8
Todesfall                                      j = 1 - - 2 3 - 4 -
Beobachtungszeit in Monaten 0.8 1.0 2.7 3.1 5.4 7.0 9.2 12.1
Zensierung (ja: δ=0, nein: δ=1)  δ = 1 0 0 1 1 0 1 0
Tab. 8: Überlebens- und Beobachtungszeiten beim Bronchialkarzinom

Die empirische Überlebenszeit-Verteilung wird als kumulierte Überlebensrate (cumulative survival rate) dargestellt. Für jeden Beobachtungszeitpunkt t wird der Anteil S(t) der bis dahin überlebenden Patienten angegeben. Zum Beobachtungszeitpunkt t = 0 ist S(t) = 1 , d.h. sämtliche Patienten leben bei Eintritt in die Studie.

Betrachtet man ausschließlich die Todesfälle, dann kann man die kumulierte Überlebensrate S(t) als Produktformel darstellen:

für N Todesfälle.

Als Beispiel betrachten wir die tatsächlich aufgetretenen N = 4 Todesfälle in Tabelle 8. Zum Todeszeitpunkt j = 3 beträgt die Überlebenszeit T3 = 5.4  Monate. Es ist unmittelbar erkennbar, dass zu diesem Zeitpunkt drei von vier Patienten gestorben sind und dass die Überlebensrate daher 25% beträgt. Aus der Produktformel erhalten wir ebenfalls

für N = 4 Todesfälle.

Das Verfahren von Kaplan-Meier berücksichtigt sowohl die tatsächlichen Überlebenszeiten {δ = 1} als auch die zensierten Beobachtungen {δ = 0} und verallgemeinert obige Produktformel:

für n Beobachtungen.

Für den Beobachtungszeitpunkt i= 5, also bei einer Beobachtungszeit von t5 = 5.4  Monaten beträgt die kumulierte Überlebensrate nun 52.5%:

für n = 8 Beobachtungen.

Die Einsen ergeben sich aus der Tatsache, dass jede Zahl hoch Null gleich Eins ist. Unter Berücksichtigung der zensierten Daten, die auch einen Informationswert besitzen, ergibt sich also eine andere kumulierte Überlebensrate als ohne deren Berücksichtigung. Man sieht (Abb. 9), dass die Nichtberücksichtigung der zensierten Daten zu einer Unterschätzung der tatsächlichen Überlebenszeit-Verteilung führt.

Abb. 9: Überlebensrate mit und ohne Berücksichtigung zensierter Daten

Tabelle 10 zeigt die mit dem Kaplan-Meier-Verfahren berechneten numerischen Ergebnisse der Bronchialkarzinom-Studie. Insbesondere sind auch die Standardabweichungen und die effektiven Fallzahlen für die kumulierte Überlebensrate angegeben. Je länger die beobachteten Überlebenszeiten sind, desto weniger Fälle können zur Berechnung der weiteren Überlebensraten herangezogen werden, d.h. die effektive Fallzahl nimmt ab und die Standardabweichung wird größer.

Beobachtungszeit in Monaten 0.0 0.8 1.0 2.7 3.1 5.4 7.0 9.2 12.1
Überlebensrate 1.0 0.88 0.88 0.88 0.70 0.53 0.53 0.26 0.26
Standardfehler 0.0 0.12 0.12 0.12 0.18 0.20 0.20 0.21 0.21
Effektive Fallzahl 8 7.0 7.0 7.0 5.6 4.2 4.2 2.1 2.1
Tab. 10: Numerische Ergebnisse der Bronchialkarzinom-Studie

Die effektive Fallzahl ergibt sich aus der Tatsache, dass Patienten mit zensierten Beobachtungszeiten ganz sicher ihre Beobachtungszeit überlebt haben und dass sie zu einem späteren Zeitpunkt versterben werden. Bei Nichtberücksichtigung der zensierten Beobachtungszeiten würden wir z.B. behaupten, dass kein Patient die Zeit von 9.2 Monaten überlebt. Bei Berücksichtigung zensierter Beobachtungszeiten (Tab.10) berechnet das Kaplan-Meier-Verfahren zwei überlebende Personen nach 9.2 Monaten.

Die zeitliche Verteilung der erwarteten Todesfälle bei zensierten Beobachtungen wird aus der zeitlichen Verteilung der beobachteten Todesfälle geschätzt. Dabei wird angenommen, dass die Patienten mit zensierten Beobachtungen die gleiche Überlebenszeit-Verteilung haben, wie die Patienten, bei denen die tatsächlichen Überlebenszeiten gemessen wurden.

Beispiel: Maligne Lymphome

Als klinisches Beispiel für Überlebenszeitanalysen betrachten wir eine randomisierte klinische Therapiestudie bei malignen Lymphomen, die in den siebziger Jahren als multizentrische Studie an der Medizinischen Hochschule Hannover und der Universitätsklinik Köln durchgeführt wurde.

Eine Prüftherapie, die sogenannten Synchronisationstherapie (2 Zytostatika), wurde mit der Standardtherapie, dem von DeVita entwickelten COPP-Schema (4 Zytostatika) verglichen. Die Gabe der Prüftherapie erfolgte mit Cyclophosphamid während der DNS-Synthese der teilsynchronisierten Tumorzellen.

Vergleicht man den Therapieerfolg beider Schemata bei der Behandlung von Lymphosarkomen in Abbildung 11, dann kann man sich bei optischer Inspektion darüber streiten, ob Unterschiede in den Überlebenszeit-Verteilungen auftreten oder nicht.

Auch für den objektiven Vergleich kumulierter Überlebensraten gibt es statistische Testverfahren, z.B. den Breslow-Test, den Tarone-Ware-Test und den Gehan-Test. Der meist angewandte Test für dieses Problem ist jedoch der sogenannte Log-Rank-Test, der auch als Mantel-Cox-Test bekannt ist. Eine detaillierte Erläuterung dieser statistischen Testverfahren würde den Rahmen dieses Skriptes sprengen. Es genügt, dass dem Leser die Interpretation von p-Werten bekannt ist, die wir im vorigen Abschnitt diskutiert haben.

Abb. 11: Therapievergleich beim Lymphosarkom

Als Ergebnis des Log-Rank-Tests erhalten wir einen p-Wert von p = 0.25. Dies bedeutet, dass die Behauptung unterschiedlicher Überlebenszeit-Verteilungen zwischen den Therapiegruppen mit einer Wahrscheinlichkeit von 25% auf puren Zufall zurückzuführen ist (siehe Abschnitt p-Wert).

Wir haben also ein nicht-signifikantes Ergebnis. Wegen der geringen Fallzahl n1 = 15 und n0 = 21 sowie einer hohen Zensierungsrate h1 = 52% und h0 = 33% können wir aber auch nicht behaupten, dass keine Unterschiede in den Überlebenszeitverteilungen bestehen.

Wenn wir z.B. als klinisch relevante Differenz Δ = 3 Monate Unterschied in den medianen Überlebenszeiten annehmen, liegt wegen der geringen Fallzahl die Wahrscheinlichkeit β für den Fehler 2. Art über 90%. Dies ist die Wahrscheinlichkeit zu behaupten, dass keine Unterschiede da sind, obgleich sie vorhanden sind.

Es ergibt sich also ein Patt. Weder die Annahme von Unterschieden in den Überlebenszeit-Verteilungen noch die Annahme der Äquivalenz dieser Verteilungen lässt sich aus den vorliegenden Daten der Lymphosarkom-Studie beweisen.

Prognose von Krankheiten

Die Prognose von Krankheiten kann mit Hilfe von kumulierten Überlebensraten übersichtlich dargestellt werden. Abbildung 12 zeigt die Überlebenszeit-Verteilungen für Lymphogranulomatose, Lymphosarkom und Retikulosarkom. Es ist deutlich, dass die Prognose dieser Krankheiten unterschiedlich ist und zwar in der aufgezählten Reihenfolge ungünstiger wird. Dies bestätigt auch der Log-Rank-Test mit einem p-Wert von p = 0.0001.

Abb. 12: Prognose maligner Lymphome

Zentrums-Effekt

Bei multizentrischen Studien muss darauf geachtet werden, dass innerhalb der an der Studie beteiligten Zentren randomisiert wird, d.h. dass eine Stratifikation nach den Kliniken durchgeführt wird.

Die Kliniken unterscheiden sich in der Regel in ihrem Krankengut. Darauf ist auch zurückzuführen, dass bei einem Vergleich der Überlebenszeit-Verteilungen zwischen den beteiligten Kliniken (Abb. 14), nämlich der Medizinischen Hochschule Hannover und der Universitätsklinik Köln, Unterschiede auftreten, die sogar signifikant sind.

Der p-Wert des Log-Rank-Testes beträgt p = 0.034 und daher kann man mit α = 5% Irrtumswahrscheinlichkeit behaupten, dass Unterschiede zwischen den Überlebenszeit-Verteilungen in Köln und Hannover vorhanden sind (siehe Abschnitt p-Wert).

Dies ist ein Beispiel dafür, dass ein signifikantes Ergebnis keineswegs einen kausalen Zusammenhang beweist. Gliedert man nämlich das Krankengut der Medizinischen Hochschule und der Universitätsklinik Köln auf (Tabelle 13), dann ergibt sich, dass in Köln überproportional viele Fälle von Lymphosarkom auftreten, die gegenüber der Lymphogranulomatose eine bedeutend ungünstigere Prognose haben (Abb. 12).

Es ist also nicht die bessere Krebsbehandlung in Hannover, die den Unterschied in den Überlebenszeit-Verteilungen verursacht, sondern vielmehr das prognostisch günstigere Krankengut.

  Lymphogranulomatose Lymphosarkom Retikulosarkom
Köln 21 28 2
Hannover 28 8 8
Gesamt 49 36 10
Tab.13: Krankengut der Kliniken

Abb. 14: Zentrums-Effekt