Academia.eduAcademia.edu
W. Igl1 C. Zwingmann2 H. Faller1 ¾nderungssensitivität Sensitivity to Change Methoden in der Rehabilitationsforschung 100 Zusammenfassung Abstract In der Rehabilitation werden bei evaluativen Studien häufig Patientenfragebogen eingesetzt, um die Effekte von Rehabilitationsmaûnahmen abzubilden. Dazu müssen die verwendeten Fragebogen in der Lage sein, ¹wahreª Veränderungen über die Zeit wiederzugeben, d. h. sie müssen änderungssensitiv sein. Im vorliegenden Beitrag wird die Bedeutung des Konzepts ¹¾nderungssensitivitätª für evaluative Instrumente bzw. evaluative Studien am Beispiel der Lebensqualitätsforschung verdeutlicht. Es werden sowohl qualitative Aspekte, z. B. hinsichtlich der Antwortskalierung von Assessmentinstrumenten, als auch quantitative Methoden, d. h. Studiendesigns und Kennwerte, behandelt. Darüber hinaus werden Hinweise zur Interpretation der Kennwerte gegeben. In rehabilitation research patient questionnaires are widely used for evaluative purposes, i. e. to measure improvements or deteriorations over time. This is only possible if the questionnaires applied appropriately reflect ¹trueª change over time, i. e. they have to be sensitive to change. The aim of this paper is to point out the importance of the ¹sensitivity to changeª concept for evaluative assessment tools and evaluative studies, respectively, considering quality of life research as an example. Various qualitative aspects, e. g. scaling of response options of assessment tools, are covered as well as quantitative methods, i. e. study designs and indices. Furthermore, recommendations for interpretation are given. Schlüsselwörter Evaluation ´ Assessmentinstrumente ´ ¾nderungssensitivität ´ Responsivität ´ gesundheitsbezogene Lebensqualität Key words Evaluation ´ assessment instruments ´ sensitivity to change ´ responsiveness ´ health-related quality of life Institutsangaben 1 Arbeitsbereich Rehabilitationswissenschaften, Institut für Psychotherapie und Medizinische Psychologie der Universität Würzburg 2 Verband Deutscher Rentenversicherungsträger, Rehabilitationswissenschaftliche Abteilung, Frankfurt am Main Hinweis Koordinatoren der Reihe ¹Methoden in der Rehabilitationsforschungª: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/Main Interessenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de Korrespondenzadresse Dipl.-Psych. Wilmar Igl ´ Institut für Psychotherapie und Medizinische Psychologie der Universität Würzburg ´ Arbeitsbereich Rehabilitationswissenschaften ´ Marcusstraûe 9 ± 11 ´ 97070 Würzburg ´ E-mail: wilmar.igl@mail.uni-wuerzburg.de Bibliografie Rehabilitation 2005; 44: 100 ± 106  Georg Thieme Verlag KG Stuttgart ´ New York DOI 10.1055/s-2004-834719 ISSN 0034-3536 Einleitung Stellen wir uns zunächst folgende Situation vor: Ein Arzt möchte die Veränderung der gesundheitsbezogenen Lebensqualität seiner Patienten im Verlauf einer Rehabilitationsmaûnahme untersuchen. Er ist dabei besonders an der Sicht der Patienten interessiert und plant daher einen Patientenfragebogen einzusetzen. Nach Durchsicht und Beurteilung verschiedener Instrumente entschlieût er sich, die Version 2 des IRES-Fragebogens (¹Indikatoren des Reha-Statusª) zu verwenden [1]. Der IRES-Fragebogen bildet mit seiner dreidimensionalen Struktur das Konstrukt ¹gesundheitsbezogene Lebensqualitätª ab, welches nach allgemeiner Auffassung somatische, psychische und funktionale Aspekte umfasst [2, 3]. Auch die Angaben zur Reliabilität sowie Kriteriums- und Konstruktvalidität des Verfahrens erscheinen dem Arzt überzeugend [1, 3]. Sein besonderes Interesse gilt der IRESDimension ¹Funktionaler Statusª, da für ihn entscheidend ist, ob seine Patienten nach der Behandlung besser in der Lage sind, die Aufgaben ihres (Berufs-)Alltags zu bewältigen. Nach Durchführung der Studie zeigt sich jedoch, dass sich die Werte im funktionalen Bereich im Gegensatz zu den anderen Dimensionen nur geringfügig verbessert haben. Gleichwohl ist der Arzt sowohl von der Sorgfalt bei der Durchführung der Studie als auch von 1 In ähnlicher Bedeutung wird häufig auch der Begriff ¹Responsivitätª (responsiveness) verwendet. 2 In diesem Beispiel soll das auf der Grundlage von Verhaltensbeobachtungen und des Arzt-Patient-Gesprächs gebildete ärztliche Urteil als (Pseudo-)¹Goldstandardª (d. h. als ein valides Auûenkriterium) belegen, dass tatsächlich Veränderungen aufgetreten sind. Diese Enttäuschung hätte der Arzt möglicherweise vermeiden können, wenn er sich im Vorfeld auch nach der ¾nderungssensitivität des gewählten Verfahrens erkundigt hätte. Er hätte dann gesehen, dass die Dimensionen der Version 2 des IRES-Fragebogens deutliche Unterschiede in ihrer Eignung, Veränderungen zu messen, aufweisen, wobei der ¹Funktionale Statusª sich als eher wenig änderungssensitiv erweist [3]. Theoretischer Hintergrund Bereits Mitte der 80er-Jahre stellten Kirshner u. Guyatt [4] ein Rahmenmodell zur Kategorisierung von Messinstrumenten entsprechend deren Anwendungsziel vor und bildeten damit die Grundlage für das Konzept der ¾nderungssensitivität [4 ± 6]. Sie unterscheiden folgende Messziele: 1. Diskrimination: Ein diskriminativer Einsatz eines Messinstruments liegt vor, wenn die Daten die Grundlage für eine differenzielle Zuweisung bilden, etwa zu verschiedenen Behandlungsmodulen im Rahmen der rehabilitationsspezifischen Diagnostik, zur Rehabilitation überhaupt oder zu Nachsorgemaûnahmen. Darüber hinaus kann von Diskrimination als Messziel gesprochen werden, wenn im Rahmen epidemiologischer Untersuchungen Prävalenz und Inzidenz bestimmter Belastungen erhoben werden. 2. Prädiktion: Bei prädiktiver Verwendung eines Messinstruments wird auf der Grundlage der Daten eine Prognose vorgenommen, etwa hinsichtlich des Rehabilitationserfolgs (z. B. Rückkehr zur Arbeit) oder des späteren Krankheitsverlaufs. 3. Evaluation: Ein evaluativer Einsatz eines Messinstruments liegt vor, wenn Veränderungen über die Zeit abgebildet werden sollen, z. B. Veränderungen nach bzw. durch Behandlungen im Rahmen einer Rehabilitationsmaûnahme. Obwohl die drei klassischen Gütekriterien Objektivität, Reliabilität und Validität die Grundlage für die Beurteilung der Qualität von Messinstrumenten bilden, erhalten diese Gütekriterien in Abhängigkeit vom Anwendungsziel des Instruments eine andere Wertigkeit [3 ± 8]. Das Gütekriterium der Objektivität, welches die Durchführung, Auswertung und Interpretation eines Erhebungsinstruments betrifft, sollte in jedem Fall durch eine genaue und umfassende Manualisierung sichergestellt werden. Diese gibt u. a. vor, wie die Instruktion der befragten Person vor der Untersuchung und die Berechnung der Skalen- und Summenwerte vorgenommen werden sollte und welche inhaltliche bzw. klinische Bedeutung die Ergebnisse für die jeweilige Person haben. Des Weiteren muss man in der Lage sein, mit dem Instrument zuverlässige bzw. genaue Messungen vorzunehmen (Reliabilität). Bei diskriminativen bzw. prädiktiven Instrumenten kommt es darüber hinaus vor allem darauf an, dass plausible Zusammenhänge mit inhaltlich relevanten Auûenvariablen nachgewiesen werden (Kriteriums- bzw. Konstruktvalidität, bei prädiktivem Einsatz vor allem prädiktive Kriteriumsvalidität) und dass gegebenenfalls die postulierte dimensionale Struktur des InstruIgl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 Methoden in der Rehabilitationsforschung In der Rehabilitation werden im Rahmen evaluativer Studien häufig Patientenfragebogen zu mehreren Messzeitpunkten eingesetzt, um auf der Grundlage von Prä-Post-Differenzen die Effekte von Rehabilitationsmaûnahmen aus Sicht der Rehabilitanden zu erfassen. Dies kann nur gelingen, wenn die verwendeten Fragebogenskalen in der Lage sind, die aufgetretenen Veränderungen über die Zeit abzubilden, d. h. wenn es sich um änderungssensitive Instrumente handelt. Im vorliegenden Beitrag soll diese Forderung verständlich gemacht und erläutert werden, warum die klassischen Gütekriterien bzw. Kennwerte zu Objektivität (Unabhängigkeit vom Untersucher), Reliabilität (Genauigkeit) sowie Kriteriums- und Konstruktvalidität (Gültigkeit) zur Beurteilung nicht ausreichen, sondern zusätzlich das Konzept der ¾nderungssensitivität (sensitivity to change)1 Berücksichtigung finden sollte. Es werden verschiedene qualitative Kriterien, z. B. hinsichtlich der Itemformulierung oder Antwortskalierung, vorgestellt, die bei der Auswahl bzw. bereits bei der Konstruktion eines evaluativen Fragebogens beachtet werden sollten. Zur quantitativen Erfassung der ¾nderungssensitivität werden verschiedene Methoden, d. h. Studiendesigns und Kennwerte, erläutert. Zudem werden Hinweise zur Interpretation der Kennwerte gegeben. Obwohl das Konzept der ¾nderungssensitivität grundsätzlich auch auf biomedizinische Messungen (z. B. Blutdruckmessung) angewendet werden kann, beschränken sich die folgenden Ausführungen auf Instrumente zur Erfassung von psychosozialen Konstrukten aus Patientensicht (z. B. subjektive Gesundheit, gesundheitsbezogene Lebensqualität). Der Beitrag zeichnet insofern die Diskussion innerhalb der Lebensqualitätsforschung nach. der Wirksamkeit der durchgeführten Behandlung und den aufgetretenen Verbesserungen gerade im funktionalen Bereich nach wie vor überzeugt. Gründe hierfür liefern ihm nicht nur eigene Verhaltensbeobachtungen, sondern auch ¾uûerungen der Patienten in systematischen mündlichen Befragungen.2 101 ments belegt wird (z. B. faktorielle Validität als Aspekt der Konstruktvalidität). Im Unterschied dazu muss bei evaluativen Instrumenten der Nachweis der Fähigkeit zur Abbildung von Veränderungen über die Zeit (¾nderungssensitivität) unbedingt hinzukommen. Der Nachweis von Reliabilität sowie Kriteriums- und Konstruktvalidität ist bei evaluativem Einsatz des Messinstruments zwar ebenfalls von Belang, besonders wichtig ist jedoch die Forderung nach hoher ¾nderungssensitivität [4]. In konzeptueller Hinsicht wird ¾nderungssensitivität von den meisten Autoren nicht als eigenständiges Gütekriterium aufgefasst, sondern als spezieller, nämlich longitudinaler Aspekt der Validität [7]. Methoden in der Rehabilitationsforschung 102 Im Folgenden sollen zunächst einige qualitative Aspekte, die für die ¾nderungssensitivität von Bedeutung sind, am Beispiel des Konstrukts ¹gesundheitsbezogene Lebensqualitätª vor und nach einer Rehabilitationsmaûnahme erläutert werden, bevor anschlieûend verschiedene Methoden zur Quantifizierung der ¾nderungssensitivität vorgestellt werden. Zu beachten ist dabei, dass aus den qualitativen Aspekten lediglich Empfehlungen, jedoch keine allgemein gültigen, strengen Kriterien zur Auswahl bzw. Entwicklung eines änderungssensitiven Instruments abgeleitet werden können. Bei der Neukonstruktion eines solchen Instruments sollten schlieûlich nur diejenigen Items bzw. Skalen aufgenommen werden, die die besten quantitativen Kennwerte aufweisen [4, 5]. Qualitative Voraussetzungen für ¾nderungssensitivität Als Erstes gilt es zu klären, welche Aspekte des untersuchten Konstrukts ± hier der gesundheitsbezogenen Lebensqualität ± erfasst werden sollen. Diese Überlegungen sind wichtig, da die Übereinstimmung zwischen denjenigen Bereichen, in denen der Patient Probleme berichtet, den Zielen der Behandlung und den gemessenen Variablen einen entscheidenden Einfluss auf die Abbildung von Veränderungen hat. Eine verbreitete Vorgehensweise ist, möglichst umfassend all jene Bereiche mit Fragen zu erfassen, die für die Lebensqualität von Patienten mit verschiedenen Krankheiten von Bedeutung sein können (krankheitsübergreifendes/generisches Instrument), sodass Veränderungen in vielen Aspekten erfasst werden. Grundsätzlich können auch generische Instrumente eine gute ¾nderungssensitivität aufweisen und auch aggregierte Werte (z. B. summierte Skalenwerte, Gesamtscore) aufgrund ihrer höheren Reliabilität sich änderungssensitiver als Einzelitems verhalten [9,10]. Allerdings kann das Problem auftreten, dass bei Patienten mit einem spezifischen Krankheitsbild möglicherweise viele Fragen nicht relevant sind. Aggregierte Werte eines solchen Fragebogens können sich dann als weniger änderungssensitiv als einzelne Antworten erweisen, da sie durch die nicht zutreffenden Fragen ¹verwässertª werden. Für eine hohe ¾nderungssensitivität ist es in diesem Fall besser, nicht mit generischen, sondern mit (krankheits-)spezifischen Fragen solche Patientenstichproben zu untersuchen, die hinsichtlich der zu verändernden Aspekte als weitgehend homogen angesehen werden können. Da sich hier die spezifischen Instrumente auf die für eine bestimmte Erkrankung, Personengruppe oder Problematik bedeutsamen gesundheitlichen Aspekte konzentrieren, sind sie ± natürlich beschränkt auf die jeweilige homogene Patientengruppe ± häufig eher in der Lage, Veränderungen abzubilden [11 ± 14]. Wenn dennoch heterogene Stichproben unterIgl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 sucht werden sollen, müssen hinsichtlich der ¾nderungssensitivität oft Kompromisse eingegangen werden. Es sollte dann möglichst versucht werden, neben generischen Instrumenten für alle Patienten auch spezifische Instrumente für definierte Subgruppen einzusetzen. Zuweilen wird auch versucht, für jeden Patienten Fragen auszuwählen, die sich spezifisch auf die individuellen Problembereiche beziehen, in denen eine Veränderung angestrebt wird (individualspezifisches Instrument) [15 ± 17]. Die Auswertung und Interpretation solcher Ansätze kann jedoch mit erheblichen Schwierigkeiten verbunden sein [18]. Bei der Neukonstruktion eines änderungssensitiven Messinstruments zur gesundheitsbezogenen Lebensqualität müssen solche inhaltlichen Bereiche ausgewählt werden, die in der angestrebten Zielgruppe in engem Zusammenhang mit Veränderungen der Lebensqualität stehen und Potenzial für genügend groûe, möglichst klinisch bedeutsame Veränderungen aufweisen. Dies können z. B. häufige und starke Beschwerden des Patienten sein. Fragen nach Symptomen, die nur für wenige Patienten relevant sind oder bei denen zumeist nur eine geringe Belastung vorliegt, sollten nicht aufgenommen werden [4, 5]. Im Hinblick auf das Antwortformat sollte darauf geachtet werden, dass die Graduierung fein genug ist (4 ± 10 Antwortstufen, visuelle Analogskala) und durch die Verbalisierungen der ¹Poleª ein hinreichend breiter Bereich abdeckt wird [4, 5]. Hierdurch können ¹Boden-ª und ¹Deckeneffekteª minimiert werden. Diese entstehen, wenn der Bereich des Schweregrads der Erkrankung den Bereich der Antwortoptionen überschreitet und an den ¹Polenª des Antwortbereichs keine Differenzierung mehr möglich ist. Eine Zusammenfassung der genannten und für die ¾nderungssensitivität relevanten qualitativen Aspekte findet sich in Tab. 1 in den Zeilen Itemmerkmale und Skalenmerkmale. Quantitative Methoden zur Erfassung der ¾nderungssensitivität Die verschiedenen Methoden zur Erfassung der ¾nderungssensitivität basieren auf der Annahme, dass eine ¹wahreª Veränderung aufgetreten ist, die durch ein Instrument mehr oder weniger gut abgebildet wird. Streng genommen erfordert dies für die Beurteilung der ¾nderungssensitivität eines Instruments, die Gröûe der ¹wahrenª Veränderung und die Gröûe der gemessenen Veränderung zu kennen und zu vergleichen. Um jedoch die Gröûe der ¹wahrenª Veränderung erfassen zu können, sind valide Auûenkriterien, sog. ¹Goldstandardsª, notwendig, welche aber in der Forschungspraxis zumeist nicht zur Verfügung stehen, wie später noch genauer erläutert wird. Das strenge Kriterium der ¹absolutenª ¾nderungssensitivität ist allerdings nicht notwendig, wenn es um die Wahl zwischen verschiedenen Instrumenten geht. In diesem Fall kann auch der parallele Einsatz und Vergleich verschiedener Messinstrumente anhand der ¹relativenª ¾nderungssensitivität die gewünschten Informationen liefern. Bei diesem Vorgehen setzt man lediglich voraus, dass eine Veränderung aufgetreten ist, deren genaue Höhe jedoch nicht von Bedeutung ist. Soll schlieûlich nur die Entscheidung darüber getroffen werden, ob ein Instrument grundsätzlich für die Erfassung von Veränderungen geeignet ist, kann bereits die ¹zufallskritischeª Beurteilung der ¾nderungssensitivität eines einzelnen Instruments ausreichen, indem man die gemessenen Veränderungen zu den Zufallsschwankungen des Instruments ins Verhältnis setzt. Auf Vergleiche mit anderen Messinstrumenten muss jedoch dann ± aufgrund von unterschiedlichen Rahmenbedingungen anderer Untersuchungen ± zumeist verzichtet werden. Vor diesem Hintergrund ist auch die Aussagekraft der im Folgenden erläuterten Methoden zu betrachten. Unter den Ein-Gruppen-Designs (vgl. Abb. 1) ist zunächst das einfache Vorher-Nachher-Design zu nennen, bei dem zu Beginn und am Ende einer Intervention Messwerte erhoben werden. t2 t1 Intervention Abb. 1 Messzeitpunkte beim einfachen Ein-Gruppen-Design. Zwar ist dieses Design einfach anzuwenden und wird daher wohl auch am häufigsten eingesetzt, die Interpretation der Ergebnisse gestaltet sich jedoch schwierig. So kann z. B. nicht eindeutig entschieden werden, ob eine fehlende Veränderung in einem Fragebogenwert auf eine mangelnde Wirksamkeit der Intervention (sofern diese nicht schon zweifelsfrei belegt ist) oder eine zu geringe ¾nderungssensitivität des Instruments zurückzuführen ist. Es lassen sich auûerdem keine Aussagen zur Zufallsvariabilität des untersuchten Merkmals unter stabilen Bedingungen treffen. Durch die zusätzliche Durchführung einer Baselinephase vor der Intervention (vgl. Abb. 2) kann diese Variabilität erfasst und mit den Veränderungen während der Intervention verglichen werden. Dieses erweiterte Design ist aufgrund der drei Messzeitpunkte natürlich aufwändiger. Schwierigkeiten können bei der Interpretation entstehen, wenn die Baselinephase kürzer als die Interventionsphase ist; dann besteht die Gefahr, dass die Zufallsvariabilität unter stabilen Bedingungen unterschätzt wird. Problematisch ist auch eine sehr lange Baselinephase, denn dann treten möglicherweise ¹wahreª Veränderungen des untersuchten Merkmals auf. Zu den Zwei-Gruppen-Designs (vgl. Abb. 3) zählen Interventionsstudien mit randomisierter Zuweisung der Patienten in eine Experimental- bzw. Kontrollgruppe, im Angloamerikanischen auch als ¹randomized controlled trialsª (RCTs) bezeichnet. t1 t2 Gruppe 1 (z.B. wirksame Behandlung): Gruppe 2 (z.B. keine Behandlung): Abb. 3 Messzeitpunkte bei Zwei-Gruppen-Designs. Abb. 2 Messzeitpunkte beim Ein-Gruppen-Design mit Baselinephase. Im Unterschied zu üblichen RCTs ist hier nicht das Ziel der Untersuchung, die Wirksamkeit einer ungeprüften, neuen Behandlung gegenüber einer bereits geprüften Standardbehandlung zu ermitteln. Vielmehr wird hier als Intervention eine Behandlung mit in früheren Studien nachgewiesener Wirksamkeit, also eine wirksame Standardbehandlung, eingesetzt, um etwaige fehlende Veränderungen in den Messwerten der Interventionsgruppe auf das Instrument, nicht jedoch auf die fehlende Wirksamkeit der Behandlung zurückführen zu können. In der Kontrollgruppe wird dagegen keine (wirksame) Intervention eingesetzt, da hier die Erhebung der Zufallsvariabilität unter stabilen Bedingungen erfolgen soll. Dies spricht u. U. sogar gegen den Einsatz eines Plazebos in der Kontrollgruppe, da auch dadurch ¹wahreª Veränderungen verursacht werden können. Die Kontrollgruppe wird des Weiteren zeitlich parallel durchgeführt, wodurch sich Zeiteinflüsse verschiedenster Art gleichermaûen auswirken und damit nicht für Mittelwertdifferenzen zwischen den Gruppen verantwortlich sein können. Eine andere Erweiterungsmöglichkeit des einfachen VorherNachher-Designs besteht darin, ein (änderungs-)valides Auûenkriterium (¹Goldstandardª) für das gemessene Konstrukt mit zu Die so erhaltenen Daten der Prä-Post-Messungen und gegebenenfalls einer Vorerhebung ermöglichen nun die Berechnung verschiedener Arten von Kennwerten zur Beurteilung der ¾nderungssensitivität [7, 8]. Im Folgenden werden verschiedene t2 t1 t0 Baseline Intervention Methoden in der Rehabilitationsforschung Welche Methoden stehen nun zur Verfügung, um die ¾nderungssensitivität von Messinstrumenten zu bestimmen? Dies hängt von den möglichen Studiendesigns und der Verfügbarkeit von (änderungs-)validen Auûenkriterien bzw. alternativen Messinstrumenten ab. Es werden Ein- und Zwei-(bzw. Mehr-) Gruppen-Designs unterschieden, wobei Zwei-(bzw. Mehr-) Gruppen-Designs grundsätzlich über eine höhere Aussagekraft verfügen, aber auch deutlich aufwändiger sind [7, 8]. erheben (s. o.). Anhand dieses Auûenkriteriums können Korrelationen mit den Veränderungswerten des untersuchten Instruments berechnet werden. Des Weiteren können die Patienten in Gruppen mit oder ohne bedeutsame Veränderung eingeteilt werden, um Kennziffern aus der Signal-Entdeckungs-Theorie, wie Sensitivität oder Spezifität, zu ermitteln [19 ± 21]. Die Sensitivität stellt hier einen Kennwert des untersuchten Messinstruments dar, der darüber Auskunft gibt, mit welcher Wahrscheinlichkeit Patienten mit tatsächlicher Veränderung auch als verändert klassifiziert werden. Die Spezifität dagegen ist die Wahrscheinlichkeit, mit der Patienten ohne tatsächliche Veränderung auch als unverändert eingeordnet werden. In der Realität gestaltet es sich jedoch häufig problematisch, ein geeignetes Auûenkriterium zu finden. Als ¹Pseudo-Goldstandardª werden u. a. Globalurteile der erlebten Veränderungen von den Patienten oder von den behandelnden ¾rzten erhoben [22]. Derartige Maûe können jedoch durch Beurteilungsfehler und Erinnerungseffekte verzerrt sein. Insbesondere wenn durch eine sog. ¹direkte Veränderungsmessungª (Einpunktmessung: ¹Hat sich Ihre Lebensqualität seit dem Beginn der Behandlung verändert?ª) am Ende einer Behandlung das Ausmaû der Veränderung beurteilt werden soll, kann häufig der Ausgangszustand vom Beurteiler nicht mehr genau erinnert werden [23]. Igl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 103 Kennwerte zur Bestimmung von ¾nderungssensitivität vorgestellt. Am häufigsten werden zurzeit verschiedene Varianten von Effektstärken/Effektgröûen3 verwendet, welche daher ausführlicher dargestellt werden [7, 8, 24 ± 28]. Den hier verwendeten Effektstärkevarianten (ES) liegt das Prinzip zu Grunde, dass eine Differenz zwischen zwei Mittelwerten Mt1 und Mt2 an einem Streuungsmaû SD standardisiert wird (vgl. Formel 1); die einzelnen Effektstärkemaûe unterscheiden sich dabei nur in der verwendeten Standardabweichung SD im Nenner [28]: ES = (Mt2 ± Mt1)/SD Methoden in der Rehabilitationsforschung 104 (Formel 1) Die Standardized Effect Size (SES, in angloamerikanischen Publikationen oft nur als ¹the effect sizeª bezeichnet) verwendet als Streuungsmaû die Standardabweichung SDt1 der Messwerte zum Prä-Messzeitpunkt. Dies hat zur Folge, dass bei Stichproben, deren Messwerte zum Prä-Messzeitpunkt homogen sind, gröûere Effektstärken resultieren. Die SES wird als ¹klassischeª Variante der Effektstärken betrachtet und auch am häufigsten angewendet [7]. Der Standardized Response Mean (SRM) hingegen setzt die Mittelwertdifferenz Mt2 ± Mt1 in Bezug zur Standardabweichung der Messwertdifferenzen (SDt2 ± t1), weshalb der SRM von der Homogenität der Veränderungswerte abhängig ist. So ergeben sich für den SRM ± vereinfacht gesagt ± höhere Effektstärken, wenn sich die Messwerte der Patienten in ähnlicher Weise zwischen zwei Messzeitpunkten verändern.4 Der Guyatt's Responsiveness Index (GRI) unterscheidet sich von den beiden vorherigen Kennwerten dadurch, dass er die gemessene Veränderung ins Verhältnis zu zufälligen Schwankungen unter stabilen Bedingungen setzt. Der GRI kann dabei sowohl auf den Ein-Gruppen-Fall als auch auf den Zwei-Gruppen-Fall angewendet werden. Im Ein-Gruppen-Fall wird die Mittelwertdifferenz Mt2 ± Mt1 der Interventionsphase durch die Standardabweichung SDt1 ± t0 der Differenzwerte der Baselinephase geteilt (vgl. Abb. 2), um den GRI1Grp zu berechnen. Im Zwei-GruppenFall wird der GRI2Grp aus der Mittelwertdifferenz Mt2 ± Mt1 der Interventionsgruppe und der Standardabweichung SDt2 ± t1 der Differenzwerte der Kontrollgruppe gebildet, die hier zeitlich parallel durchgeführt wird (vgl. Abb. 3). Diese Koeffizienten werden umso gröûer, je geringer die Streuung der Messwertdifferenzen in der Baselinephase bzw. in der Kontrollgruppe ist.5 Die beschriebenen Effektstärken werden häufig zur Quantifizierung der ¾nderungssensitivität von Messinstrumenten verwendet, da sie relativ einfach zu berechnen sind und in Anlehnung 3 Die korrekte Übersetzung des englischen Begriffs ¹effect sizeª lautet ¹Effektgröûeª. Häufig wird jedoch im Deutschen auch der Ausdruck ¹Effektstärkeª verwendet. Da sich letzterer wie im Englischen mit ¹ESª abkürzen lässt, wird hier der Ausdruck ¹Effektstärkeª verwendet. 4 Die Standardabweichung der Messwertdifferenzen wird indirekt auch von der Homogenität der Stichprobe zum Prä- und Post-Messzeitpunkt und der Korrelation zwischen den Messzeitpunkten beeinflusst, was jedoch hier nicht weiter erörtert werden soll. 5 Siehe Fuûnote 4. Igl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 an die Effektstärken nach Cohen [26] abgeleitet wurden, was eine einfache Interpretation suggeriert. Es haben sich jedoch noch keine Richtgröûen oder Mindestwerte zur Beurteilung von Effektstärken der ¾nderungssensitivität etabliert. Die Faustregel von Cohen, wonach ein Wert von 0,2 einem ¹kleinenª, 0,5 einem ¹mittlerenª und 0,8 einem ¹groûenª Effekt entspricht, kann nicht ohne weiteres zur Beurteilung der Höhe der ¾nderungssensitivität herangezogen werden, da diese Einteilung ursprünglich zur Bewertung der Ergebnisse von Wirksamkeitsstudien gedacht war [7, 26]. In vielen Fällen werden die verschiedenen Effektstärkevarianten zu denselben Schlussfolgerungen führen [10]. Wie bereits erläutert, können sie jedoch auch, abhängig vom verwendeten Streuungsmaû, unterschiedliche Aussagen zur ¾nderungssensitivität liefern, was die Interpretation gegebenenfalls zusätzlich erschwert. Aus diesem Grund empfiehlt es sich stets, verschiedene Kennziffern zu berechnen und diese vergleichend zu betrachten. Weitere Faktoren, die nicht mit dem Instrument zusammenhängen, z. B. Wirksamkeit der Intervention, Studiendesign, Art der Patientenstichprobe und Stichprobengröûe, beeinflussen diese Kennwerte. Daraus ergibt sich auch, dass Ergebnisse unterschiedlicher Studien oft nicht vergleichbar sind. Die Stichprobenspezifität von Effektstärken kann auûerdem dazu führen, dass sich diese deutlich zwischen verschiedenen Stichproben unterscheiden [24]. Untersuchungen zur Prüfung der ¾nderungssensitivität eines Fragebogens sollten daher möglichst an solchen Stichproben durchgeführt werden, die repräsentativ sind für jene Population, in der das Instrument später eingesetzt werden soll. Nachdem sowohl Gemeinsamkeiten als auch Unterschiede der Effektstärkevarianten beschrieben wurden, stellt sich die Frage, welcher Index nun am besten geeignet ist zur Beurteilung der ¾nderungssensitivität von evaluativen Messinstrumenten. Diese Frage wird in der Literatur kontrovers diskutiert. Manche Autoren bevorzugen die SES gegenüber dem SRM, welcher die Standardabweichung von Differenzwerten verwendet. Sie versuchen dadurch das Konzept der Effektstärken gegenüber denjenigen inferenzstatistischen Methoden stärker abzugrenzen, die auf der Verteilung von Differenzwerten beruhen (z. B. t-Test für abhängige Stichproben) [27]. In anderen Veröffentlichungen wird jedoch der SRM aus diesem Grunde als ¹best index of responsivenessª bezeichnet, da er explizit die Verteilung der Differenzwerte, d. h. der Veränderungen, mit einbezieht [25]. Unter dem Gesichtspunkt, dass der GRI die Verteilung der Differenzwerte darüber hinaus unter stabilen Bedingungen berücksichtigt, wird auch dieser Index zumindest bei Ein-Gruppen-Designs empfohlen [7]. Alternative Ansätze In der Literatur werden gelegentlich auch inferenzstatistische Kennwerte diskutiert (z. B. t-Tests) [29]. Wegen ihrer ausgeprägten Abhängigkeit von der Stichprobengröûe sollten sie jedoch nicht als alleinige Kennziffern zur Beurteilung der ¾nderungssensitivität benutzt werden. Auch die sog. ¹smallest real differenceª (SRD) wurde zur Beurteilung der ¾nderungssensitivität vorgeschlagen [30]. Diese entspricht konzeptionell dem Reliable Change Index (RCI), der von Jacobson u. Truax [31] als ein Teilkriterium zur Beurteilung von klinisch bedeutsamen Veränderungen eingeführt wurde. Der RCI setzt die individuelle Messwert- differenz Xt2 ± Xt1 ins Verhältnis zum Standardfehler der Differenzwerte SEdiff, wobei RCI-Werte > 1,96 als überzufällig (bei p < 0,05) interpretiert werden. In ihrer ursprünglichen Fassung ist die SRD zur Erfassung von ¾nderungssensitivität jedoch ungeeignet, da sie durch Transformation der Skalenwerte beeinflussbar und somit letztlich nur ein Maû für die Mess(un-)genauigkeit ist [24]. Allerdings ist es möglich, den Anteil von Patienten mit reliabler Veränderung, d. h. diejenigen, die eine gröûere Veränderung als ein Schwellenkriterium C (z. B. C = 1,96) aufweisen, als Maû für die ¾nderungssensitivität anzusehen. Ein Vorteil besteht darin, dass dadurch ± im Gegensatz zu anderen Kennwerten ± auch die unterschiedlichen Reliabilitäten der verschiedenen Instrumente Berücksichtigung finden [24]. Hingewiesen sei schlieûlich auch auf Definitionen von ¾nderungssensitivität, bei denen ein Mindestkriterium für eine ¹minimal clinically important differenceª (MCID) einbezogen wird [33, 34]. ¾nderungssensitivität liegt nach diesen Ansätzen nur dann vor, wenn die Veränderungen eine als klinisch relevant bestimmte Gröûenordnung erreichen. Zusammenfassende Schlussfolgerungen Zusammenfassend soll festgehalten werden, dass zur Beurteilung der Qualität von Messinstrumenten für die Evaluation von Veränderungen das Konzept der ¾nderungssensitivität unbedingt berücksichtigt werden sollte. Die bisherige Forschung bietet verschiedene Vorschläge zur Konstruktion von änderungssensitiven Instrumenten und Methoden zur Erfassung der ¾nderungssensitivität an, ohne jedoch verbindliche Vorgaben liefern zu können, welches Design bzw. welcher Kennwert am besten geeignet ist. Tab. 1 gibt eine Übersicht über die verschiedenen Faktoren, die die Beurteilung der ¾nderungssensitivität eines Messinstruments beeinflussen können. Auf dem aktuellen Stand der Forschung wird daher vorgeschlagen, die genannten qualitativen Empfehlungen zur Konstruktion von evaluativen Instrumenten zu berücksichtigen. Bei der Ermittelung bzw. Beurteilung von quantitativen Kennwerten der ¾nderungssensitivität sollten des Weiteren aussagekräftige Studiendesigns gewählt und stets mehrere Kennwerte (z. B. verschiedene Effektstärken) berichtet bzw. herangezogen werden, um möglichst sichere Schlussfolgerungen zu gewährleisten. Faktor Erläuterung Fragestellung Beurteilung der ¹absolutenª, ¹relativenª oder ¹zufallskritischenª ¾nderungssensitivität (s. Text) Instrument Itemmerkmale Frageformulierung (z. B. Beurteilungszeitraum, Häufigkeit der gefragten Ereignisse) Antwortformat (z. B. Abstufung, Pole) Verteilung der Antworten (z. B. Boden- und Deckeneffekte) Skalenmerkmale Verteilung der Skalenwerte (z. B. Boden- und Deckeneffekte) Gütekriterien Objektivität, Reliabilität, Validität Untersuchungs- Stichprobe methodik Design Homogenität der Messwerte zu einem Zeitpunkt bzw. der Messwertdifferenzen zwischen zwei Zeitpunkten eine Gruppe vs. mehrere Gruppen (mit stabiler Kontrollbedingung) Intervention Wirksamkeit der Behandlung MessUntersuchung eines Instruments vs. mehreinstrumente rer Instrumente Erhebung eines (änderungs-)validen Auûenkriteriums Übereinstimmung zwischen Störung, Behandlung und gemessenen (Erfolgs-)Kriterien Messzeitraum Angemessenheit bezogen auf den beobachteten Veränderungsprozess Kennwerte Art des Kennwertes (SES, SRM, GRI u. a.) Anm.: Effektstärken der ¾nderungssensitivität: SES = Standardized Effect Size, SRM = Standardized Response Mean, GRI = Guyatt's Responsiveness Index Literatur 1 Gerdes N, Jäckel WH. Der IRES-Fragebogen für Klinik und Forschung. Rehabilitation 1995; 34: XIII ± XXIV 2 Testa MA, Simonson DC. Assessment of quality-of-life outcomes. New England Journal of Medicine 1996; 334: 835 ± 840 3 Zwingmann C. Der IRES-Patientenfragebogen. Psychometrische Reanalysen an einem rehabilitationsspezifischen Assessmentinstrument. Regensburg: Roderer, 2002 4 Kirshner B, Guyatt G. A methodological framework for assessing health indices. Journal of Chronic Disease 1985; 38: 27 ± 36 5 Guyatt GH, Kirshner B, Jaeschke R. Measuring health status: What are the necessary measurement properties? Journal of Clinical Epidemiology 1992; 45: 1341 ± 1345 6 Beaton DE, Bombardier C, Katz JN, Wright JG. A taxonomy for responsiveness. Journal of Clinical Epidemiology 2001; 54: 1204 ± 1217 7 Schuck P. Designs und Kennziffern zur Ermittlung der ¾nderungssensitivität von Fragebogen in der gesundheitsbezogenen Lebensqualitätsforschung. Zeitschrift für Medizinische Psychologie 2000; 9: 125 ± 130 8 Stratford PW, Binkley JM, Riddle DL. Health status measures: Strategies and analytic methods for assessing change scores. Physical Therapy 1996; 76: 1109 ± 1123 9 Sloan JA, Aaronson N, Cappelleri JC, Fairclough DL, Varricchio C. Assessing the clinical significance of single items relative to summated scores. Mayo Clinic Proceedings 2002; 77: 479 ± 487 10 Igl W, Zwingmann C, Faller H. Erste Ergebnisse zur ¾nderungssensitivität des IRES-3-Fragebogens. In: Leonhart R, Gerdes N (Hrsg): Der IRES-Fragebogen in Theorie und Praxis. Regensburg: Roderer, im Druck 11 Sangha O, Stucki G. Patientenzentrierte Evaluation der Krankheitsauswirkungen bei muskuloskeletalen Erkrankungen: Übersicht über die Igl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 Methoden in der Rehabilitationsforschung Im Zwei-Gruppen-Fall können auch die von Norman [32] vorgeschlagenen Koeffizienten, Norman's SANOVA und Norman's SANCOVA, berechnet werden. Zur Berechnung dieser Koeffizienten wird ein Quotient aus der Varianz, die durch die Veränderung hervorgerufen wurde, und der Summe dieser Varianz und der Fehlervarianz gebildet. Diese Koeffizienten basieren auf der Grundidee der Varianzanalyse (ANOVA) bzw. der Kovarianzanalyse (ANCOVA) mit Messwiederholung. Bei der Kovarianzanalyse können auch Messwerte der Ausgangslage als Kovariaten berücksichtigt werden. Bisher sind allerdings solche Designs bei ¾nderungssensitivitätsanalysen noch wenig verbreitet [7]. Tab. 1 Übersicht über Faktoren, die die ¾nderungssensitivität eines Messinstruments und ihre Beurteilung beeinflussen können 105 Methoden in der Rehabilitationsforschung wichtigsten Outcome-Instrumente. Zeitschrift für Rheumatologie 1997; 56: 322 ± 333 12 Sampath-Kumar D, Bitzer EM, Dörning H. Das Nottingham Health Profile (NHP) und der MacNew Heart Disease Health-related Quality of Life Questionnaire in der kardiologischen Rehabilitation. Gesundheitswesen 2004; 66: 591 13 Guyatt GH, Feeny DH, Patrick DL. Measuring health-related quality of life. Annals of Internal Medicine 1993; 118: 622 ± 629 14 Jackowski D, Guyatt GH. A guide to health measurement. Clinical Orthopaedics and Related Research 2003: 80 ± 93 15 Kiresuk TJ, Smith A, Cardillo JE (Hrsg). Goal attainment scaling: Applications, theory, and measurement. Hillsdale, NJ: Erlbaum, 1994 16 Malec JF. Goal attainment scaling in rehabilitation. Neuropsychological Rehabilitation 1999; 9: 253 ± 275 17 Gerdes N. Rehabilitationseffekte bei ¹zielorientierter Ergebnismessungª. Ergebnisse der IRES-ZOE-Studie 1996/97. Deutsche Rentenversicherung 1998; (3 ± 4): 217 ± 238 18 Zwingmann C. Zielorientierte Ergebnismessung (ZOE) mit dem IRESPatientenfragebogen: Eine kritische Zwischenbilanz. Rehabilitation 2003; 42: 226 ± 235 19 Kraemer HC. Evaluating medical tests. Newbury Park: Sage, 1992 20 Bland M. An introduction to medical statistics. 3. Aufl. Oxford: University Press, 2000 21 Faller H. Sensitivität, Spezifität, positiver und negativer Vorhersagewert. Rehabilitation 2005; 44: 44 ± 49 22 Guyatt GH, Norman GR, Juniper EF, Griffith LE. A critical look at transition ratings. Journal of Clinical Epidemiology 2002; 55: 900 ± 908 23 Kohlmann T, Raspe H. Zur Messung patientennaher Erfolgskriterien in der medizinischen Rehabilitation: Wie gut stimmen ¹indirekteª und ¹direkteª Methoden der Veränderungsmessung überein? Rehabilitation 1998; 37, Suppl 1: S30 ± S37 106 Igl W et al. ¾nderungssensitivität ¼ Rehabilitation 2005; 44: 100 ± 106 24 Schuck P, Zwingmann C. The ¹smallest real differenceª as a measure of sensitivity to change: A critical analysis. International Journal of Rehabilitation Research 2003; 26: 85 ± 91 25 Hevey D, McGee HM. The effect size statistic: Useful in health outcomes research? Journal of Health Psychology 1998; 3: 163 ± 170 26 Cohen J. Statistical power analysis for the behavioral sciences. 2. Aufl. Hillsdale, NJ: Erlbaum, 1988 27 Kazis LE, Anderson JJ, Meenan RF. Effect sizes for interpreting changes in health status. Medical Care 1989; 27: 178 ± 189 28 Leonhart R. Effektgröûenberechnung bei Interventionsstudien. Rehabilitation 2004; 43: 241 ± 246 29 Martin DP, Engelberger R, Agel J, Swiontkowski MF. Comparison of the Musculoskeletal Function Assessment questionnaire with the Short Form-36, the Western Ontario and McMaster Universities Osteoarthritis Index, and the Sickness Impact Profile health status measures. Journal of Bone and Joint Surgery 1997; 79: 1323 ± 1335 30 Pfennings LE, Ploeg HM von der, Cohen L, Polman CH. A comparison of responsiveness indices in multiple sclerosis patients. Quality of Life Research 1999; 8: 481 ± 489 31 Jacobson NS, Truax P. Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology 1991; 59: 12 ± 19 32 Norman GR. Issues in the use of change scores in randomized trials. Journal of Clinical Epidemiology 1989; 42: 1097 ± 1105 33 Wyrwich KW. Minimal important difference thresholds and the standard error of measurement: Is there a connection? Journal of Biopharmaceutical Statistics 2004; 14: 97 ± 110 34 Beaton DE, Boers M, Wells GA. Many faces of the minimal clinically important difference (MCID): A literature review and directions for future research. Current Opinion in Rheumatology 2002; 14: 109 ± 114