A+ R A-

Kritik trifft auf Signifikanz

Man kann nur hoffen, daß der Signifikanzwahn in der wissenschaftlichen Literatur irgendwann einmal überwunden wird. Obwohl p-Werte ohne Angabe der Unterschiede (mit ihren Konfidenzintervallen) kaum sinnvoll sind, strotzen einige Fachartikel nur so von p-Werten. Manchmal fragt man sich, ob die Autoren überhaupt wissen, was ein Signifikanztest ist und welche Bedeutung der p-Wert hat.

So wurde kürzlich im Deutschen Ärzteblatt [1] über den Stellenwert der totalen mesorektalen Exzision (TME) bei Patienten mit Rektumkarzinomen (<12 cm) berichtet. In der Zusammenfassung heißt der erste Satz: „Die totale mesorektale Exzision senkt die Lokalrezidivrate und verbessert das Überleben.“ Und die beiden letzten Sätze lauten: „Die Ergebnisse bestätigen die Relevanz der TME in der Behandlung tiefsitzender Rektumkarzinome. Die TME wird noch nicht flächendeckend eingesetzt.“ Alle Chirurgen, die Rektumkarzinome operieren und immer eine TME durchführen, fühlen sich bestätigt, weil jetzt erstmalig in einer umfassenden sorgfältigen Sammelstatistik bestätigt wurde, daß die TME auch in der breiten Versorgung vorteilhaft für die Patienten ist. Und der letzte Satz soll wohl alle anderen Chirurgen dazu ermuntern, ebenfalls eine TME durchzuführen, da sie doch die Prognose zu verbessern scheint.

Ein kundiger und sehr aufmerksamer Leser dieses Artikels konnte sich den Schlußfolgerungen der Autoren offensichtlich nicht anschließen, denn er schrieb, daß das tumorfreie 5-Jahres-Überleben mit und ohne TME vergleichbar sei [2]. Dieses ließen die Autoren natürlich nicht unwidersprochen und konterten [3]: „Der dargestellte Unterschied im tu­mor­freien Überleben nach fünf Jah­ren mit und ohne TME (73,1 % versus 72,6 %, p=0,034) ist signifikant.“ Basta!

Da die Signifikanz hier als schlagkräftiges Argument zu Gunsten der TME angeführt wird, wollen wir genau betrachten, was der p-Wert eines Signifikanztestes überhaupt aussagt. Versetzen wir uns zuvor in die Lage der Autoren, die damals vermutet haben, daß die TME das tumorfreie Überleben verlängert. Wenn sie methodisch korrekt vorgegangen sind, was wir hier zweifellos unterstellen können, dann haben sie vor der Auswertung der Daten die Nullhypothese aufgestellt: die TME beeinflußt das Überleben nicht. Sie werden als alternative Hypothese formuliert haben: Die TME beeinflußt das Überleben. Dann haben sie die Daten ausgewertet und dabei einen Signifikanztest durchgeführt, der den p-Wert 0,034 ergab. Da der Wert kleiner als das vorher festgelegte Signifikanzniveau von 0,05 war, wird das Ergebnis als signifikant bezeichnet. Die Nullhypothese wurde abgelehnt und die alternative Hypothese angenommen. – Wir unterstellen an dieser Stelle, um die Argumentation zu vereinfachen, daß nur dieser eine Test durchgeführt wurde und nicht noch viele andere, denn sonst hätte man das Signifikanzniveau natürlich weiter senken müssen.

Der p-Wert gibt nicht die Wahrscheinlichkeit der Daten „p(D)“ an. Es ist nicht damit gemeint, daß die Daten mit einer Wahrscheinlichkeit von 0,034 zufällig aufgetreten sind. Über die Daten sagt der Test nichts. Die Daten sind Fakten, die aufgetreten sind und werden als solche nicht diskutiert. Es ist mit dem p-Wert auch nicht die Wahrscheinlichkeit der Nullhypothese „p(H)“ ge­meint. Natürlich würden wir gern wissen wollen, wie wahrscheinlich die Hypothese ist. Wir würden gern wissen, ob die Hypothese bestätigt wird oder nicht. Aber der p-Wert sagt nicht, daß die Nullhypothese nur zu 0,034 Prozent zutrifft.

Der Signifikanztest gibt uns lediglich eine bedingte Wahrscheinlichkeit, nämlich p(D|H). Er sagt uns, wie wahrscheinlich die Daten auftreten, unter der Annahme, daß die Nullhypothese gilt. Wenn wir also die Nullhypothese als richtig akzeptieren, dann treten die Daten mit einer geringen Wahrscheinlichkeit von 3,4 Prozent auf. Deshalb werden wir uns auch nicht auf die Nullhypothese versteifen, sondern die alternative Hypothese wählen.

So weit so gut. Statistisch war es von den Autoren eine vernünftige Entscheidung, die alternative Hypothese zu wählen. Aus klinischer Sicht ist eine Prognoseverbesserung von 0,5 Prozent aber so unerheblich, daß es völlig egal ist, ob man sich für die Nullhypothese oder alternative Hypothese entscheidet. Der therapeutische Ge­winn eines Verfahrens ist entscheidend und der ist bei der TME so gering, dass man nicht ernsthaft von einer Prognoseverbesserung sprechen kann. Egal, ob der geringe Unterschied signifikant ist oder nicht. Mancher mag sich fragen, warum denn solche kleine Unterschiede signifikant werden können. Die Antwort ist einfach: Die Größe der untersuchten Population ist ausschlaggebend. Wenn man über die Daten von einigen Tausend Patienten verfügt, findet man immer etwas Signifikantes. Ob es aber auch von klinischer Bedeutung ist, ist dann eine zweite Frage. Wobei diese Frage die wichtigere ist. Zumindest der kritische Leser hatte diese Zusammenhänge be­griffen.

Um die weitere Argumentation zu verkürzen, übergehen wir die Aussage in dem Artikel, daß besonders bei fortgeschrittenen Tumoren keine TME vorgenommen wurde, denn danach müßten wir eigentlich eine deutlich schlechtere Prognose erwarten. Wenn wir nur die Daten dieser Studie unseren Entscheidungen zu Grunde legen würden, dann dürfte es schwer fallen, einen Tumor in 12 cm Höhe mit TME zu behandeln, zumal die funktionellen Ergebnisse nach TME schlechter sind.

Als letztes gutes Argument bleibt die geringe Lokalrezidivrate, auch wenn sie sich nicht in einer verbesserten Prognose niederschlägt. Aus den Daten dieser Studie läßt sich die provokative These formulieren: TME bedeutet weniger Lokalrezidive, vergleichbares Überleben und schlechtere Funktion.

1.         Lippert H, Gastinger I (2006) Versorgung von Patienten mit Rektumkarzinomen in Deutschland. Dtsch Ärztebl 103: 2704

2.         Seifert W (2007) Leserbrief. Dtsch Ärztebl 104: 435

3.         Lippert H (2007) Schlusswort. Dtsch Ärztebl 104: 435