Statistik: Die Kaplan-Meier Erfolgsstory

Der am häufigsten zitierte Fachzeitschriftenaufsatz aus dem Bereich der Statistik:
Kaplans und Meiers „Nonparametric Estimation from Incomplete Observations”

Nach einer Analyse von Thomas P. Ryan und William H. Woodall (2005) war der Aufsatz mit dem Titel „Nonparametric Estimation from Incomplete Observations“, das von Edward L. Kaplan und Paul Meier im Jahr 1958 im Journal of the American Statistical Association veröffentlicht wurde, zum damaligen Zeitpunkt, also 2005, mit 25.869 Zitierungen seit dem Erscheinungsjahr der am häufigsten zitierte statistische Fachzeitschriftenaufsatz. Darüber hinaus war er unter den fünf am häufigsten zitierten wissenschaftlichen Fachartikeln.

Seitdem hat es u.W. zwar keine neuere Analyse der am häufigsten zitierten statistischen Aufsätze gegeben, aber es erscheint plausibel zu vermuten, dass Kaplans und Meiers Aufsatz nach wie vor der am häufigsten zitierte statistische Aufsatz ist, schlagen die Autoren doch ein statistisches Schätzverfahren vor, mit Hilfe dessen der Anteil von Merkmalen oder Ereignissen bzw. deren Eintrittswahrscheinlichkeiten in einer Population geschätzt werden kann, wenn zensierte Daten vorliegen, d.h. wenn das interessierende Merkmal oder das interessierende Ereignis auch noch nach dem Ende des Beobachtungszeitraums, für den Daten vorliegen, eintreten kann.

Dies ist häufig der Fall, wenn es um medizinische Fragestellungen geht, aber auch für viele sozialwissenschaftliche Fragestellungen ist das Verfahren von Kaplan und Meier relevant. Beispielsweise dann, wenn man auf der Basis von Daten, die man, für Einbrecher und ihre Einbrüche in einem bestimmten Beobachtungszeitraum, z.B. zwischen 1998 und 2010, vorliegen hat, eine Schätzung darüber vornehmen will, wie hoch die Rückfallquote unter (diesen) Einbrechern ist. Weil die Einbrecher, für die Daten vorliegen, ja auch nach 2010 noch Einbrüche begangen haben können oder begehen können, ist ein statistisches Schätzverfahren notwendig, das diesem Umstand Rechnung trägt. Der sogenannten Kaplan-Meier- Schätzer tut dies. Ein weiterer Vorteil des Verfahrens nach Kaplan und Meier ist, dass keine Annahmen über die Form Verteilung der Überlebensfunktion gemacht werden muss, in unserem Beispiel also darüber, ob die Anteile der Einbrecher, die rückfällig werden, im Zeitverlauf einer Linie oder (irgendeiner Art von) Kurve folgen. Es ist also nicht überraschend, dass der Kaplan-Meier-Schätzer häufig verwendet wird und dementsprechend häufig zitiert wird.

Vielleicht hat zur Qualität des Aufsatzes auch der Umstand beigetragen, dass Kaplan und Meier zunächst getrennte Manuskripte über das von ihnen entwickelte Schätzverfahren eingereicht hatten, und die Herausgeber aufgrund der – wenig verwunderlichen – Ähnlichkeit der Manuskripte anregten, die beiden Texte zu einem einzigen Text zusammenzufassen, woraufhin die Autoren darangingen, ihre Differenzen mit Bezug auf die Details des Schätzverfahrens auszuräumen, wozu sie vier Jahre brauchten! Was lange währte, wurde endlich gut, und zwar so gut, dass das statistische Verfahren, das Kaplan und Meier schließlich im oben genannten Text im Jahr 1958 vorstellten, heute zu einem nicht wegzudenkenden Instrument im methodischen Baukasten der statistischen Analyse geworden ist.

Literatur:

Kaplan, Edward L. & Meier, Paul (1958): Nonparametric Estimation from Incomplete Observations. Journal of the American Statistical Association 53(282): 457-481.

Ryan, Thomas P. & Woodall, William H. (2005): The Most-Cited Statistical Papers. Journal of Applied Statistics 32(5): 461-474.