Wie Wissenschaftler Ergebnisse mit „P-Hacking“ massieren

Startseite » Wie Wissenschaftler Ergebnisse mit „P-Hacking“ massieren
Wie Wissenschaftler Ergebnisse mit „P-Hacking“ massieren

Jonathan KücheGetty Images

Das Streben nach Wissenschaft ist darauf ausgerichtet, in einem Labyrinth von Daten nach Bedeutung zu suchen. So soll es zumindest funktionieren.

durch einige KontenDiese Fassade begann 2010 zu bröckeln, als ein Sozialpsychologe der Cornell University, Daryl Bem, eine 10-Jahres-Analyse in der angesehenen Zeitschrift veröffentlichte Zeitschrift für Persönlichkeit und Sozialpsychologie, die mit allgemein anerkannten statistischen Methoden demonstrierten, dass die außersinnliche Wahrnehmung (ESP), im Grunde der „sechste Sinn“, ein beobachtbares Phänomen war. Bems Kollegen konnten die Ergebnisse des Papiers nicht replizieren und machten schnell das verantwortlich, was wir heute als „P-Hacking“ bezeichnen, einen Prozess, bei dem Ihre Daten auf der Suche nach statistisch signifikanten – und publizierbaren – Ergebnissen massiert und überanalysiert werden.

♾ Du liebst Mathe. Also los geht’s. Lassen Sie uns gemeinsam tief in seine Feinheiten eintauchen – treten Sie Pop Mech Pro bei.

Um eine Hypothese zu stützen oder zu widerlegen, besteht das Ziel darin, eine statistische Signifikanz festzustellen, indem ein „p-Wert“ von weniger als 0,05 aufgezeichnet wird, erklärt Benjamin Baer, ​​Postdoktorand und Statistiker an der University of Rochester, dessen aktuelle Arbeit aussieht bei der Behandlung dieses Problems. Das „p“ im p-Wert steht für Wahrscheinlichkeit und ist ein Maß dafür, wie wahrscheinlich das Ergebnis einer Nullhypothese im Vergleich zum Zufall ist.

Wenn Sie beispielsweise testen möchten, ob alle Rosen rot sind, würden Sie die Anzahl der roten Rosen und Rosen anderer Farben in einer Stichprobe zählen und einen Hypothesentest durchführen, um die Werte zu vergleichen. Wenn dieser Test einen p-Wert von weniger als 0,05 ausspuckt, dann haben Sie statistisch signifikante Gründe zu behaupten, dass es nur rote Rosen gibt – auch wenn Beweise außerhalb Ihrer Blumenprobe etwas anderes vermuten lassen.

Der Missbrauch von p-Werten zur Unterstützung der Idee, dass ESP existiert, mag relativ harmlos sein, aber wenn diese Praxis in medizinischen Studien angewendet wird, kann sie viel tödlichere Ergebnisse haben, sagt Baer. „Ich denke, das große Risiko besteht darin, dass die falsche Entscheidung getroffen wird“, erklärt er basierend darauf, was sie sein sollten.“

Baer war der Erstautor eines Papiers, das Ende 2021 in der Zeitschrift veröffentlicht wurde PNAS zusammen mit seinem ehemaligen Cornell-Mentor und Statistikprofessor Martin Wells, der untersuchte, wie neue Statistiken die Verwendung von p-Werten verbessern könnten. Die Metrik, die sie untersucht haben, heißt Fragilitätsindex und soll p-Werte ergänzen und verbessern.

Dieses Maß beschreibt die Fragilität eines Datensatzes, wenn einige seiner Datenpunkte von einem positiven zu einem negativen Ergebnis wechseln – zum Beispiel, wenn ein Patient, der von einem Medikament positiv beeinflusst wurde, tatsächlich keine Auswirkungen verspürt. Wenn die Änderung nur einiger dieser Datenpunkte ausreicht, um ein Ergebnis von statistisch signifikant auf nicht signifikant herabzustufen, gilt es als fragil.

p-Wert-Kurve

pm

2014 Arzt Michael Walsh ursprünglich vorgeschlagen Der Fragilitätsindex in der Zeitschrift für klinische Epidemiologie. In dem Artikel wendeten er und seine Kollegen den Fragilitätsindex auf knapp 400 randomisierte Kontrollstudien mit statistisch signifikanten Ergebnissen an und stellten fest, dass jeder Vierte niedrige Fragilitätswerte hatte, was bedeutet, dass ihre Ergebnisse möglicherweise nicht sehr zuverlässig oder robust sind.

Der Fragilitätsindex muss jedoch in medizinischen Studien noch viel Fahrt aufnehmen. Einige Kritiker des Ansatzes sind aufgetaucht, wie Rickey Carter von der Mayo Clinic, der sagt, dass er den p-Werten zu ähnlich ist, ohne genügend Verbesserung zu bieten. „Die Ironie ist, dass der Fragilitätsindex ein P-Hacking-Ansatz war“, sagt Carter.

„Mit der Familie des Opfers zu sprechen, nachdem eine Operation fehlgeschlagen ist, ist etwas ganz anderes [experience] als Statistiker, die an ihren Schreibtischen sitzen und rechnen.“

Um den Fragilitätsindex zu verbessern, konzentrierten sich Baer, ​​Wells und Kollegen auf die Verbesserung von zwei Hauptelementen, um frühere Kritik zu beantworten: nur hinreichend wahrscheinliche Änderungen vorzunehmen und den Ansatz zu verallgemeinern, um über binäre 2×2-Tabellen (die positive oder negative Kontroll- und Versuchsgruppen darstellen) zu arbeiten Ergebnisse) .

Trotz des harten Kampfes, den der Fragilitätsindex bisher geführt hat, glaubt Baer, ​​dass er immer noch eine nützliche Metrik für medizinische Statistiker ist, und hofft, dass Verbesserungen in ihrer jüngsten Arbeit dazu beitragen werden, auch andere davon zu überzeugen.

„Mit der Familie des Opfers zu sprechen, nachdem eine Operation fehlgeschlagen ist, ist etwas ganz anderes [experience] als Statistiker, die an ihren Schreibtischen sitzen und rechnen“, sagt Baer.