Die Wirkung schlechter Daten auf gute Wissenschaft

Startseite » Die Wirkung schlechter Daten auf gute Wissenschaft
Die Wirkung schlechter Daten auf gute Wissenschaft

Kaffee war im 17. Jahrhundert in Schweden sehr beliebt – und auch illegal. König Gustav III. glaubte, dass es sich um ein langsames Gift handelte, und entwickelte ein cleveres Experiment, um dies zu beweisen.

Er wandelte die Urteile von mordenden Zwillingsbrüdern, die auf ihre Enthauptung warteten, unter einer Bedingung um: Ein Bruder musste täglich drei Kannen Kaffee trinken, während der andere drei Kannen Tee trank. Der frühe Tod des Kaffeetrinkers würde beweisen, dass Kaffee Gift ist.

Es stellte sich heraus, dass der kaffeetrinkende Zwilling den Teetrinker überlebte, aber erst in den 1820er Jahren durften die Schweden endlich das tun, was sie schon immer getan hatten: Kaffee trinken, viel Kaffee.

Der Eckpfeiler der wissenschaftlichen Revolution ist das Beharren darauf, dass Behauptungen mit Daten getestet werden, idealerweise in einer zufällig kontrollierten Studie. Gustavs Experiment war bemerkenswert, weil er identische männliche Zwillinge verwendete, die die verwirrenden Effekte von Geschlecht, Alter und Genen eliminierten. Die eklatanteste Schwäche war, dass aus einer so kleinen Stichprobe nichts statistisch Überzeugendes kommen kann.

Das Problem heute ist nicht die Datenknappheit, sondern das Gegenteil. Wir haben zu viele Daten, und das untergräbt die Glaubwürdigkeit der Wissenschaft.

Glück ist Zufallsversuchen innewohnend. In einer medizinischen Studie können einige Patienten gesünder sein. In einer landwirtschaftlichen Studie können einige Böden fruchtbarer sein. In einer pädagogischen Studie können einige Schüler motivierter sein. Die Forscher berechnen folglich die Wahrscheinlichkeit (den p-Wert), dass die Ergebnisse zufällig eintreten. Ein niedriger p-Wert weist darauf hin, dass die Ergebnisse nicht ohne Weiteres dem Glück der Ziehung zugeschrieben werden können.

Wie niedrig? In den 1920er Jahren sagte der große britische Statistiker Ronald Fisher, dass er p-Werte unter 5 Prozent für überzeugend halte, sodass 5 Prozent zur Hürde für die „statistisch signifikante“ Zertifizierung wurden, die für Veröffentlichung, Finanzierung und Ruhm benötigt wird.

Es ist keine schwierige Hürde. Stellen Sie sich vor, ein unglücklicher Forscher berechnet die Korrelationen zwischen Hunderten von Variablen, ohne zu wissen, dass es sich bei den Daten tatsächlich um Zufallszahlen handelt. Im Durchschnitt ist eine von 20 Korrelationen statistisch signifikant, obwohl jede Korrelation nichts anderes als Zufall ist.

Echte Forscher korrelieren keine Zufallszahlen, aber allzu oft korrelieren sie im Wesentlichen zufällig ausgewählte Variablen. Diese willkürliche Suche nach statistischer Signifikanz hat sogar einen Namen: Data Mining. Wie bei Zufallszahlen hat die Korrelation zwischen zufällig ausgewählten, unabhängigen Variablen eine 5-prozentige Chance, zufällig statistisch signifikant zu sein. Data Mining kann durch Manipulieren, Beschneiden und anderweitiges Foltern der Daten erweitert werden, um niedrige p-Werte zu erhalten.

Um eine statistische Signifikanz zu finden, muss man nur ausreichend genau hinsehen. Die 5-Prozent-Hürde hatte den perversen Effekt, dass Forscher ermutigt wurden, mehr Tests durchzuführen und bedeutungslosere Ergebnisse zu melden.

So werden dumme Beziehungen in guten Zeitschriften veröffentlicht, weil die Ergebnisse statistisch signifikant sind.

• Schüler schneiden bei einem Erinnerungstest besser ab, wenn sie nach dem Test für den Test lernen (Journal of Personality and Social Psychology).

• Japanisch-Amerikaner neigen am vierten Tag des Monats zu Herzinfarkten (British Medical Journal).

• Bitcoin-Preise können anhand von Lagerrückgaben in der Karton-, Behälter- und Schachtelindustrie vorhergesagt werden (National Bureau of Economic Research).

• Ältere chinesische Frauen können ihren Tod bis nach den Feierlichkeiten des Harvest Moon Festivals verschieben (Journal of the American Medical Association).

• Frauen, die täglich Frühstückszerealien essen, bekommen mit größerer Wahrscheinlichkeit männliche Babys (Proceedings of the Royal Society).

• Menschen können Power-Posen verwenden, um ihr Dominanzhormon Testosteron zu erhöhen und ihr Stresshormon Cortisol zu reduzieren (Psychologische Wissenschaft).

• Hurrikane sind tödlicher, wenn sie weibliche Namen haben (Proceedings of the National Academy of Sciences).

• Anleger können auf dem Markt eine jährliche Rendite von 23 Prozent erzielen, indem sie ihre Kauf-/Verkaufsentscheidungen auf die Anzahl der Google-Suchanfragen nach dem Wort „Schulden“ stützen (wissenschaftliche Berichte).

Diese inzwischen diskreditierten Studien sind die Spitze eines statistischen Eisbergs, der als Replikationskrise bekannt geworden ist.

Ein Team unter der Leitung von John Ioannidis untersuchte Versuche, 34 hoch angesehene medizinische Studien zu replizieren, und stellte fest, dass nur 20 bestätigt wurden. Das Reproducibility Project versuchte, 97 Studien zu replizieren, die in führenden Psychologiezeitschriften veröffentlicht wurden, und bestätigte nur 35. Das Experimental Economics Replication Project versuchte, 18 experimentelle Studien zu replizieren, die in führenden Wirtschaftszeitschriften veröffentlicht wurden, und bestätigte nur 11.

Ich schrieb eine satirische Abhandlung, die die Dummheit des Data Mining demonstrieren sollte. Ich habe mir die umfangreichen Tweets von Donald Trump angesehen und zwei Tage später statistisch signifikante Korrelationen zwischen Trumps Tweet des Wortes „Präsident“ und dem S&P 500 Index gefunden; Trump twittert vier Tage später das Wort „ever“ und die Temperatur in Moskau; Trump twitterte vier Tage später das Wort „mehr“ und den Teepreis in China, und Trump twitterte das Wort „Demokrat“ und einige Zufallszahlen, die ich generiert hatte.

Ich kam zu dem Schluss – mit so fester Miene, wie ich es halten konnte –, dass ich „überzeugende Beweise für den Wert der Verwendung von Data-Mining-Algorithmen gefunden hatte, um statistisch überzeugende, bisher unbekannte Korrelationen zu entdecken, die verwendet werden können, um vertrauenswürdige Vorhersagen zu treffen“.

Ich bin naiv davon ausgegangen, dass die Leser diesen Nerd-Witz verstehen würden: Große Datensätze können leicht abgebaut und gefoltert werden, um Muster zu identifizieren, die völlig nutzlos sind. Ich habe die Arbeit bei einer wissenschaftlichen Zeitschrift eingereicht, und die Kommentare des Gutachters zeigen auf wunderbare Weise, wie tief die Vorstellung verankert ist, dass statistische Signifikanz den gesunden Menschenverstand ersetzt: „Die Arbeit ist im Allgemeinen gut geschrieben und strukturiert. Dies ist eine interessante Studie, und die Autoren haben einzigartige Datensätze gesammelt mit modernster Methodik.“

Es ist verlockend zu glauben, dass mehr Daten mehr Wissen bedeuten. Die explosionsartige Zunahme der gemessenen und aufgezeichneten Dinge hat sich jedoch über die Anzahl zufälliger Muster und falscher statistischer Beziehungen hinaus vergrößert, die nur darauf warten, uns zu täuschen.

Gary Smith ist Wirtschaftsprofessor am Pomona College.