Replikationskrise, Missbrauch von p-Werten und wie man sie als Datenwissenschaftler vermeiden kann [Teil - I]

Replikation und Reproduzierbarkeit sind heute einer der Eckpfeiler des wissenschaftlichen Fortschritts. Sie werden aus den Bereichen Wirtschaft, Sport, Politik, Soziologie, Psychologie und sogar Medizin gefordert. Die Replikation wird durchgeführt, um die Schlussfolgerungen einer Studie zu bestätigen und eine reproduzierbare Analyse zu veröffentlichen. Dies ist eine wesentliche und wichtige Komponente, die von medizinischen Zeitschriften bis zur künstlichen Intelligenz verwendet werden kann. Diese bestätigen nicht nur die Studien, sondern reduzieren auch das Risiko von Fehlentscheidungen und dem Versagen teurer Forschungen / Studien. Es ist hilfreich bei der Veröffentlichung der Zeitschrift und auch bei organisatorischen Entscheidungen für einen Datenwissenschaftler und Führungskräfte.

Mit den jüngsten Entwicklungen seit Beginn dieses Jahrzehnts hat die wissenschaftliche Gemeinschaft jedoch festgestellt, dass in den meisten veröffentlichten Studien methodische Mängel vorhanden sind. Falsche Ergebnisse sind ein Hauptgrund und eine Krise in der heutigen wissenschaftlichen Gemeinschaft. AMGEN, ein US-amerikanisches Biotech-Unternehmen, nahm an Top 50 Krebsstudien teil, die in Top-Zeitschriften veröffentlicht wurden, und konnte nur 11% der Ergebnisse replizieren. Dies ist eines der besten Beispiele. All diese Ereignisse lassen eine ähnliche Krise in veröffentlichten Studien erkennen und prägen den Begriff "Replikationskrise". Bevor wir mit der Replikationskrise beginnen, lassen Sie mich etwas zwischen Replikation und Reproduzierbarkeit klären. Lassen Sie mich aus Plessars Arbeit zitieren, wo ACM beide Schlüsselbegriffe wie folgt definiert:

Reproduzierbarkeit (Unterschiedliches Team, gleiche Versuchsanordnung): Die Messung kann von einem anderen Team unter Verwendung derselben Messprozedur, des gleichen Messsystems, unter denselben Betriebsbedingungen an derselben oder einer anderen Stelle in mehreren Versuchen mit der angegebenen Genauigkeit erhalten werden. Für rechnerische Experimente bedeutet dies, dass eine unabhängige Gruppe das gleiche Ergebnis mit den Artefakten des Autors erzielen kann.
Reproduzierbarkeit (Unterschiedliches Team, unterschiedlicher Versuchsaufbau): Die Messung kann von einem anderen Team, einem anderen Messsystem an einer anderen Stelle in mehreren Versuchen mit der angegebenen Genauigkeit erhalten werden. Für Rechenexperimente bedeutet dies, dass eine unabhängige Gruppe das gleiche Ergebnis mit Artefakten erzielen kann, die sie völlig unabhängig entwickeln.

Wenn Sie genau hinschauen, ist die Reproduzierbarkeit jedoch nur ein weiterer Satz experimenteller Einstellungen. Die Art und Weise, wie Daten generiert und erhoben werden, ist unterschiedlich, entspricht jedoch den Ergebnissen, die ursprünglich veröffentlicht wurden. Aber aufgrund der Spuren und Verfahrensfehler in den ersten Studien hat diese Replikationskrise auch die Reproduzierbarkeit beeinträchtigt. Daher werden fast überall Replikations- und Reproduzierbarkeitskrise regelmäßig ausgetauscht. Wikipedia definiert Replikationskrise als:

„Die Replikationskrise (oder Replizierbarkeits- oder Reproduzierbarkeitskrise) ist eine anhaltende (2019) methodologische Krise, die vor allem Teile der Sozial- und Lebenswissenschaften betrifft, in der Wissenschaftler festgestellt haben, dass die Ergebnisse vieler wissenschaftlicher Studien nur schwer oder gar nicht reproduzierbar sind anschließende Untersuchung entweder durch unabhängige Forscher oder durch die ursprünglichen Forscher selbst. "
xkcd weiß es!

Als Data Scientist sollten Sie die Gründe der Replikationskrise kennen, die möglicherweise Ihre Modelle und Studien ruinieren. Jede Studie, die ein Datenwissenschaftler durchführt, birgt auf jeden Fall ein Risiko und die Möglichkeit eines Fehlers. Man sollte keine Angst haben, Fehler zuzugeben und herauszufinden, was in ihrer Veröffentlichung schief gelaufen ist. Heutzutage gibt es eine große Anzahl skrupelloser Forscher, die mit großen Marken / Namen arbeiten und von diesen finanziert werden. Sie beschäftigen sich mehr mit Aufmerksamkeit / funkelnden Schlagzeilen als mit guter Wissenschaft. Ein Datenwissenschaftler könnte in diesen Bereich geraten, wenn er / sie auf bestimmte Ergebnisse voreingenommen ist, die eine Schlagzeile unter seinen Kollegen bilden könnten. Jeder von ihnen sollte es in Erinnerung behalten, dass keine Analyse ihnen helfen wird, die einzigartige Wahrheit zu finden. Zum Abschluss sind mehrere Iterationen und / oder Reproduzierbarkeit erforderlich.

Identifizieren Sie Ihre Ergebnisse

Woher wissen wir, ob die durchgeführte Studie mittelmäßig oder von geringer Qualität ist? Datenwissenschaftler müssen während der Replikation / Reproduktion auf wenige wichtige Ergebnisse achten. Es gibt folgende Gründe, warum replizierte / reproduzierte Studien für einen Datenwissenschaftler schief gehen können:

  • Während der Replikationsstudien konnte kein Effekt gefunden werden, der in einer früheren Studie behauptet wurde.
  • Es wurde eine neue Studie gefunden, die in früheren Studien nicht erwähnt wurde.
  • Die Beweise für eine Wirkung waren schwächer als von den Forschern behauptet.
  • Überschätzung der Leistung des Modells aufgrund schwankender Daten
  • Es wurde ein geringerer Effekt als in der ursprünglichen Studie gefunden, und der Unterschied war wesentlich.
  • Es wurde ein größerer Effekt als in der ursprünglichen Studie gefunden, und der Unterschied war wesentlich.

Überprüfen Sie die Qualität der Studien

Ergebnisse zu replizieren und dann Probleme in den Studien zu finden, sollte nicht unser erster Schritt sein. Wir müssen vorsichtig sein, wenn wir unsere experimentellen Studien entwerfen. Sie können niedrige oder mittelmäßige Studien anhand einiger wichtiger Prüfungen feststellen. Dies kann Ihnen auch die Qualität des Studiums und die Verantwortlichkeit des Autors erklären. Es gibt zahlreiche Schecks, die ich untersucht habe, und ich habe mich auf einige wichtige konzentriert:

  • Wenn Datenwissenschaftler nicht wissen, wie sie in der Analyse zu diesem Punkt gelangt sind, und / oder teilen sie ihre dokumentierte Studienmethode nicht.
  • Sie erfassen nicht alle von ihnen erfassten Datenpunkte und / oder von ihnen ausgeschlossene Punkte
  • Tun Sie nicht, mit welchem ​​Modell sie den statistischen Nachweis finden.
  • Fehler bei der Programmierung oder Berichterstellung.
  • Schlecht konzipierte Experimente, einschließlich Datenverlust.
  • p-Werte sind nicht sehr gut verstanden.

Wir haben gesehen, wie Replikation / Reproduktion falsche bedeutende Ereignisse aussortieren kann. Und wir haben die Punkte runtergerissen, was uns tatsächlich dabei helfen kann, schlechte Studien zu verwerfen und auch schlechte oder mittelmäßige Studien zu identifizieren. Was aber, wenn wir unser eigenes Studium beginnen, Modelle bauen und sicherstellen müssen, dass wir unser Bestes geben. Goodman et al. In ihrem Artikel "Was bedeutet Reproduzierbarkeit der Forschung?" Begann mit einem Dialog für "Ein neues Lexikon für Reproduzierbarkeit der Forschung". Ich fand es faszinierend, weil ihre Methodik den Autor zur Rechenschaft ziehen lässt und auch einige der Unterschiede hervorhebt, die den Ansatz der Reproduzierbarkeit in verschiedenen wissenschaftlichen Bereichen beeinflussen, wie beispielsweise Determinismusgrad, Signal-zu-Messwert-Fehler-Verhältnis, und zu welchen Ergebnissen wird gesagt, Passungsnaht zwischen Hypothese und experimentellem Design oder Daten, Konsequenzen falscher Schlussfolgerungen usw. Sie erwähnten einige wichtige Aspekte, um Ihre Arbeit reproduzierbar zu halten. Es gibt 3 Hauptkategorien und eine Nebenkategorie der Reproduzierbarkeit, auf die wir bei der Arbeit an jedem Experiment achten müssen:

  1. Methoden Reproduzierbarkeit soll die ursprüngliche Bedeutung von Reproduzierbarkeit erfassen, dh die Fähigkeit, experimentelle und rechnerische Verfahren mit denselben Daten und Werkzeugen so genau wie möglich zu implementieren, um dieselben Ergebnisse zu erzielen. Datenwissenschaftler müssen beim Entwurf des Datenflusses oder der Pipelines für Operationen vorsichtig sein. Und halten Sie Quelle und Methodik gut dokumentiert.
  2. Die Reproduzierbarkeit der Ergebnisse bezieht sich auf das, was zuvor als "Replikation" bezeichnet wurde, d. H., Dass dieselben Ergebnisse aus der Durchführung einer unabhängigen Studie erzielt wurden, deren Verfahren dem ursprünglichen Experiment möglichst nahe kommen.
  3. Robustheit und Generalisierbarkeit [gering]: Robustheit bezieht sich auf die Stabilität der experimentellen Schlussfolgerungen gegenüber Abweichungen in den Basisannahmen oder experimentellen Verfahren. Es ist in gewisser Weise mit dem Konzept der Generalisierbarkeit (auch als Transportierbarkeit bezeichnet) verwandt, das sich auf die Persistenz eines Effekts in anderen Umgebungen als einem experimentellen Rahmen und außerhalb bezieht. Beispielsweise können sich meine Ausgangswerte für das Verhältnis des Währungswechsels über zwei separate Perioden ändern, sie sollten jedoch für allgemeine Modelle aus der quantitativen Ökonomie perfekt funktionieren.
  4. Inferentielle Reproduzierbarkeit, die oft nicht als separates Konzept erkannt wird, ist die Behauptung, dass aus einer Studienreplikation oder Reanalyse Wissensansprüche von ähnlicher Stärke bestehen. Dies ist nicht identisch mit der Reproduzierbarkeit der Ergebnisse, da nicht alle Ermittler aus denselben Ergebnissen die gleichen Schlussfolgerungen ziehen oder möglicherweise andere analytische Entscheidungen treffen, die zu unterschiedlichen Schlussfolgerungen aus denselben Daten führen.

Die Replikationskrise fordert viele Forschungen, Arbeitsstunden, Investitionen und Entscheidungen, die im letzten Jahr stattgefunden haben. Die Replikation wurde vermieden, da sie in der Wissenschaft nicht teuer und wertvoll ist. Wir sollten aber auch die Bedeutung der Replikation in der wissenschaftlichen Gemeinschaft diskutieren und warum sie Vertrauen aufbauen und Autoren / Wissenschaftler zur Rechenschaft ziehen kann. Wichtige Punkte, die zu berücksichtigen sind, um eine Replikationskrise zu vermeiden, wären:

  • Auch wenn dies teuer ist, sollten wir häufig replizieren.
  • Wir sollten mehr NULL-Ergebnisse veröffentlichen, die keine Hypothese unterstützen, sodass p-Hacking vermieden werden kann.
  • Wir müssen während der Veröffentlichung Daten mit der Öffentlichkeit teilen, damit Daten untersucht und Korrekturen vorgeschlagen werden können.
  • ASA, American Statistical Association, schlug die korrekte Verwendung von p-Werten vor, auf die ich in Teil II eingehen werde.

Bis dahin überlasse ich Ihnen allen Datenwissenschaftlern die Verantwortung und Sorgfalt mit den Daten. Und seien Sie unvoreingenommen gegenüber Ergebnissen.