Hypothesentest

Ein einfaches und kurzes Tutorial zum Testen von Hypothesen mit Python

Bild von: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

In diesem Blog werde ich eine kurze Einführung in das Testen von Hypothesen mit statistischen Methoden in Python geben. Das Testen von Hypothesen ist Teil der wissenschaftlichen Methode, mit der wir alle vertraut sind, was wir wahrscheinlich in unseren frühen Schuljahren gelernt haben. In der Statistik werden jedoch viele Experimente an einer Stichprobe einer Population durchgeführt.

„Um zu bestimmen, was eine Stichprobe von Beobachtungen über eine vorgeschlagene Erklärung aussagt, müssen wir im Allgemeinen einen Rückschluss auf Reason With Uncertainty ziehen, oder wie wir Statistiker es nennen. Das Argumentieren mit Unsicherheit ist der Kern der statistischen Folgerung und wird in der Regel mit einer Methode namens Null-Hypothese-Signifikanz-Testen durchgeführt. “-Öfen.

Als Beispiel für diesen Blog werde ich einen europäischen Fußballdatensatz von Kaggle verwenden und Hypothesentests durchführen. Den Datensatz finden Sie hier.

Schritt 1

Machen Sie eine Beobachtung

Der erste Schritt besteht darin, Phänomene zu beobachten. In diesem Fall wird es sein: Gibt es einen Einfluss von Verteidigungsangriffen auf die durchschnittlich erlaubten Tore?

Schritt 2

Untersuche die Forschung

Eine gute Einstellung ist, klüger und nicht härter zu arbeiten. Eine gute Sache, die Sie tun sollten, ist zu prüfen, ob bereits Forschungsergebnisse zu Ihrer Beobachtung vorliegen. In diesem Fall kann es bei der Beantwortung unserer Frage hilfreich sein. Wenn wir uns bereits bestehender Forschungen oder Experimente bewusst sind, können wir unser Experiment besser strukturieren oder vielleicht sogar unsere Frage beantworten und müssen das Experiment nicht erst durchführen.

Schritt 3

Bilden Sie eine Nullhypothese und eine Alternativhypothese

Eine alternative Hypothese ist unsere Vermutung und eine Nullhypothese ist einfach das Gegenteil. Wenn die alternative Hypothese besagt, dass zwischen zwei Variablen eine signifikante Beziehung besteht, besagt die Nullhypothese, dass keine signifikante Beziehung besteht.

Unsere Nullhypothese lautet: Es gibt keinen statistischen Unterschied bei den Toren, die bei Teams mit einer Verteidigungsangriffswertung von mindestens 65 gegen Teams unter 65 zulässig sind.

Alternative Hypothese: Es gibt einen statistischen Unterschied bei den Toren, die bei Teams mit einer Verteidigungsangriffswertung von mindestens 65 gegen Teams unter 65 zulässig sind.

Schritt 4

Bestimmen Sie, ob unsere Hypothese ein einseitiger Test oder ein zweiseitiger Test ist.

Einseitiger Test

"Wenn Sie ein Signifikanzniveau von 0,05 verwenden, können Sie mit einem einseitigen Test die statistische Signifikanz in die eine interessierende Richtung überprüfen." Ein Beispiel für einen einseitigen Test wäre "Fußballmannschaften mit einer Aggression" Eine Wertung unter 65 erlaubt statistisch signifikant mehr Tore als Mannschaften mit einer Wertung unter 65. “

Zwei-Schwanz-Test

„Wenn Sie ein Signifikanzniveau von 0,05 verwenden, können Sie mit einem zweiseitigen Test die statistische Signifikanz zur Hälfte in eine Richtung und die statistische Signifikanz zur Hälfte in die andere Richtung testen. Dies bedeutet, dass sich in jedem Endpunkt der Verteilung Ihrer Teststatistik 0,025 befindet. “

Mit einem zweiseitigen Test testen Sie die statistische Signifikanz in beide Richtungen. In unserem Fall testen wir die statistische Signifikanz in beide Richtungen.

Schritt 5

Legen Sie ein Schwellenwert-Signifikanzniveau (Alpha) fest

(Alpha-Wert): Der Grenzwert, ab dem wir die Nullhypothese ablehnen können. Ein Alpha-Wert kann ein beliebiger Wert zwischen 0 und 1 sein. Der in der Wissenschaft am häufigsten verwendete Alpha-Wert ist jedoch 0,05. Ein Alpha-Wert von 0,05 bedeutet, dass wir die Nullhypothese ablehnen können, obwohl die Wahrscheinlichkeit, dass die Ergebnisse zufällig sind, höchstens 5% beträgt.

P-Wert: Die berechnete Wahrscheinlichkeit, zufällig zu diesen Daten zu gelangen.

Wenn wir einen p-Wert berechnen und dieser 0,03 ergibt, können wir dies so interpretieren, dass "die Wahrscheinlichkeit, dass die Ergebnisse, die ich sehe, zufällig oder rein zufällig sind, bei 3% liegt".

Bild von Learn.co

Unser Ziel ist es, den p-Wert zu berechnen und mit unserem Alpha zu vergleichen. Je niedriger das Alpha, desto strenger der Test.

Schritt 6

Probennahme durchführen

Hier haben wir unseren Datensatz namens Fußball. Für unseren Test benötigen wir nur zwei Spalten in unserem Datensatz: team_def_aggr_rating und goals_allowed. Wir werden es in diese beiden Spalten herausfiltern und dann zwei Teilmengen für Teams mit einer Defensiv-Aggressionsbewertung von mindestens 65 und Teams mit einer Defensiv-Aggressionsbewertung unter 65 erstellen.

Zur Erinnerung an unseren Hypothesentest:

Auswirkung von Verteidigungsangriffen auf die durchschnittlich erlaubten Tore.Null Hypothese: Es gibt keinen statistischen Unterschied zwischen den erlaubten Toren bei Teams mit einer Verteidigungsangriffswertung von mindestens 65 gegenüber Teams unter 65.Alternative Hypothese: Es gibt einen statistischen Unterschied zwischen den erlaubten Toren mit Teams mit einer Verteidigungsangriffswertung von mindestens 65 gegen Teams unter 65.Zwei-tailed TestAlpha: 0,05

Jetzt haben wir zwei Listen von Proben, mit denen wir statistische Tests durchführen können. Vor diesem Schritt werde ich die beiden Verteilungen zeichnen, um eine visuelle Darstellung zu erhalten.

Schritt 7

Führen Sie einen T-Test mit zwei Stichproben durch

Der t-Test mit zwei Stichproben wird verwendet, um zu bestimmen, ob zwei Populationsmittelwerte gleich sind. Dafür verwenden wir das Python-Modul namens statsmodels. Ich werde nicht zu sehr auf die Statistikmodelle eingehen, aber die Dokumentation finden Sie hier.

Schritt 8

Bewerten und abschließen

Denken Sie daran, dass das von uns festgelegte Alpha a = 0,05 war. Wie wir unseren Testergebnissen entnehmen können, liegt der p-Wert unter unserem Alpha. Wir können unsere Nullhypothese ablehnen und mit 95% igem Vertrauen unsere Alternativhypothese akzeptieren.

Danke fürs Lesen! Weitere Informationen zum Testen von Hypothesen finden Sie in diesem Gruppenprojekt auf GitHub, an dem ich beim Testen von Hypothesen beteiligt war.

Ressourcen:

Backöfen, Matthew. "Statistik und die" wissenschaftliche Methode "von YourStatsGuru abgerufen. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Einführung in SAS. UCLA: Statistische Beratungsgruppe. von https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-betone-tailed-and-two-tailed-tests/ (Zugriff auf May 16, 2019).

Handbuch zur technischen Statistik. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm