Hypothesentest

Ein einfaches und kurzes Tutorial zum Testen von Hypothesen mit Python

Bild von: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

In diesem Blog werde ich ein kurzes Tutorial zum Testen von Hypothesen mit statistischen Methoden in Python geben. Das Testen von Hypothesen ist Teil der wissenschaftlichen Methode, mit der wir alle vertraut sind, was wir wahrscheinlich in unseren frühen Bildungsjahren gelernt haben. In der Statistik werden jedoch viele Experimente an einer Stichprobe einer Population durchgeführt.

„Um zu bestimmen, was eine Stichprobe von Beobachtungen über eine vorgeschlagene Erklärung aussagt, müssen wir im Allgemeinen einen Rückschluss auf die Vernunft mit Unsicherheit ziehen, oder wie wir Statistiker es nennen. Das Argumentieren mit Unsicherheit ist der Kern der statistischen Inferenz und wird normalerweise mit einer Methode namens Null Hypothesis Significance Testing durchgeführt. “ -Ofen.

Als Beispiel für diesen Blog werde ich einen europäischen Fußballdatensatz verwenden, der auf Kaggle gefunden wurde, und Hypothesentests durchführen. Den Datensatz finden Sie hier.

Schritt 1

Machen Sie eine Beobachtung

Der erste Schritt ist die Beobachtung von Phänomenen. In diesem Fall wird es sein: Gibt es einen Einfluss der Verteidigungsaggression auf die durchschnittlich erlaubten Tore?

Schritt 2

Untersuche die Forschung

Eine gute Einstellung ist, klüger zu arbeiten, nicht härter. Eine gute Sache ist zu sehen, ob bereits Untersuchungen zu Ihrer Beobachtung vorliegen. Wenn ja, kann es bei der Beantwortung unserer Frage hilfreich sein. Wenn wir uns bereits vorhandener Forschungen oder Experimente bewusst sind, können wir unser Experiment besser strukturieren oder sogar unsere Frage beantworten und müssen das Experiment nicht erst durchführen.

Schritt 3

Bilden Sie eine Nullhypothese und eine Alternativhypothese

Eine alternative Hypothese ist unsere fundierte Vermutung und eine Nullhypothese ist einfach das Gegenteil. Wenn die alternative Hypothese besagt, dass es eine signifikante Beziehung zwischen zwei Variablen gibt, gibt die Nullhypothese an, dass es keine signifikante Beziehung gibt.

Unsere Nullhypothese lautet: Es gibt keinen statistischen Unterschied bei den erlaubten Toren bei Teams mit einer Verteidigungsaggressionsbewertung von mindestens 65 gegenüber Teams unter 65.

Alternative Hypothese: Es gibt einen statistischen Unterschied bei den zulässigen Toren bei Teams mit einer Verteidigungsaggressionsbewertung von mindestens 65 oder mehr gegenüber Teams unter 65 Jahren.

Schritt 4

Bestimmen Sie, ob unsere Hypothese ein einseitiger Test oder ein zweiseitiger Test ist.

Einseitiger Test

"Wenn Sie ein Signifikanzniveau von 0,05 verwenden, ermöglicht ein einseitiger Test Ihrem gesamten Alpha, die statistische Signifikanz in der einen Richtung von Interesse zu testen." Ein Beispiel für einen einseitigen Test wäre: "Fußballmannschaften mit einer Aggressionswertung von weniger als 65 erlauben statistisch signifikant mehr Tore als Mannschaften mit einer Wertung von weniger als 65."

Zwei-Schwanz-Test

„Wenn Sie ein Signifikanzniveau von 0,05 verwenden, können Sie mit einem zweiseitigen Test die Hälfte Ihres Alphas die statistische Signifikanz in die eine und die Hälfte Ihres Alphas die statistische Signifikanz in die andere Richtung testen. Dies bedeutet, dass sich in jedem Ende der Verteilung Ihrer Teststatistik 0,025 befinden. “

Mit einem zweiseitigen Test testen Sie die statistische Signifikanz in beide Richtungen. In unserem Fall testen wir die statistische Signifikanz in beide Richtungen.

Schritt 5

Legen Sie ein Schwellenwert-Signifikanzniveau (Alpha) fest.

(Alpha-Wert): Die Grenzschwelle, bei der wir die Nullhypothese ablehnen können. Ein Alpha-Wert kann ein beliebiger Wert sein, den wir zwischen 0 und 1 festlegen. Der in der Wissenschaft am häufigsten verwendete Alpha-Wert ist jedoch 0,05. Ein Alpha von 0,05 bedeutet, dass wir die Nullhypothese ablehnen können, obwohl die Wahrscheinlichkeit, dass die Ergebnisse zufällig sind, bei 5% oder weniger liegt.

P-Wert: Die berechnete Wahrscheinlichkeit, zufällig zu diesen Daten zu gelangen.

Wenn wir einen p-Wert berechnen und er sich auf 0,03 ergibt, können wir dies so interpretieren, dass „die Wahrscheinlichkeit, dass die Ergebnisse, die ich sehe, tatsächlich auf Zufälligkeit oder reines Glück zurückzuführen sind, bei 3% liegt“.

Bild von Learn.co

Unser Ziel ist es, den p-Wert zu berechnen und mit unserem Alpha zu vergleichen. Je niedriger das Alpha, desto strenger der Test.

Schritt 6

Sampling durchführen

Hier haben wir unseren Datensatz namens Fußball. Für unseren Test benötigen wir nur zwei Spalten in unserem Datensatz: team_def_aggr_rating und destination_allowed. Wir werden es nach diesen beiden Spalten herausfiltern und dann zwei Untergruppen für Teams mit einer defensiven Aggressionsbewertung größer oder gleich 65 und Teams mit einer defensiven Aggressionsbewertung unter 65 erstellen.

Um es noch einmal für unseren Hypothesentest zusammenzufassen:

Einfluss der Verteidigungsaggression auf durchschnittlich zulässige Tore. Nullhypothese: Es gibt keinen statistischen Unterschied bei den zulässigen Toren bei Teams mit einer Verteidigungsaggressionsbewertung von mindestens 65 gegenüber Teams unter 65. Alternative Hypothese: Bei Teams mit einer Verteidigungsaggressionsbewertung von mehr ist ein statistischer Unterschied bei den zulässigen Toren zulässig als oder gleich 65 gegen Teams unter 65. Zweiseitiger Test Alpha: 0,05

Jetzt haben wir zwei Listen mit Stichproben, an denen wir statistische Tests durchführen können. Vor diesem Schritt werde ich die beiden Verteilungen zeichnen, um ein Bild zu erhalten.

Schritt 7

Führen Sie einen T-Test mit zwei Stichproben durch

Der t-Test mit zwei Stichproben wird verwendet, um zu bestimmen, ob zwei Populationsmittelwerte gleich sind. Dazu verwenden wir das Python-Modul namens statsmodels. Ich werde nicht zu sehr auf Statistikmodelle eingehen, aber Sie können die Dokumentation hier sehen.

Schritt 8

Bewerten und abschließen

Denken Sie daran, dass das von uns festgelegte Alpha a = 0,05 war. Wie wir aus unseren Testergebnissen sehen können, ist der p-Wert kleiner als unser Alpha. Wir können unsere Nullhypothese ablehnen und mit 95% iger Sicherheit unsere alternative Hypothese akzeptieren.

Danke fürs Lesen! Weitere Informationen zum Testen von Hypothesen finden Sie in diesem Gruppenprojekt auf GitHub, an dem ich beim Testen von Hypothesen beteiligt war.

Ressourcen:

Öfen, Matthew. "Statistik und die" wissenschaftliche Methode "von YourStatsGuru abgerufen. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Einführung in SAS. UCLA: Statistische Beratungsgruppe. von https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (abgerufen im Mai) 16, 2019).

Handbuch zur technischen Statistik. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm