Eine Einführung in Wahrscheinlichkeitsrechnung und Statistik

Foto von Darius Soodmand auf Unsplash
"Wahrscheinlichkeitstheorie sollte unter einen Bus geworfen werden" - Experte für künstliche Intelligenz, Carlos E. Perez.

Wir beginnen mit dem Studium der Wahrscheinlichkeitstheorie und vertiefen uns dann in die Statistik.

Wahrscheinlichkeit und Statistik werden in der Informatik ständig verwendet. Maschinelles lernen? Das ist wahrscheinlich. Datenwissenschaft? Es ist eine Statistik.

Hohe Wahrscheinlichkeit

Die Wahrscheinlichkeit bietet eine Möglichkeit, die Unsicherheit, die von unserer Faulheit und Unwissenheit herrührt, zusammenzufassen. Mit anderen Worten, Wahrscheinlichkeit ermittelt die Wahrscheinlichkeit, dass etwas passiert.

Diskrete Wahrscheinlichkeit

Diskrete Wahrscheinlichkeit ist eine Formalisierung der Wahrscheinlichkeitstheorie, die die Wahrscheinlichkeit für die Verwendung in Computern aus der diskreten Mathematik beschreibt.

Bei der Lösung von Problemen mit diskreter Wahrscheinlichkeit beginnen wir mit der Verwendung von Wahrscheinlichkeitsräumen. Ein Wahrscheinlichkeitsraum ist die Paarung (S, P), wobei:

  1. S ist der Probenraum aller Elementarereignisse X ∈ S. Mitglieder von S werden Ergebnisse des Experiments genannt.
  2. P ist die Wahrscheinlichkeitsverteilung, dh, jedem Elementarereignis X ∈ S wird eine reelle Zahl P (x) zugewiesen, so dass die Wahrscheinlichkeit zwischen 0 und 1 liegt und andP (x) = 1 ist

Für Punkt 2 wird P (x) als "die Wahrscheinlichkeit von X" gelesen. Die Wahrscheinlichkeit muss immer zwischen 0 und 1 liegen oder wird häufig als 0% und 100% dargestellt.

Beispiel

Stellen Sie sich vor, Sie werfen eine Münze. Der Wahrscheinlichkeitsraum ist (S, P).
Das Ergebnis S ist ** S = {H, T} **, wobei S entweder Kopf oder Zahl sein kann.
Daher ist die Wahrscheinlichkeit
P (H) = P (T) = 1/2
Die Wahrscheinlichkeit für Köpfe entspricht der Wahrscheinlichkeit für Schwänze, die der Hälfte entspricht. Mit anderen Worten, wenn Sie eine Münze werfen, besteht die Möglichkeit, dass sie mit dem Kopf nach oben oder mit dem Schwanz nach oben geworfen wird.

Eine Wahrscheinlichkeitsverteilung gilt als einheitlich, wenn jedes Ergebnis gleich wahrscheinlich ist.

Eine Einführung in die Lösung von Wahrscheinlichkeitsproblemen

Viele, viele Menschen, darunter Universitätsprofessoren und Doktoranden, können Wahrscheinlichkeitsprobleme nicht lösen. Wie später in diesem Artikel erörtert, ist das Monty Hall-Problem ein berühmtes Problem und ein gutes Beispiel dafür.

Angenommen, Sie sind in einer Spielshow und haben die Wahl zwischen drei Türen: Hinter einer Tür befindet sich ein Auto. hinter den anderen Ziegen. Sie wählen eine Tür, sagen Sie №1, und der Gastgeber, der weiß, was sich hinter den Türen befindet, öffnet eine weitere Tür, sagen Sie №3, die eine Ziege hat. Dann sagt er zu Ihnen: „Möchten Sie Tür Nr. 2 auswählen?“ Ist es für Sie von Vorteil, Ihre Wahl zu ändern?

Diese Frage wurde an Voe Savant geschickt, der zu dieser Zeit den höchsten IQ der Welt hatte. Voe Savant antwortete, dass es eine 2/3-Chance gibt, das Auto zu gewinnen, wenn Sie wechseln, und eine 1/3-Chance, wenn Sie nicht wechseln.

Tausende Menschen stritten sich über das Monty-Hall-Problem, und viele Universitätsprofessoren für Mathematik sagten, dass das Analphabetentum in Amerika weit verbreitet sei, weil die vorgeschlagene Lösung des Monty-Hall-Problems falsch sei.

Dieses Problem trat in jeder Matheklasse in der folgenden Woche auf und Tausende von Lesern, von denen viele über einen Doktortitel in Mathematik verfügen, schrieben, um zu erklären, dass Savant falsch lag. Selbst Paul Erdős, einer der berühmtesten Mathematiker der Welt, sagte, Savant habe sich geirrt.

Leider hatte Savant recht. Dies ist ein einfaches Wahrscheinlichkeitsproblem, das, wenn es formal definiert ist, erklärt werden kann. Viele der Mathematiker verwendeten ihre Intuition, um dieses Problem zu lösen, und befolgten nicht die Schritte, um ein Wahrscheinlichkeitsproblem zu lösen, das im Folgenden beschrieben wird.

Bevor Sie ein Wahrscheinlichkeitsproblem lösen, müssen Sie einige Schritte ausführen, um zu beweisen, dass Sie das Problem vollständig verstehen.

Probenraum

Der Probenraum ist die Menge, die alle möglichen Ergebnisse enthält.

Bei einer Münze ist der Probenraum also {Kopf, Zahl}, da die Münze nur auf Kopf oder Zahl landen kann.

Ergebnis

Ein Ergebnis besteht aus allen Informationen eines Experiments, nachdem das Experiment durchgeführt wurde. Wenn du eine Münze wirfst und sie auf den Köpfen landet, ist das Ergebnis {heads}.

Wahrscheinlichkeitsraum

Der Wahrscheinlichkeitsraum ist der Probenraum, aber auf jedes mögliche Ergebnis wird eine Wahrscheinlichkeit angewendet. Mit dem Münzwurf ist der Wahrscheinlichkeitsraum {(Heads, 0.5), (Tails, 0.5)}.

Die Gesamtwahrscheinlichkeit aller Wahrscheinlichkeiten im Wahrscheinlichkeitsraum muss gleich 1 sein. Keine einzelne Wahrscheinlichkeit darf kleiner als 0 oder größer als 1 sein.

Viele leistungsstarke Studenten erzählen mir, dass sie versuchen, sich so gut wie möglich vorzustellen, womit sie es zu tun haben.

Beispiel

Nehmen wir an, wir würfeln mit 6 Seiten und wollen die Wahrscheinlichkeit berechnen, dass wir eine 4 bekommen.

  1. Zählen Sie die Anzahl der möglichen Ereignisse. Die Würfel haben 6 Seiten. Es gibt also 6 mögliche Ereignisse
  2. Entscheiden Sie, welches Ereignis Sie auf Wahrscheinlichkeit untersuchen. Das Problem lässt uns wissen, dass wir versuchen, eine Vier zu würfeln.
  3. Zählen Sie die Anzahl der Chancen, dass Köpfe aus den möglichen Ereignissen auftreten können. Es gibt nur eine Seite des Würfels mit 4 Punkten, daher gibt es nur eine Chance, vier von insgesamt 6 Chancen zu würfeln.
  4. Schreiben Sie die Anzahl der Chancen, mit denen Köpfe über die Anzahl der möglichen Ereignisse in einem Bruch auftreten können. (1/6)

Obwohl es sich um ein einfaches Problem handelt, werden die wichtigen Schritte bei der Lösung schwierigerer Wahrscheinlichkeitsprobleme erläutert.

Veranstaltungen

Ereignisse werden in der Wahrscheinlichkeitstheorie oft übersehen und es wird nicht viel darüber gesprochen. Deshalb habe ich es mir zur Aufgabe gemacht, zu erläutern, was ein Ereignis ist und warum sie in diesem Abschnitt wichtig sind.

Ein Ereignis ist eine Reihe von Ergebnissen eines Experiments in Wahrscheinlichkeit. In der Bayes'schen Wahrscheinlichkeit wird ein Ereignis als Beschreibung des nächstmöglichen Zustandsraums unter Verwendung des Wissens aus dem aktuellen Zustand definiert.

Ein Ereignis wird häufig mit dem Zeichen "e" gekennzeichnet. Wie die Wahrscheinlichkeit, P (e) eines Ereignisses zu sein. Ereignisse sind in der Wahrscheinlichkeit viel wichtiger, als die meisten Leute sie ausmachen.

Ein Ereignis kann das Ergebnis eines Würfels wie einer „5“ sein oder eines Schwanzes, wenn eine Münze geworfen wird.

Ereignisse können sein:

  1. Unabhängig - Jedes Ereignis wird nicht von vorherigen oder zukünftigen Ereignissen beeinflusst.
  2. Abhängig - Ein Ereignis ist von anderen Ereignissen betroffen
  3. Gegenseitig ausschließend - Ereignisse können nicht gleichzeitig stattfinden

Warum sind Events wichtig?

Nun, Ereignisse ermöglichen es uns, einige ziemlich erstaunliche Dinge mit Wahrscheinlichkeit zu tun. Nehmen wir zum Beispiel das Monty Hall Problem. Versuchen Sie die folgende Frage:

Eine der Türen oben enthält einen schicken Sportwagen, die anderen 2 Türen enthalten Ziegen. Wähle eine Tür, die du magst, mach weiter!

Angenommen, Sie haben Nummer 1 ausgewählt. Der Game-Show-Moderator öffnet eine Tür mit einer Ziege. Nehmen wir also an, wir öffnen Tür Nummer 3 und sie enthält eine Ziege. Sie wissen also, dass Tür 1 Ihre Wahl ist, Tür 3 eine Ziege und Tür 2 unberührt ist. Hinweis: Es spielt keine Rolle, welche Tür Sie ursprünglich ausgewählt haben. Wichtig ist, dass Sie eine Tür auswählen und der Gameshow-Host eine Tür mit einer Ziege öffnet.

Die Spielshow fragt dann: „Sind Sie sicher, dass Tür Nummer 1 richtig ist? Willst du wechseln? "

Wie geht's?

Nun, die Wahrscheinlichkeit besagt, dass wir Tür Nummer 2 auswählen sollten, so wie Sie es tun würden. Warum? Nun, Tür Nummer 2 hat eine 2/3 Chance oder 77% Chance, das Auto zu halten, und Tür Nummer 1 (Ihre ursprüngliche Wahl) hat eine 33% Chance, ein Auto zu halten.

Whaaaaattt ??

Dies ist ein bekanntes Wahrscheinlichkeitsproblem, das Monty Hall-Problem. Es zeigt, wie Ereignisse die Wahrscheinlichkeiten beeinflussen können. Eine Erklärung dazu finden Sie in diesem Numberphile-Video:

Die Wahrscheinlichkeit der Ergänzung eines Ereignisses

Die Ergänzung eines Ereignisses sind alle anderen Ergebnisse eines Ereignisses.

Wenn das Ereignis beispielsweise "Tails" ist, lautet die Ergänzung "Heads". Wenn das Ereignis {Montag, Dienstag} ist, ist die Ergänzung {Mittwoch, Donnerstag, Freitag, Samstag, Sonntag}.

Wenn Sie die Wahrscheinlichkeit von p (x) kennen, können Sie das Kompliment finden, indem Sie 1 - P (x) ausführen. Da alle Wahrscheinlichkeiten gleich 100% sind, können wir dies als 1 ausdrücken.

Warum ist das Komplement nützlich?

Manchmal ist es einfacher, zuerst das Komplement vor der tatsächlichen Wahrscheinlichkeit zu berechnen. Zum Beispiel:

Berechnen Sie die Wahrscheinlichkeit, dass die beiden Punkte unterschiedlich sind, wenn 2 Würfel geworfen werden

Eine andere Punktzahl ist wie eine 2 und 3 oder eine 1 und 6. Die Menge aller möglichen unterschiedlichen Punkte ist ziemlich groß, aber die Summe aller möglichen unterschiedlichen Punkte (Punkte sind gleich) ist ziemlich niedrig. In der Tat ist es:

{(1, 1), (2, 2), (3,3), (4,4), (5,5), (6,6)}

Die Gesamtzahl der verschiedenen Kombinationen beträgt 6 * 6, was 36 entspricht. Die Wahrscheinlichkeit, dass die gleiche Punktzahl erzielt wird, beträgt 6/36 oder 1/6. Jetzt können wir 1/6 von 1 abziehen (man stelle sich 1 als universelle Menge vor), was 5/6 entspricht.

Die Vereinigung zweier Ereignisse (Inklusions-Ausschluss-Prinzip)

Um ein wenig über Mengenlehre zu lernen, klicken Sie hier, um mehr zu erfahren.

Wenn zwei Ereignisse sich gegenseitig ausschließen (sie können nicht gleichzeitig auftreten), ist die Wahrscheinlichkeit, dass sie gleichzeitig auftreten, 0.

Wenn sich zwei Ereignisse nicht gegenseitig ausschließen, ist die Wahrscheinlichkeit der Vereinigung der beiden Ereignisse die Wahrscheinlichkeit, dass beide Ereignisse addiert werden.

Der Grund, warum wir den Schnittpunkt von A und B wegnehmen, ist, dass P (A) + P (B) alles enthält, was es in A oder B gibt, aber aufgrund der Funktionsweise der Vereinigung wird es einen Schnittpunkt geben, der 2 A und ergibt 2 B's, also müssen wir die Kreuzung entfernen, um die Wahrscheinlichkeit jedes Ereignisses zu erhalten.

Mit anderen Worten, A enthält Elemente, die sich in B befinden, und B enthält Elemente, die sich in A befinden.

Union der drei unzusammenhängenden Ereignisse

Angenommen, ich würde dreimal einen fairen Würfel würfeln.
S ist die Folge von Ereignissen über die Länge drei, so dass {1..6) ³}
P (x) = 1/6 * 6 * 6 = 1/216 für alle x ∈ S
Mit welcher Wahrscheinlichkeit würfeln wir mindestens eine 6?
Also, weil wir die Würfel dreimal werfen, sei E1 die Wahrscheinlichkeit, dass der Würfelwurf eine 6 ist, E2 = P (6), E3 = P (6)
Wir würden gerne trainieren
P (E1∪E2∪E3)

Denken Sie daran, die Vereinigung der Wahrscheinlichkeiten ist P (A) + P (B) - Schnittpunkt von A und B. Wir wollen die Vereinigung von A, b und C, die auch den Schnittpunkt in der Mitte enthält. Wir entfernen die Schnittpunkte von A B, A C, B C und addieren die Schnittpunkte aller 3, um den Mittelteil zu erhalten.

Das ist also nur:

Sie haben vielleicht bemerkt, dass die Kreuzung 6/216 ist. Dies mag verwirrend erscheinen, da wir hierfür kein Set von Hand definiert haben. Sorgen Sie sich nicht: Die Formel für die Kreuzung lautet:

Beispielfrage

Wie hoch ist die Wahrscheinlichkeit, dass bei 4 Münzen mindestens 3 davon auftauchen?

Das Ereignis, dass mindestens 3 Münzen auftauchen, ist die Vereinigung von fünf nicht zusammenhängenden Ereignissen, dass alle Münzen auftauchen (1 nicht zusammenhängendes Ereignis) und dass 4 festgelegte Münzen (4 nicht zusammenhängende Ereignisse) auftauchen. Das mag verwirrend klingen, deshalb erkläre ich es visuell. Wenn Sie nicht verwirrt sind, können Sie den nächsten Absatz überspringen.

Ein disjunktes Ereignis bedeutet, dass Ereignisse nicht gleichzeitig auftreten können. Das erste disjunkte Ereignis ist "Was ist, wenn alle Münzen nach oben kommen?" Das sind die 5 Münzen {T, T, T, T, T}. Die anderen 4 Ereignisse sind was, wenn eine bestimmte Münze auftaucht? Das erste disjunkte Ereignis ist also {H, T, T, T}, das zweite ist {T, H, T, T} usw. Da wir mindestens 3 Münzen benötigen, um Schwänze zu sein, {H, H, T, T} ist nicht gültig.

Die Vereinigung von 5 disjunkten Ereignissen ist die Wahrscheinlichkeit, dass jedes Ereignis zusammen auftritt.

Lassen Sie uns zunächst die Wahrscheinlichkeit herausfinden, dass jede Wahrscheinlichkeit innerhalb dieses Raums möglich ist. Der Problemraum ist {H, T} über 4 verschiedene Münzen. Jede Münze hat eine halbe Chance, Kopf oder Zahl zu sein, und es gibt 4 Münzen, also ist 1/2 * 1/2 * 1/2 * 1/2 die 1/16 Chance für ein mögliches Ergebnis im Zustandsraum.

Daher ist die Wahrscheinlichkeit eines Ereignisses P (1/16)

Wisse, dass wir wissen, wie wahrscheinlich es ist, eine beliebige Kombination von {H, T} über die 4 Münzen zu erhalten. Wir können damit herausfinden, wie wahrscheinlich es ist, dass die 5 disjunkten Ereignisse eintreten. Da jedes Ereignis disjunkt ist, wirkt sich ein Ereignis nicht auf ein anderes aus. Es handelt sich also nur um 1/16 * 5 (für die 5 disjunkten Ereignisse), was zu 5/16 führt.

Somit beträgt die Wahrscheinlichkeit, dass mindestens 3 Münzen nach oben kommen, 5/16.

Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit ist, dass ein Ereignis nur eintreten kann, wenn ein anderes Ereignis eingetreten ist. Beginnen wir mit einem einfachen Problem:

Johns Lieblingsprogrammiersprachen sind Haskell und x86 Assembley. A soll das Ereignis darstellen, bei dem er eine Klasse zum Lernen von Haskell zwingt, und B soll das Ereignis darstellen, bei dem er eine Klasse zum Lernen von x86-Assembly zwingt.
An einem zufällig ausgewählten Tag wird John von Satan selbst übernommen, sodass die Wahrscheinlichkeit von P (A) 0,6 und die Wahrscheinlichkeit von P (B) 0,4 beträgt und die bedingte Wahrscheinlichkeit, dass er Haskell unterrichtet, vorausgesetzt, er hat x86 Assembley unterrichtet dieser Tag ist P (A | B) = 0,7.
Was ist P (B | A), die Bedingung, die John x86 Assembley lehrt, wenn er Haskell lehrt, auf das nächste Hundertstel gerundet?

Die Wahrscheinlichkeit von P (A und B) = P (A | B) * P (B) lautet "|", wie in "A | B" angegeben, und lautet "A - B - gegeben". Es kann auch als P (B | A) * P (A) geschrieben werden.

Der Grund dafür, dass es sich um P (A | B) * P (B) handelt, ist, dass bei gegebener Wahrscheinlichkeit von "Bei gegebener Wahrscheinlichkeit, dass B eintritt, A eintritt" und die Wahrscheinlichkeit von B P (B) ist. (A | B) ist eine andere Wahrscheinlichkeit als P (B) und P (A und B) kann nur auftreten, wenn P (B) auftritt, was dann zulässt, dass P (B | A) auftritt.

Wir können dies also in eine mathematische Formel umwandeln:

P (A und B) = P (A | B) · P (B) = 0,7 · 0,5 = 0,35
Löse es
P (B | A) * P (A)
P (A) = 0,5
So
0,6 * P (B | A)
Jetzt wissen wir nicht, was P (B | A) ist, aber wir wollen es herausfinden. Wir wissen, dass P (B | A) ein Teil von P (A und B) sein muss, weil P (A und B) die Wahrscheinlichkeit ist, dass beide Ereignisse so auftreten ...
P (A und B) = 0,35
0,35 = P (B | A) * 0,5
Mit einfacher algebraischer Manipulation
0,35 / 0,5 = P (B | A)
P (B | A) = 0,7

Sehen Sie sich dieses Video der Khan Academy an, um eine visuelle Erklärung der bedingten Wahrscheinlichkeit zu erhalten

Bayes Therom

Bayes Therom ermöglicht es uns, die Wahrscheinlichkeit von Ereignissen zu bestimmen, wenn wir die Ereignisse vorher kennen. Es ist eher eine Beobachtung als eine Beobachtung, da es die ganze Zeit korrekt funktioniert. Bayes therom wird von Thomas Bayes erstellt, der diese Beobachtung in einem Notizbuch notierte. Er hat es nie veröffentlicht, deshalb wurde er während seines Lebens nicht für sein berühmtes Werk anerkannt.

Bayes Therom von https://betterexplained.com/articles/colorized-math-equations/

Die Wahrscheinlichkeit von A bei B ist die Wahrscheinlichkeit von B bei A (Anmerkung: hier ist es umgekehrt) mal die Wahrscheinlichkeit von A geteilt durch die Wahrscheinlichkeit von B.

Das klingt natürlich verwirrend, daher kann es hilfreich sein, ein Beispiel zu sehen.

Angenommen, ein neuer Strang mexikanischen schwarzen Teerheroins wird auf den Straßen gefunden und die Polizei möchte feststellen, ob jemand ein Benutzer ist oder nicht.
Die Droge ist zu 99% sensitiv, dh der Anteil der Personen, die korrekt als Drogenkonsument identifiziert wurden.
Das Medikament ist zu 99% spezifisch, das heißt, der Anteil der Personen, bei denen richtig festgestellt wurde, dass sie das Medikament nicht einnehmen.
Hinweis: Sowohl für Benutzer als auch für Nichtbenutzer gibt es eine 1% ige False-Positive-Rate.
Angenommen, 0,5% der Menschen bei John Moores nehmen die Droge. Wie hoch ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter John Moores-Student mit einem positiven Test ein Benutzer ist?

Sobald Sie alle Informationen haben, müssen Sie nur noch die Werte ersetzen und sie herausarbeiten.

Nachfolgend finden Sie ein Video, in dem Bayes Therom intuitiv anhand von Beispielen aus der Praxis, der Geschichte und der Philosophie von Bayes Therom erklärt wird:

Wenn Sie sehen möchten, wie Bayes Therom beim maschinellen Lernen verwendet wird, lesen Sie dies!

Zufällige Variablen

Eine Zufallsvariable ist eine Funktion, nicht zufällig oder eine Variable.

Eine Zufallsvariable muss den Abtastraum S nicht direkt angeben, sondern weist eine Wahrscheinlichkeit zu, dass eine Variable (X) einen bestimmten Wert annimmt. Im Gegensatz zu früheren Wahrscheinlichkeiten, bei denen wir einen Stichprobenraum definieren mussten, ist uns nur die Wahrscheinlichkeit selbst wichtig.

Zufallsvariablen werden oft als P (f = r) geschrieben, wobei f der Ereignisname und r die Wahrscheinlichkeit ist.

Der muss wahrscheinlich wie alle Wahrscheinlichkeitswerte zwischen 0 und 1 liegen.

Wir schreiben NOT (mit einer beliebigen Notation) (F = r) für den Fall, dass F jede Variable außer R ist.

Ein Beispiel dafür

P (Die = 1) = 1/6
Die Wahrscheinlichkeit, dass dieser Würfel den Wert 1 annimmt, ist 1/6
NOT P (Die = 1) ist das Ereignis, dass der Würfel ist
(Die = 2) OR (Die = 3) OR (Die = 4) OR (Die = 5) Or (Die = 6)

Das Komplement von P (f = r); Die zur Darstellung von Zufallsvariablen verwendete Notation ist 1 - P (f = r), wobei 1 100% oder nur 1 ist.

Manchmal verwenden wir Symbole (Wörter) anstelle von Zahlen, um Zufallsvariablen darzustellen. Das ist wirklich nützlich. Nehmen wir an, das Wetter kann 1 von 4 Zuständen sein: sonnig, regen, bewölkt, Schnee. Anstatt also Wetter = 1 zuzuweisen, können wir Wetter = sonnig schreiben.

Manchmal ist es langwierig, alle Wahrscheinlichkeiten wie P (Wetter = sonnig) = 0,7 oder P (Wetter = Regen) = 0,3 aufzuschreiben. Wenn die Werte der Reihe nach festgelegt sind, können wir P (Wetter) = (0,7, 0,3) schreiben.

Wir verwenden das fette P, um anzuzeigen, dass das Ergebnis ein Zahlenvektor ist, der die einzelnen Wetterwerte darstellt. Ein Beispiel hierfür ist: P (Wetter) = (0,7, 0,3).

Gemeinsame Wahrscheinlichkeitsverteilungen

Eine gemeinsame Wahrscheinlichkeitsverteilung ermöglicht es Ihnen, mehrere Zufallsvariablen zu haben, normalerweise 50 oder 100, aber unsere Beispiele enthalten weniger.

Eine mögliche gemeinsame Wahrscheinlichkeitsverteilung P (Wetter, Hohlraum) für die Zufallsvariablen Wetter und Hohlraum ergibt sich aus der folgenden Tabelle:

Dies ist eine gemeinsame Wahrscheinlichkeitsverteilung für Zahnhöhlen und das Wetter. Cavity ist ein Boolescher Wert, entweder 0 oder 1, und es gibt 4 Optionen für das Wetter. Wenn wir eine gemeinsame Wahrscheinlichkeitsverteilung von P (Weather, Cavity) erstellen möchten, erstellen wir die obige Tabelle.

Die Wahrscheinlichkeit für Wetter = sonnig und Hohlraum = 1 beträgt 0,144. Die Wahrscheinlichkeit der gemeinsamen Verteilung beträgt 1.

Vollständige gemeinsame Wahrscheinlichkeitsverteilung

Wir nennen es eine vollständige gemeinsame Wahrscheinlichkeitsverteilung, wenn alles, was in der Domäne relevant ist, enthalten ist. Im Gegensatz zum obigen Beispiel befinden sich Hohlräume und Wetter nicht in derselben Domäne.

Angenommen, die Zufallsvariablen Zahnschmerzen, Hohlraum, Fang beschreiben einen Zahnarztbesuch vollständig

Dann ist eine vollständige gemeinsame Wahrscheinlichkeitsverteilung durch die folgende Tabelle gegeben:

Von hier

Marginalisierung

Man kann die Grenzwahrscheinlichkeiten von Zufallsvariablen berechnen, indem man die Variablen summiert. Wenn Sie beispielsweise im obigen Beispiel die Wahrscheinlichkeit von P (Cavity = 1) summieren möchten, werden Sie alle Wahrscheinlichkeiten summieren, bei denen der Hohlraum gleich 1 ist.

Bedingte / hintere Wahrscheinlichkeit

Wir können die bedingte / nachbedingte Wahrscheinlichkeit einer vollständigen gemeinsamen Verteilung auf dieselbe Weise berechnen, wie wir es normalerweise tun würden.

Man beachte, dass (F, G) F (und Schnittpunkt) G bedeutet.

Erwarteter Wert

Der erwartete Wert ist genau so, wie er sich anhört. Wie erwarten Sie den Wert? Sie können dies verwenden, um die durchschnittliche Punktzahl eines Würfelwurfs über 6 Würfe oder alles, was wirklich mit der Wahrscheinlichkeit zusammenhängt, in der er eine Value-Eigenschaft hat, zu berechnen.

Bei den Ergebnissen = (1, 2) und den Wahrscheinlichkeiten = (1/8, 1/4) ist der erwartete Wert E [x] E [x] = 1 (1/8) + 2 (1/4) = 0,625.

Angenommen, wir zählen Fahrradtypen und haben vier Fahrräder. Wir weisen jedem Fahrrad einen Code zu, wie folgt:

Für jedes Fahrrad geben wir eine Nummer. Wir können sehen, dass wir für jede Codierung 2 Bits verwenden. Entweder 0 oder 1. Für den erwarteten Wert benötigen wir nicht nur den Wert für die Variable, sondern auch die Wahrscheinlichkeit. Jedes Fahrrad hat die gleiche Wahrscheinlichkeit. Somit hat jedes Fahrrad eine 25% ige Chance aufzutauchen.

Wenn wir den erwarteten Wert berechnen, multiplizieren wir die Wahrscheinlichkeit mit 2 Bits, was uns ergibt:

Was ist, wenn die Wahrscheinlichkeit nicht gleich war?

Wir müssen die Anzahl der Bits mit der Wahrscheinlichkeit multiplizieren

Entropie

Die Entropie ist ein Maß für die mit einer Zufallsvariablen verbundene Unsicherheit. Es ist definiert als die erwartete Anzahl von Bits, die erforderlich sind, um den Wert der Variablen mitzuteilen.

Entropy versucht, die Unsicherheit einer Sache zu beziffern.

Statistiken

Statistik ist keine Wahrscheinlichkeitstheorie. Statistik ist die reale Anwendung von Ideen, die aus der Wahrscheinlichkeitstheorie stammen. Diese können einschließen:

  1. Psepholohy - Analyse von Wahlmustern
  2. Datenanalyse - Data Science
  3. Qualitätskontrolle

Probenraum

Ein Beispielraum ist eine Sammlung von Daten als einzelne endliche Menge, die ungefähr so ​​aussieht:

Wobei S der Probenraum ist.

Wahrscheinlichkeitsverteilung

Nehmen wir an, wir möchten eine zufällige Person aus einer Reihe von Personen auswählen, die die Sonnenzeitung lesen. Die Wahrscheinlichkeit, dass eine einzelne Person ausgewählt wird, beträgt:

Eine Wahrscheinlichkeitsverteilung ist ein Stichprobenraum, in dem jedem Artikel ein Wahrscheinlichkeitswert zwischen 0 und 1 zugewiesen ist, der angibt, wie wahrscheinlich es ist, dass er ausgewählt wird.

Wenn s ein Element von S ist, das heißt, wenn ein Element s ein Teil der Menge (Gruppe) des Abtastraums S ist, dann gilt Folgendes:

Wenn Sie die Wahrscheinlichkeit jedes Elements im Probenraum addieren, muss die Summe 1 ergeben.

Wenn wir diesen Datensatz abtasten möchten, können wir einfach jede einzelne Person im Datensatz durchgehen, um ein gutes Gefühl für die Allgemeinheit dieser Stichprobe zu bekommen. Wenn sich jedoch 7 Milliarden Menschen in diesem Datensatz befinden, kann dies sehr lange dauern.

Es gibt zwei Möglichkeiten, wie wir die Daten jetzt abtasten können.

Wir können entweder zufällig Personen aus dem Datensatz auswählen und diese als Stichprobe verwenden oder eine bestimmte Teilmenge der zu verwendenden Daten von Hand auswählen.

Ein einheitlicher Datensatz ist einer, bei dem alle gleich wahrscheinlich ausgewählt werden. Eine voreingenommene Stichprobe ist nicht einheitlich, die Personen wurden handverlesen.

Unvoreingenommene Datensätze scheinen „fair“ zu sein, während unvoreingenommene „unfair“ zu sein scheinen. Mit einer unbefangenen Stichprobe können wir das Ergebnis nicht festlegen. Wir können die Daten nicht zu unseren Gunsten ändern.

Manchmal ist uns „Fairness“ egal, und manchmal können unbefangene Stichproben zu unerwarteten Ergebnissen führen.

Zufällige Variablen

Erinnern Sie sich an früher, als wir sagten, dass Zufallsvariablen Funktionen sind? Wenn Sie eine Zufallsvariable auf einen Stichprobenraum anwenden, ist die Grundgesamtheit wie folgt:

Sie erhalten einen voreingenommenen Datensatz aus diesem Beispielraum. Es ist voreingenommen, weil wir nicht zufällig Leute im Set auswählen. Wir wenden einen Filter an - eine Regel für die Menge, um eine Teilmenge der Grundgesamtheit zu erhalten.

Professor Paul Dunne hatte folgendes über Zufallsvariablen zu sagen:

Der Begriff einer Wahrscheinlichkeitsverteilung. Dies ist die Beschreibung der Wahrscheinlichkeit, dass ein Mitglied einer Population (dh eine Menge) ausgewählt wird. Wenn wir zum Beispiel einen einzelnen Würfel betrachten, hat die Population 6 Mitglieder: {1,2,3,4,5,6} Wir haben möglicherweise eine Wahrscheinlichkeitsverteilung, die einem fairen Würfel entspricht, sodass jeder eine Wahrscheinlichkeit von 1/6 des Seins hat gewählt. Wenn es sich um einen vorgespannten Chip handelt, könnte die Wahrscheinlichkeitsverteilung beispielsweise P [6] = 5/6 P [1] = 0 und P [2] = P [3] = P [4] = P [5] = sein 1/24
 Damit ist die Summe der Einzelergebnisse 1.
Eine Zufallsvariable wird am besten gedacht, indem man zunächst die Wahrscheinlichkeiten vergisst und sich eine beliebige Funktion aus der Bevölkerung überlegt, zum Beispiel die reellen Zahlen. Im Beispiel könnten wir jetzt im Gegensatz zur Wahrscheinlichkeitsverteilungsfunktion f (x) = x² wählen. Die gewählte Funktion unterliegt keinen Einschränkungen: Mitglieder der Grundgesamtheit müssen keine Werte zwischen 0 und 1 haben, die Summe der Funktionswerte nicht müssen sich zu 1 addieren. Der Begriff „Zufallsvariable“ wird verwendet, wenn eine Funktion mit einer Wahrscheinlichkeitsverteilung kombiniert wird. Jetzt wird die Verteilung nicht als einfache Auswahl eines Mitglieds der Population behandelt, sondern als zufällige Auswahl des Werts der Funktion, dh anstatt das ausgewählte Mitglied (z. B. Ergebnis eines Würfels) als Funktionswert für dieses Mitglied zurückzugeben gemeldet (zB das Quadrat der geworfenen Zahl).

Mittelwert mit zufälligen Variablen

Bei einer Grundgesamtheit S, deren Mitglieder nach einer Verteilung befragt werden, ist D. Der mittlere (erwartete) Wert der Zufallsvariablen r (s) unter D mit bezeichnet

Dies bedeutet lediglich, dass der erwartete Wert eine "gewichtete" Summe (über alle Mitglieder der Gesamtbevölkerung, S) ist von:

die Chance, dass D s multipliziert mit dem Wert der von r zurückgegebenen Funktion für s auswählt, dh r (s) .In Unbias Distributions

Unvoreingenommene Distributionen

Bei unparteiischen Verteilungen ist der erwartete Wert nur die Gesamtsumme aller Zufallsvariablen geteilt durch die Populationsgröße:

Dies ist nur Ihr typischer Mittelwert, den Sie in der Schule lernen. Mein Lehrer brachte mir ein cooles Lied bei, um mich an die Unterschiede zwischen Mittelwert, Bereich, Median usw. zu erinnern.

Hey diddle diddle der Median ist die Mitte, die wir addieren und für den Mittelwert dividieren. Der Modus ist der, den Sie am meisten sehen, und die Reichweite ist der Unterschied zwischen!

Angenommen, S ist eine Sammlung von Ergebnissen, die durch 6.000-maliges Würfeln auftreten können.

Dann würden Sie für einen „fairen“ Würfel erwarten, dass Sie jedes Ergebnis 1.000 Mal sehen.

Nehmen wir an, wir haben ein Spiel, bei dem die Spieler einen Einsatz von 1 £ machen und wenn der Würfel auf einem von {1, 2, 3} landet, erhält der Spieler danach 2 £, andernfalls verlieren sie ihren Einsatz. In einem fairen Spiel kann der Spieler damit rechnen, die Hälfte der Zeit 3/6 = 1/2 = zu gewinnen.

Vertrauensprüfung

Angenommen, die Hypothese für das Ergebnis eines Experiments lautet X, und das tatsächliche Ergebnis lautet Y.

Das Ergebnis Y ist so weit von der Vorhersage entfernt, dass die Hypothese falsch ist. Dies nennt man Signifikanz.

Eine Nullhypothese besagt, dass das Ergebnis X ist.

Die Signifikanz gibt an, dass die Wahrscheinlichkeit des beobachteten Ergebnisses mit dem vorhergesagten Ergebnis „übereinstimmt“.

Eine Hypothese kann mit beobachteten Ergebnissen mit drei zunehmenden Vertrauensstufen „verworfen“ werden:

  1. Die Wahrscheinlichkeit, dass X bei Y gilt, beträgt höchstens 0,05 (signifikant).
  2. Die Wahrscheinlichkeit, dass X gilt, wenn Y resultiert, beträgt höchstens 0,01 (hoch signifikant).
  3. Die Wahrscheinlichkeit, dass X gilt, wenn Y resultiert, ist 0,001 (sehr hochsignifikant).

Es gibt zwei Arten von Fehlern, die hier auftreten können:

Fehler Typ 1 - Eine richtige Hypothese wird zurückgewiesen. Fehler Typ 2 - Eine falsche Hypothese wird akzeptiert

Messbedeutung

Das Ergebnis des Ereignisses wird dem erwarteten Wert immer näher kommen. Dies kann als Formel ausgedrückt werden, die als Abweichung bezeichnet wird. Denken Sie daran, dass das Ereignis einer Zufallsvariablen in einem Probenraum wie folgt lautet:

Varianz ist nur:

„Wie weit ist ein ausgewähltes Mitglied von der erwarteten Variablen entfernt?“

Sieht das nicht schrecklich aus? Nun, wenn wir die erste Formel einfügen würden, würde das so aussehen:

Sieht das nicht nach der schrecklichsten Formel aus, die es je gab?

Der r (s) -Teil ist die Zufallsvariable, die Teilmenge der Grundgesamtheit. Der Teil ist der erwartete Wert eines zufälligen Mitglieds.

Varianz ergibt immer einen nicht negativen Wert.

Die Standardabweichung ist nur diese Formel mit Quadratwurzel.

Es wird eigentlich häufiger geschrieben als:

Ich wollte nur sehen, wie konvulut die Formel werden könnte.

Die Standardabweichung ist nur:

"Wie weit ist der größte (oder kleinste) Datenpunkt vom Durchschnittswert entfernt?"

Q-Test

Ausgehend von einem vorhergesagten Ergebnis X eines Experiments und dem tatsächlichen Ergebnis Y. Wenn wir die Standardabweichung für die Umgebung kennen, in der das Experiment festgelegt ist, können wir den Wert berechnen:

Wenn q> 0,01, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,05. Wenn q> 2,33, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,01. Wenn q> 3,09, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,001

Wenn Ihnen dieser Artikel gefallen hat, setzen Sie sich mit mir in Verbindung!

LinkedIn | Twitter | Newsletter