Eine Einführung in Wahrscheinlichkeit und Statistik

Foto von Darius Soodmand auf Unsplash
"Wahrscheinlichkeitstheorie sollte unter einen Bus geworfen werden" - Experte für künstliche Intelligenz, Carlos E. Perez.

Wir beginnen mit dem Studium der Wahrscheinlichkeitstheorie und beschäftigen uns dann mit Statistik.

Wahrscheinlichkeit und Statistik werden in der Informatik ständig verwendet. Maschinelles Lernen? Es ist Wahrscheinlichkeit. Datenwissenschaft? Es ist Statistik.

Hohe Wahrscheinlichkeit

Die Wahrscheinlichkeit bietet eine Möglichkeit, die Unsicherheit zusammenzufassen, die sich aus unserer Faulheit und Unwissenheit ergibt. Mit anderen Worten, die Wahrscheinlichkeit ermittelt die Wahrscheinlichkeit, dass etwas passieren wird.

Diskrete Wahrscheinlichkeit

Diskrete Wahrscheinlichkeit ist eine Formalisierung der Wahrscheinlichkeitstheorie, die die Wahrscheinlichkeit für die Verwendung in Computern aus der diskreten Mathematik beschreibt.

Bei der Lösung von Problemen mit diskreter Wahrscheinlichkeit beginnen wir mit der Verwendung von Wahrscheinlichkeitsräumen. Ein Wahrscheinlichkeitsraum ist die Paarung (S, P), wobei:

  1. S ist der Probenraum aller Elementarereignisse X ∈ S. Mitglieder von S werden als Ergebnisse des Experiments bezeichnet.
  2. P ist die Wahrscheinlichkeitsverteilung, dh es wird jedem Elementarereignis X ∈ S eine reelle Zahl P (x) zugewiesen, so dass seine Wahrscheinlichkeit zwischen 0 und 1 liegt und ∑P (x) = 1

Für Punkt 2 wird P (x) als "die Wahrscheinlichkeit von X" gelesen. Die Wahrscheinlichkeit muss immer zwischen 0 und 1 liegen oder wird oft als 0% und 100% dargestellt.

Beispiel

Stellen Sie sich vor, Sie werfen eine Münze. Der Wahrscheinlichkeitsraum ist (S, P).
Das Ergebnis S ist ** S = {H, T} **, wobei S entweder Kopf oder Zahl sein kann.
Daher ist die Wahrscheinlichkeit
P (H) = P (T) = 1/2
Die Wahrscheinlichkeit für Köpfe ist die gleiche wie die Wahrscheinlichkeit für Schwänze, die der Hälfte entspricht. Mit anderen Worten, wenn Sie eine Münze werfen, besteht eine gleichmäßige Wahrscheinlichkeit, dass sie mit dem Kopf nach oben oder mit dem Schwanz nach oben zeigt.

Eine Wahrscheinlichkeitsverteilung gilt als einheitlich, wenn jedes Ergebnis gleich wahrscheinlich ist.

Eine Einführung in die Lösung von Wahrscheinlichkeitsproblemen

Viele, viele Menschen, einschließlich Universitätsprofessoren und Doktoranden, können Wahrscheinlichkeitsprobleme nicht lösen. Wie später in diesem Artikel erläutert, ist das Monty Hall-Problem ein berühmtes Problem und ein gutes Beispiel dafür.

Angenommen, Sie sind in einer Spielshow und haben die Wahl zwischen drei Türen: Hinter einer Tür steht ein Auto; hinter den anderen Ziegen. Sie wählen eine Tür, sagen Sie №1, und der Gastgeber, der weiß, was sich hinter den Türen befindet, öffnet eine weitere Tür, sagen Sie №3, die eine Ziege hat. Dann sagt er zu Ihnen: "Wollen Sie Tür Nr. 2 öffnen?" Ist es zu Ihrem Vorteil, Ihre Wahl zu ändern?

Diese Frage wurde an Voe Savant gesendet, der zu dieser Zeit den höchsten IQ der Welt hatte. Voe Savant antwortete, dass es eine 2/3 Chance gibt, das Auto zu gewinnen, wenn Sie wechseln, und 1/3, wenn Sie nicht wechseln.

Tausende von Menschen stritten sich über das Monty Hall-Problem, und viele Universitätsprofessoren für Mathematik sagten, dass Analphabetismus in Amerika weit verbreitet sei, weil die vorgeschlagene Monty Hall-Problemlösung falsch sei.

Dieses Problem trat in der folgenden Woche in jedem Mathematikkurs auf, und Tausende von Lesern, von denen viele über einen Doktortitel in Mathematik verfügen, schrieben ein, um zu erklären, dass Savant falsch lag. Sogar Paul Erdős, einer der berühmtesten Mathematiker der Welt, sagte, Savant habe sich geirrt.

Leider hatte Savant recht. Dies ist ein einfaches Wahrscheinlichkeitsproblem, das bei formaler Definition erklärt werden kann. Viele der Mathematiker verwendeten ihre Intuition, um dieses Problem zu lösen, und befolgten nicht die Schritte zur Lösung eines Wahrscheinlichkeitsproblems, die im Folgenden beschrieben werden.

Es gibt einige Schritte, die Sie ausführen müssen, bevor Sie ein Wahrscheinlichkeitsproblem lösen, um zu beweisen, dass Sie das Problem vollständig verstehen.

Probenraum

Der Probenraum ist die Menge, die alle möglichen Ergebnisse enthält.

Bei einer Münze ist der Probenraum also {Kopf, Zahl}, da die Münze nur auf Kopf oder Zahl landen kann.

Ergebnis

Ein Ergebnis besteht aus allen Informationen eines Experiments, nachdem das Experiment durchgeführt wurde. Wenn Sie eine Münze werfen und sie auf Köpfen landet, ist das Ergebnis {Köpfe}.

Wahrscheinlichkeitsraum

Der Wahrscheinlichkeitsraum ist der Probenraum, aber auf jedes mögliche Ergebnis wird eine Wahrscheinlichkeit angewendet. Mit dem Münzwurf ist der Wahrscheinlichkeitsraum {(Heads, 0.5), (Tails, 0.5)}.

Die Gesamtwahrscheinlichkeit aller Wahrscheinlichkeiten im Wahrscheinlichkeitsraum muss gleich 1 sein. Keine einzelne Wahrscheinlichkeit kann kleiner als 0 oder größer als 1 sein.

Viele leistungsstarke Studenten sagen mir, dass sie versuchen, so viel wie möglich zu visualisieren, womit sie es zu tun haben.

Beispiel

Nehmen wir an, wir würfeln mit 6 Seiten und wollen die Wahrscheinlichkeit ermitteln, mit der wir eine 4 erhalten.

  1. Zählen Sie die Anzahl der möglichen Ereignisse. Die Würfel haben 6 Seiten. Es gibt also 6 mögliche Ereignisse
  2. Entscheiden Sie, welches Ereignis Sie auf Wahrscheinlichkeit untersuchen. Das Problem lässt uns wissen, dass wir versuchen, eine Vier zu würfeln.
  3. Zählen Sie die Anzahl der Chancen, dass Köpfe aus den möglichen Ereignissen auftreten können. Es gibt nur eine Seite des Würfels, die 4 Punkte hat, also gibt es nur 1 Chance, vier von insgesamt 6 Chancen zu würfeln.
  4. Schreiben Sie die Anzahl der Wahrscheinlichkeitsköpfe, die auftreten könnten, über die Anzahl möglicher Ereignisse in einem Bruchteil. (1/6)

Obwohl dies ein einfach zu lösendes Problem ist, zeigt es die wichtigen Schritte, die bei der Lösung schwierigerer Wahrscheinlichkeitsprobleme zu unternehmen sind.

Veranstaltungen

Ereignisse werden in der Wahrscheinlichkeitstheorie oft übersehen und es wird nicht viel darüber gesprochen. Deshalb habe ich es mir zur Aufgabe gemacht, zu erläutern, was ein Ereignis ist und warum sie in diesem Abschnitt wichtig sind.

Ein Ereignis ist eine Reihe von Ergebnissen eines Wahrscheinlichkeitsexperiments. In der Bayes'schen Wahrscheinlichkeit wird ein Ereignis so definiert, dass es den nächstmöglichen Zustandsraum unter Verwendung von Wissen aus dem aktuellen Zustand beschreibt.

Ein Ereignis wird oft mit dem Zeichen 'e' bezeichnet. Wie die Wahrscheinlichkeit ist P (e) eines Ereignisses. Ereignisse sind in der Wahrscheinlichkeit viel wichtiger, als die meisten Menschen sie ausmachen.

Ein Ereignis kann das Ergebnis eines Würfelns wie einer „5“ oder eines Schwanzes beim Werfen einer Münze sein.

Ereignisse können sein:

  1. Unabhängig - Jedes Ereignis wird nicht durch vorherige oder zukünftige Ereignisse beeinflusst.
  2. Abhängig - Ein Ereignis wird von anderen Ereignissen beeinflusst
  3. Gegenseitig ausschließend - Ereignisse können nicht gleichzeitig auftreten

Warum sind Ereignisse wichtig?

Nun, Ereignisse erlauben es uns, einige ziemlich erstaunliche Dinge mit Wahrscheinlichkeit zu tun. Nehmen wir zum Beispiel das Monty Hall-Problem. Versuchen Sie die folgende Frage:

Eine der Türen oben enthält einen schicken Sportwagen, die anderen 2 Türen enthalten Ziegen. Wähle eine Tür, die du magst, mach weiter!

Okay, nehmen wir an, Sie haben Nummer 1 ausgewählt. Der Game-Show-Moderator öffnet eine Tür, die eine Ziege enthält. Nehmen wir also an, wir öffnen Tür Nummer 3 und sie enthält eine Ziege. Sie wissen also, dass Tür 1 Ihre Wahl ist, Tür 3 eine Ziege ist und Tür 2 unberührt bleibt. Hinweis: Es spielt keine Rolle, welche Tür Sie ursprünglich ausgewählt haben. Wichtig ist, dass Sie eine Tür auswählen und der Gameshow-Host eine Tür mit einer Ziege öffnet.

Die Spielshow fragt dann: „Sind Sie sicher, dass Tür Nummer 1 richtig ist? Willst du wechseln? "

Wie geht's?

Nun, die Wahrscheinlichkeit besagt, dass wir Tür Nummer 2 wählen sollten, wie Sie es tun würden. Warum? Nun, Tür Nummer 2 hat eine Chance von 2/3 oder 77%, das Auto zu enthalten, und Tür Nummer 1 (Ihre ursprüngliche Wahl) hat eine Chance von 33%, ein Auto zu enthalten.

Whaaaaattt ??

Dies ist ein bekanntes Wahrscheinlichkeitsproblem, das als Monty Hall-Problem bezeichnet wird, und es zeigt, wie Ereignisse die Wahrscheinlichkeiten beeinflussen können. Eine Erklärung hierzu finden Sie in diesem Numberphile-Video unten:

Die Wahrscheinlichkeit der Ergänzung eines Ereignisses

Die Ergänzung eines Ereignisses sind alle anderen Ergebnisse eines Ereignisses.

Wenn das Ereignis beispielsweise Tails ist, lautet die Ergänzung Heads. Wenn die Veranstaltung {Montag, Dienstag} ist, lautet die Ergänzung {Mittwoch, Donnerstag, Freitag, Samstag, Sonntag}.

Wenn Sie die Wahrscheinlichkeit von p (x) kennen, können Sie das Kompliment finden, indem Sie 1 - P (x) ausführen. Da alle Wahrscheinlichkeiten gleich 100% sind, können wir dies als 1 ausdrücken.

Warum ist das Komplement nützlich?

Manchmal ist es einfacher, das Komplement zuerst vor der tatsächlichen Wahrscheinlichkeit zu berechnen. Beispielsweise:

Berechnen Sie die Wahrscheinlichkeit, dass die beiden Punkte unterschiedlich sind, wenn 2 Würfel geworfen werden

Eine andere Punktzahl ist wie eine 2 und 3 oder 1 und 6. Die Menge aller möglichen unterschiedlichen Punktzahlen ist ziemlich groß, aber die Ergänzung aller möglichen unterschiedlichen Punktzahlen (Punktzahlen sind gleich) ist ziemlich niedrig. In der Tat ist es:

{(1, 1), (2, 2), (3,3), (4,4), (5,5), (6,6)}

Die Gesamtzahl der verschiedenen Kombinationen beträgt 6 * 6, was 36 entspricht. Die Wahrscheinlichkeit, eine gleiche Punktzahl zu erhalten, beträgt also 6/36 oder 1/6. Jetzt können wir 1/6 von 1 wegnehmen (stellen Sie sich 1 als universelle Menge vor), was 5/6 entspricht.

Die Vereinigung zweier Ereignisse (Inlcusion-Exclusion-Prinzip)

Dies setzt voraus, dass Sie ein wenig über die Mengenlehre wissen. Klicken Sie hier, um mehr zu erfahren.

Wenn sich zwei Ereignisse gegenseitig ausschließen (sie können nicht gleichzeitig auftreten), beträgt die Wahrscheinlichkeit, dass sie gleichzeitig auftreten, 0.

Wenn sich zwei Ereignisse nicht gegenseitig ausschließen, ist die Wahrscheinlichkeit der Vereinigung der beiden Ereignisse die Wahrscheinlichkeit, dass beide Ereignisse addiert werden.

Der Grund, warum wir den Schnittpunkt von A und B wegnehmen, ist, dass P (A) + P (B) alles enthält, was es in A oder B gibt, aber aufgrund der Funktionsweise der Vereinigung wird es einen Schnittpunkt geben, der 2 A und ergibt 2 B's, also müssen wir die Kreuzung wegnehmen, um die Wahrscheinlichkeit jedes Ereignisses zu erhalten.

Mit anderen Worten, A enthält Elemente in B und B enthält Elemente in A. Durch Hinzufügen von:

Vereinigung von drei disjunkten Ereignissen

Angenommen, ich würde dreimal fair würfeln.
S ist die Menge von Ereignissequenzen über die Länge drei, so dass {1..6) ³}
P (x) = 1/6 * 6 * 6 = 1/216 für alle x ∈ S.
Wie groß ist die Wahrscheinlichkeit, dass wir mindestens eine 6 würfeln?
Da wir also dreimal würfeln, sei E1 die Wahrscheinlichkeit, dass der Würfelwurf eine 6 ist, E2 = P (6), E3 = P (6).
Wir würden gerne trainieren
P (E1∪E2∪E3)

Denken Sie daran, die Vereinigung der Wahrscheinlichkeiten ist P (A) + P (B) - Schnittpunkt von A und B. Wir wollen die Vereinigung von A, b und C, die auch den Schnittpunkt in der Mitte enthält. Wir nehmen die Schnittpunkte von AB, AC, BC weg und addieren den Schnittpunkt aller 3, um den Mittelteil zu erhalten.

Das ist also nur:

Möglicherweise haben Sie bemerkt, dass die Kreuzung 6/216 ist. Dies mag verwirrend erscheinen, da wir dafür kein Set von Hand definiert haben. Keine Sorge: Die Formel für die Schnittmenge lautet:

Beispielfrage

Wie hoch ist bei 4 Münzen die Wahrscheinlichkeit, dass mindestens 3 davon auftauchen?

Das Ereignis, dass mindestens 3 Münzen auf den Schwanz kommen, ist die Vereinigung von fünf disjunkten Ereignissen, dass alle Münzen auf den Schwanz kommen (1 disjunktes Ereignis) und dass 4 bestimmte Münzen (4 disjunkte Ereignisse) auf den Kopf kommen. Das mag verwirrend klingen, deshalb erkläre ich es visuell. Wenn Sie nicht verwirrt sind, können Sie den nächsten Absatz überspringen.

Ein disjunktes Ereignis bedeutet, dass Ereignisse nicht gleichzeitig auftreten können. Das erste disjunkte Ereignis ist "Was ist, wenn alle Münzen Schwänze hochkommen?" Das sind die 5 Münzen {T, T, T, T, T}. Die anderen 4 Ereignisse sind, wenn eine bestimmte Münze auftaucht? Das erste disjunkte Ereignis ist also {H, T, T, T}, das zweite ist {T, H, T, T} usw. Da wir mindestens 3 Münzen benötigen, um Schwänze zu sein, {H, H, T, T} ist nicht gültig.

Die Vereinigung von 5 disjunkten Ereignissen ist die Wahrscheinlichkeit, dass jedes Ereignis zusammenkommt.

Lassen Sie uns zunächst die Wahrscheinlichkeit herausfinden, dass eine beliebige Wahrscheinlichkeit innerhalb dieses Raums möglich ist. Der Problembereich ist {H, T} über 4 verschiedene Münzen. Jede Münze hat eine halbe Chance, Kopf oder Zahl zu sein, und es gibt 4 Münzen, also ist 1/2 * 1/2 * 1/2 * 1/2 eine 1/16 Chance auf ein mögliches Ergebnis im Zustandsraum.

Daher ist die Wahrscheinlichkeit eines Ereignisses P (1/16)

Wisse, dass wir wissen, wie wahrscheinlich es ist, eine Kombination von {H, T} über die 4 Münzen zu erhalten. Wir können dies verwenden, um herauszufinden, wie wahrscheinlich es ist, dass die 5 disjunkten Ereignisse auftreten. Da jedes Ereignis disjunkt ist, wirkt sich ein Ereignis nicht auf ein anderes aus. Es handelt sich also nur um 1/16 * 5 (für die 5 disjunkten Ereignisse), was zu 5/16 führt.

Somit beträgt die Wahrscheinlichkeit, dass mindestens 3 Münzen auftauchen, 5/16.

Bedingte Wahrscheinlichkeit

Bedingte Wahrscheinlichkeit ist, wenn ein Ereignis nur eintreten kann, wenn ein anderes Ereignis eingetreten ist. Beginnen wir mit einem einfachen Problem:

Johns Lieblingsprogrammiersprachen sind Haskell und x86 Assembley. A soll das Ereignis darstellen, bei dem er eine Klasse zwingt, Haskell zu lernen, und B das Ereignis, bei dem er eine Klasse zwingt, x86 Assembley zu lernen.
An einem zufällig ausgewählten Tag wird John von Satan selbst übernommen, sodass die Wahrscheinlichkeit von P (A) 0,6 und die Wahrscheinlichkeit von P (B) 0,4 beträgt und die bedingte Wahrscheinlichkeit, dass er Haskell unterrichtet, vorausgesetzt, er hat x86 Assembley unterrichtet dieser Tag ist P (A | B) = 0,7.
Was ist P (B | A), die Bedingung, die John x86 Assembley lehrt, wenn er Haskell lehrt, auf das nächste Hundertstel gerundet?

Die Wahrscheinlichkeit von P (A und B) = P (A | B) * P (B) lautet "|" wie gegeben, wie in, wird "A | B" als "A gegebenes B" gelesen. Es kann auch als P (B | A) * P (A) geschrieben werden.

Der Grund, warum es P (A | B) * P (B) ist, ist, dass angesichts der Wahrscheinlichkeit von "Angesichts der Wahrscheinlichkeit, dass B passiert, passiert A" und der Wahrscheinlichkeit von B P (B) ist. (A | B) ist eine andere Wahrscheinlichkeit als P (B) und P (A und B) kann nur auftreten, wenn P (B) auftritt, was dann P (B | A) ermöglicht.

Wir können dies also in eine mathematische Formel umwandeln:

P (A und B) = P (A | B) · P (B) = 0,7 · 0,5 = 0,35
Löse es
P (B | A) * P (A)
P (A) = 0,5
So
0,6 * P (B | A)
Jetzt wissen wir nicht, was P (B | A) ist, aber wir wollen es herausfinden. Wir wissen, dass P (B | A) ein Teil von P (A und B) sein muss, weil P (A und B) die Wahrscheinlichkeit ist, dass diese beiden Ereignisse so eintreten ...
P (A und B) = 0,35
0,35 = P (B | A) * 0,5
Mit einfacher algebraischer Manipulation
0,35 / 0,5 = P (B | A)
P (B | A) = 0,7

Sehen Sie sich dieses Video der Khan Academy an, um eine visuelle Erklärung der bedingten Wahrscheinlichkeit zu erhalten

Bayes Therom

Mit Bayes Therom können wir die Wahrscheinlichkeit von Ereignissen ermitteln, wenn wir vorher über die Ereignisse informiert sind. Es ist eher eine Beobachtung als ein Throm, da es die ganze Zeit korrekt funktioniert. Bayes therom wird von Thomas Bayes erstellt, der diese Beobachtung in einem Notizbuch notierte. Er hat es nie veröffentlicht, deshalb wurde er während seiner Lebenszeit nicht für sein berühmtes Wort anerkannt.

Bayes Therom von https://betterexplained.com/articles/colorized-math-equations/

Die Wahrscheinlichkeit von A bei gegebenem B ist die Wahrscheinlichkeit von B bei gegebenem A (Anmerkung: es ist hier umgekehrt) mal durch die Wahrscheinlichkeit von A geteilt durch die Wahrscheinlichkeit von B.

Das klingt natürlich verwirrend, daher kann es hilfreich sein, ein Beispiel zu sehen.

Angenommen, auf den Straßen wird ein neuer Strang mexikanisches Heroin aus schwarzem Teer gefunden, und die Polizei möchte herausfinden, ob jemand ein Benutzer ist oder nicht.
Das Medikament ist zu 99% empfindlich, dh der Anteil der Personen, bei denen korrekt festgestellt wurde, dass sie das Medikament einnehmen.
Das Medikament ist zu 99% spezifisch, dh der Anteil der Personen, bei denen korrekt festgestellt wurde, dass sie das Medikament nicht einnehmen.
Hinweis: Sowohl für Benutzer als auch für Nichtbenutzer gibt es eine Falsch-Positiv-Rate von 1%.
Angenommen, 0,5% der Menschen bei John Moores nehmen die Droge. Wie hoch ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter John Moores-Schüler mit einem positiven Test ein Benutzer ist?

Sobald Sie alle Informationen haben, müssen Sie lediglich die Werte ersetzen und ausarbeiten.

Im Folgenden finden Sie ein Video, in dem Bayes Therom intuitiv anhand von Beispielen aus der Praxis sowie der dahinter stehenden Geschichte und der Philosophie von Bayes Therom erläutert wird:

Wenn Sie sehen möchten, wie Bayes Therom beim maschinellen Lernen eingesetzt wird, sehen Sie sich das an!

Zufällige Variablen

Eine Zufallsvariable ist eine Funktion, keine Zufallsvariable oder eine Variable.

Eine Zufallsvariable muss den Probenraum S nicht direkt angeben, sondern eine Wahrscheinlichkeit zuweisen, dass eine Variable (X) einen bestimmten Wert annimmt. Im Gegensatz zu früheren Wahrscheinlichkeiten, bei denen wir einen Probenraum definieren mussten, kümmern wir uns nur um die Wahrscheinlichkeit selbst.

Zufallsvariablen werden oft als P (f = r) geschrieben, wobei f der Ereignisname und r die Wahrscheinlichkeit ist.

Das muss wahrscheinlich wie alle Wahrscheinlichkeitswerte zwischen 0 und 1 liegen.

Wir schreiben NICHT (unter Verwendung einer von Ihnen gewünschten Notation) (F = r) für den Fall, dass F jede Variable außer R ist.

Ein Beispiel dafür

P (Die = 1) = 1/6 Die Wahrscheinlichkeit, dass dieser Würfel den Wert 1 annimmt, ist 1/6. NICHT P (Die = 1) ist das Ereignis, dass der Würfel (Die = 2) OR (Die = 3) OR ( Die = 4) ODER (Die = 5) Oder (Die = 6)

Das Komplement von P (f = r); Die zur Darstellung von Zufallsvariablen verwendete Notation ist 1 - P (f = r), wobei 1 100% oder nur 1 ist.

Wir verwenden manchmal Symbole (Wörter) anstelle von Zahlen, um Zufallsvariablen darzustellen. Das ist wirklich nützlich. Angenommen, das Wetter kann 1 von 4 Zuständen sein: sonnig, Regen, bewölkt, Schnee. Anstatt Wetter = 1 zuzuweisen, könnten wir also Wetter = sonnig schreiben.

Manchmal ist es langwierig, alle Wahrscheinlichkeiten wie P (Wetter = sonnig) = 0,7 oder P (Wetter = Regen) = 0,3 aufzuschreiben. Wenn die Werte in der richtigen Reihenfolge festgelegt sind, könnten wir P (Wetter) = (0,7, 0,3) schreiben.

Wir verwenden Fettdruck P, um anzuzeigen, dass das Ergebnis ein Zahlenvektor ist, der die einzelnen Wetterwerte darstellt. Ein Beispiel hierfür ist: P (Wetter) = (0,7, 0,3).

Gemeinsame Wahrscheinlichkeitsverteilungen

Eine gemeinsame Wahrscheinlichkeitsverteilung ermöglicht es Ihnen, mehrere Zufallsvariablen zu haben, normalerweise 50 oder 100, aber unsere Beispiele enthalten weniger.

Eine mögliche gemeinsame Wahrscheinlichkeitsverteilung P (Wetter, Hohlraum) für die Zufallsvariablen Wetter und Hohlraum ist in der folgenden Tabelle angegeben:

Dies ist eine gemeinsame Wahrscheinlichkeitsverteilung für Zahnhöhlen und das Wetter. Cavity ist ein boolescher Wert, entweder 0 oder 1 und es gibt 4 Optionen für das Wetter. Wenn wir eine gemeinsame Wahrscheinlichkeitsverteilung von P (Wetter, Hohlraum) erstellen möchten, würden wir die obige Tabelle erstellen.

Die Wahrscheinlichkeit für Wetter = sonnig und Hohlraum = 1 beträgt 0,144. Die Wahrscheinlichkeit der gemeinsamen Verteilung beträgt 1.

Volle gemeinsame Wahrscheinlichkeitsverteilung

Wir nennen es eine vollständige gemeinsame Wahrscheinlichkeitsverteilung, wenn alles, was in der Domäne relevant ist, enthalten ist. Im Gegensatz zum obigen Beispiel befinden sich Hohlräume und Wetter nicht in derselben Domäne.

Angenommen, die Zufallsvariablen Zahnschmerzen, Hohlraum, Fang beschreiben einen Zahnarztbesuch vollständig

Dann ist eine vollständige gemeinsame Wahrscheinlichkeitsverteilung durch die folgende Tabelle gegeben:

Von hier

Marginalisierung

Man kann die Grenzwahrscheinlichkeiten von Zufallsvariablen durch Summieren der Variablen berechnen. Wenn man im obigen Beispiel beispielsweise die Wahrscheinlichkeit von P (Hohlraum = 1) summieren möchte, summiert man alle Wahrscheinlichkeiten, bei denen der Hohlraum gleich 1 ist.

Bedingte / hintere Wahrscheinlichkeit

Wir können die bedingte / nachträgliche Wahrscheinlichkeit einer vollständigen Gelenkverteilung auf die gleiche Weise berechnen, wie wir es normalerweise tun würden.

Beachten Sie, dass (F, G) F (und Schnittpunkt) G bedeutet.

Erwarteter Wert

Der erwartete Wert ist genau das, wonach er sich anhört. Wie erwarten Sie den Wert? Sie können dies verwenden, um die durchschnittliche Punktzahl eines Würfelwurfs über 6 Würfe oder alles zu berechnen, was wirklich mit der Wahrscheinlichkeit zusammenhängt, wenn es eine Werteigenschaft hat.

Angesichts der Ergebnisse = (1, 2) und der Wahrscheinlichkeiten = (1/8, 1/4) des erwarteten Wertes ist E [x] E [x] = 1 (1/8) + 2 (1/4) = 0,625.

Angenommen, wir zählen Fahrradtypen und haben 4 Fahrräder. Wir weisen jedem Fahrrad einen Code zu:

Für jedes Fahrrad geben wir eine Nummer. Für jede Codierung können wir sehen, dass wir 2 Bits verwenden. Entweder 0 oder 1. Für den erwarteten Wert benötigen wir nicht nur den Wert für die Variable, sondern auch die Wahrscheinlichkeit. Jedes Fahrrad hat die gleiche Wahrscheinlichkeit. So hat jedes Fahrrad eine 25% ige Chance zu erscheinen.

Wenn wir den erwarteten Wert berechnen, multiplizieren wir die Wahrscheinlichkeit mit 2 Bits, was uns ergibt:

Was wäre, wenn die Wahrscheinlichkeit nicht gleich wäre?

Was wir tun müssen, ist die Anzahl der Bits mit der Wahrscheinlichkeit zu multiplizieren

Entropie

Die Entropie ist ein Maß für die Unsicherheit, die einer Zufallsvariablen zugeordnet ist. Es ist definiert als die erwartete Anzahl von Bits, die erforderlich sind, um den Wert der Variablen zu kommunizieren.

Entropie versucht, eine Zahl dafür zu geben, wie unsicher etwas ist.

Statistiken

Statistik ist keine Wahrscheinlichkeitstheorie. Statistik ist die reale Anwendung von Ideen, die aus der Wahrscheinlichkeitstheorie stammen. Diese können eindringen:

  1. Psepholohy - Analyse von Abstimmungsmustern
  2. Datenanalyse - Datenwissenschaft
  3. Qualitätskontrolle

Probenraum

Ein Beispielraum ist eine Sammlung von Daten als einzelne endliche Menge, die ungefähr so ​​aussieht:

Wobei S der Probenraum ist.

Wahrscheinlichkeitsverteilung

Nehmen wir an, wir möchten eine zufällige Person aus einer Gruppe aller Personen auswählen, die die Sun-Zeitung lesen. Die Wahrscheinlichkeit, dass eine einzelne Person ausgewählt wird, ist:

Eine Wahrscheinlichkeitsverteilung ist ein Stichprobenbereich, dem jedem Element ein Wahrscheinlichkeitswert zwischen 0 und 1 zugewiesen ist, der angibt, wie wahrscheinlich es ist, dass sie ausgewählt werden.

Wenn s ein Element von S ist, dh wenn ein Element s ein Teil der Menge (Gruppe) des Probenraums S ist, dann:

Wenn Sie die Wahrscheinlichkeit jedes Elements im Probenraum addieren, muss es zu 1 summieren.

Wenn wir diesen Datensatz abtasten möchten, können wir einfach jede einzelne Person im Datensatz durchgehen, um ein gutes Gefühl für die Allgemeinheit dieses Beispiels zu bekommen. Wenn sich jedoch 7 Milliarden Menschen in diesem Datensatz befinden, kann dies sehr, sehr lange dauern.

Es gibt zwei Möglichkeiten, wie wir die Daten jetzt abtasten können.

Wir können entweder zufällig Personen aus dem Datensatz auswählen und diese als Stichprobe verwenden, oder wir können eine bestimmte Teilmenge der zu verwendenden Daten von Hand auswählen.

Bei einem einheitlichen Datensatz wird mit gleicher Wahrscheinlichkeit jeder ausgewählt. Eine voreingenommene Probe ist nicht einheitlich, die Personen wurden von Hand ausgewählt.

Unvoreingenommene Datensätze scheinen „fair“ zu sein, während Unvoreingenommenheit „unfair“ erscheint. Mit einer unvoreingenommenen Stichprobe können wir das Ergebnis nicht korrigieren. Wir können die Daten nicht zu unseren Gunsten ändern.

Manchmal ist uns „Fairness“ egal und manchmal können unvoreingenommene Stichproben zu unerwarteten Ergebnissen führen.

Zufällige Variablen

Erinnern Sie sich an früher, als wir sagten, dass Zufallsvariablen Funktionen sind? Wenn Sie eine Zufallsvariable auf einen Stichprobenraum anwenden, sieht eine Population wie folgt aus:

Sie erhalten einen voreingenommenen Datensatz aus diesem Probenraum. Es ist voreingenommen, weil wir nicht zufällig Leute im Set auswählen. Wir wenden einen Filter an - eine Regel für die Menge, um eine Teilmenge der Population zu erhalten.

Professor Paul Dunne hatte folgendes über Zufallsvariablen zu sagen:

Der Begriff einer Wahrscheinlichkeitsverteilung. Dies ist die Beschreibung der Wahrscheinlichkeit, dass ein Mitglied einer Population (dh eine Menge) ausgewählt wird. Wenn wir zum Beispiel einen einzelnen Würfel betrachten, hat die Bevölkerung 6 Mitglieder: {1,2,3,4,5,6} Wir könnten eine Wahrscheinlichkeitsverteilung haben, die einem fairen Würfel entspricht, so dass jeder eine Wahrscheinlichkeit von 1/6 des Seins hat gewählt. Wenn es sich um einen vorgespannten Würfel handelt, könnte die Wahrscheinlichkeitsverteilung beispielsweise P [6] = 5/6 P [1] = 0 und P [2] = P [3] = P [4] = P [5] = sein 1/24 Damit ist die Summe der Einzelergebnisse 1.
Eine Zufallsvariable wird am besten zuerst gedacht, indem man die Wahrscheinlichkeiten vergisst und an eine beliebige Funktion der Bevölkerung denkt, zum Beispiel an die reellen Zahlen. Im Beispiel könnten wir jetzt f (x) = x² wählen, im Gegensatz zur Wahrscheinlichkeitsverteilungsfunktion hat die gewählte Funktion keine Einschränkungen: Mitglieder der Population müssen keine Werte zwischen 0 und 1 haben, die Summe der Funktionswerte nicht müssen sich zu 1 addieren. Die Idee der „Zufallsvariablen“ tritt ein, wenn eine Funktion mit einer Wahrscheinlichkeitsverteilung kombiniert wird. Jetzt wird die Verteilung nicht als einfache Auswahl eines MITGLIEDS der Population behandelt, sondern als zufällige Auswahl des WERTES der Funktion, dh anstatt das ausgewählte Mitglied (z. B. das Ergebnis des Würfelns) zurückzugeben, ist der Funktionswert für dieses Mitglied gemeldet (zB das Quadrat der geworfenen Zahl).

Mittelwert mit zufälligen Variablen

Bei einer Population S, deren Mitglieder gemäß einer Verteilung D befragt werden, wird der mittlere (erwartete) Wert der Zufallsvariablen r (s) unter D als bezeichnet

Dies bedeutet lediglich, dass der erwartete Wert eine „gewichtete“ Summe (übernommen über alle Mitglieder der Gesamtbevölkerung S) von:

die Wahrscheinlichkeit, dass D s auswählt, multipliziert mit dem Wert der von r für s zurückgegebenen Funktion, dh r (s). In unverzerrten Verteilungen

Unvoreingenommene Distributionen

Bei unverzerrten Verteilungen ist der erwartete Wert nur die Gesamtsumme aller Zufallsvariablen geteilt durch die Populationsgröße:

Dies ist nur Ihr typischer Mittelwert, den Sie in der Schule lernen. Mein Lehrer brachte mir ein cooles Lied bei, um mich an die Unterschiede zwischen Mittelwert, Reichweite, Median usw. zu erinnern.

Hey diddle diddle der Median ist die Mitte, die wir addieren und für den Mittelwert dividieren. Der Modus ist der, den Sie am meisten sehen, und die Reichweite ist der Unterschied zwischen!

Angenommen, S ist eine Sammlung von Ergebnissen, die durch 6.000-maliges Würfeln auftreten können.

Dann würden Sie für einen „fairen“ Würfel erwarten, dass jedes Ergebnis 1.000 Mal angezeigt wird.

Angenommen, wir haben ein Spiel, in dem Spieler 1 € setzen und wenn der Würfel auf einem von {1, 2, 3} landet, erhält der Spieler danach 2 €, andernfalls verlieren sie ihren Einsatz. In einem fairen Spiel kann der Spieler damit rechnen, 3/6 = 1/2 = die Hälfte der Zeit zu gewinnen.

Vertrauensprüfung

Angenommen, die Hypothese des Ergebnisses eines Experiments ist X und das tatsächliche Ergebnis ist Y.

Das Ergebnis Y ist so weit von der Vorhersage entfernt, dass die Hypothese falsch ist. Dies nennt man Bedeutung.

Eine Nullhypothese besagt, dass das Ergebnis X sein wird.

Die Signifikanz bedeutet, dass die Wahrscheinlichkeit, dass das beobachtete Ergebnis mit dem vorhergesagten Ergebnis „übereinstimmt“.

Eine Hypothese kann mit beobachteten Ergebnissen mit drei zunehmenden Konfidenzniveaus „zurückgewiesen“ werden:

  1. Die Wahrscheinlichkeit, dass X bei gegebenem Y gilt, beträgt höchstens 0,05 (signifikant)
  2. Die Wahrscheinlichkeit, dass X gilt, wenn Y resultiert, beträgt höchstens 0,01 (hoch signifikant)
  3. Die Wahrscheinlichkeit, dass X gilt, wenn Y resultiert, beträgt 0,001 (sehr hoch signifikant)

Hier können zwei Arten von Fehlern auftreten:

Typ 1-Fehler - Eine wahre Hypothese wird zurückgewiesen. Typ 2-Fehler - Eine falsche Hypothese wird akzeptiert

Bedeutung messen

Das Ergebnis des Ereignisses wird dem erwarteten Wert „immer näher“ kommen und kann als Formel ausgedrückt werden, die als Abweichung bezeichnet wird. Denken Sie daran, dass das Ereignis einer Zufallsvariablen in einem Probenraum wie folgt lautet:

Varianz ist nur:

"Wie weit ist ein ausgewähltes Mitglied von der erwarteten Variablen entfernt?"

Sieht das nicht schrecklich aus? Nun, wenn wir die erste Formel einfügen würden, würde sie so aussehen:

Sieht das nicht nach der schrecklichsten Formel aller Zeiten aus?

Der r (s) -Teil ist die Zufallsvariable, die Teilmenge der Population. Der Teil ist der erwartete Wert eines zufälligen Mitglieds.

Varianz erzeugt immer einen nicht negativen Wert.

Die Standardabweichung ist nur diese Formel mit quadratischen Wurzeln.

Es ist eigentlich häufiger geschrieben als:

Ich wollte nur sehen, wie verworren die Formel werden könnte.

Die Standardabweichung ist nur:

"Wie weit ist der größte (oder kleinste) Datenpunkt vom Durchschnittswert entfernt?"

Q-Test

Bei einem vorhergesagten Ergebnis X eines Experiments und dem tatsächlichen Ergebnis Y. Wenn wir die Standardabweichung für die Umgebung kennen, in der das Experiment festgelegt ist, können wir den Wert berechnen:

Wenn q> 0,01, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,05. Wenn q> 2,33, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,01. Wenn q> 3,09, dann gilt X mit einer Wahrscheinlichkeit von höchstens 0,001

Wenn Ihnen dieser Artikel gefallen hat, verbinden Sie sich mit mir!

LinkedIn | Twitter | Newsletter