Abzählbare Wahrscheinlichkeitsräume

 Einfache Zufallsexperimente können wir durch eine Funktion ν : A  [ 0, 1 ] modellieren, die den Elementen a einer gewissen abzählbaren Menge A von „Stichproben“ oder „Ergebnissen“ einen Wert ν(a) so zuweist, dass sich alle Werte zu 1 aufsummieren. Der Wert ν(a) heißt dann die Wahrscheinlichkeit von a bei ν. Allgemeiner können wir dann auch von der Wahrscheinlichkeit μ(B) eines beliebigen „Ereignisses“ B ⊆ A reden, indem wir alle ν(a), a  ∈  B, aufsummieren. Der Wurf eines fairen Würfels kann in dieser Weise durch A = { 1, …, 6 } und ν(a) = 1/6 für alle a  ∈  A modelliert werden. Dann gilt μ(„die Augenzahl ist gerade“) = μ({ 2, 4, 6 }) = ν(2) + ν(4) + ν(6) = 1/2, usw.

 Wir definieren:

Definition (abzählbare Verteilungen der Eins)

Sei A eine abzählbare Menge. Eine Funktion ν : A  [ 0, 1 ] ⊆  heißt eine Verteilung der Eins auf A, falls a  ∈  A ν(a)  =  1.

 Hier und im folgenden verwenden wir, dass wir abzählbar unendlich viele nichtnegative reelle Zahlen in beliebiger Reihenfolge anordnen können, ohne dass dies das Konvergenzverhalten und den Grenzwert der zugehörigen unendlichen Reihe verändern würde. Ist nämlich n  ∈   xn eine konvergente Reihe reeller Zahlen mit xn ≥ 0 für alle n  ∈  , so gilt für jede Bijektion π :   , dass

n  ∈   xn  =  sup({ n  ∈  E xn | E ⊆  endlich })  = 
sup({ n  ∈  F xπ(n) | F ⊆  endlich })  =  n  ∈  xπ(n).

Ist also X eine abzählbar unendliche Menge nichtnegativer Zahlen, so können wir x  ∈  X x definieren als n  ∈   f (n) für eine beliebige Bijektion f :   X, vorausgesetzt, die Reihe n  ∈   f (n) konvergiert. Ist g eine reellwertige Funktion auf einer beliebigen abzählbar unendlichen Menge A mit g(x) ≥ 0 für alle x  ∈  A, so ist analog a  ∈  A g(a) definiert als n  ∈   g(π(n)) mit einer beliebigen Bijektion π :   A.

 Eine Verteilung der Eins auf einer Menge induziert nun das folgende Gewicht von beliebigen Teilmengen der Menge:

Definition (abzählbares Wahrscheinlichkeitsmaß)

Sei ν eine Verteilung der Eins auf der abzählbaren Menge A.

Für alle B ⊆ A setzen wir:

μ(B)  =  b  ∈  B ν(b).

Dann heißt μ : (A)  [ 0, 1 ] das durch ν induzierte (Wahrscheinlichkeits-) Maß auf A und (A, (A), μ) ein (abzählbarer) Wahrscheinlichkeitsraum.

Die Menge A heißt Grundmenge oder Ergebnisraum und ihre Elemente nennen wir Elementarereignisse oder Stichproben. Die Menge (A) heißt Ereignisraum und für jedes B  ∈  (A) heißt μ(B) die μ-Wahrscheinlichkeit des Ereignisses B.

 Statt (A, (A), μ) schreiben wir oft einfach auch (A, μ). Bei dieser Schreibweise ist A immer als abzählbar vorausgesetzt. Zur Definition von (A, μ) genügt es, eine abzählbare Grundmenge A und eine Verteilung ν der Eins auf A anzugeben.

 Einige Beispiele und Konstruktionsmethoden für Wahrscheinlichkeitsräume diskutieren wir in den folgenden Zwischenabschnitten sowie in den Übungen.

Einfache Modellbildungen

 Einen fairen Münzwurf können wir durch A = { 0, 1 } und ν(0) = ν(1) = 1/2 modellieren, wobei „0“ für „Kopf“ und „1“ für „Zahl“ steht. Ist μ das von ν induzierte Wahrscheinlichkeitsmaß auf (A), so gilt

μ(∅) = 0,  μ({ 0 }) = μ({ 1 }) = 1/2,  μ({ 0, 1 }) = 1.

 Ist A = { 1, …, 6 }, so induziert die Verteilung ν : A  [ 0, 1 ] mit ν(a) = 1/6 für alle a  ∈  A einen Wahrscheinlichkeitsraum (A, μ), den wir als ein geeignetes mathematisches Modell für den Wurf eines ungezinkten Würfels ansehen. Es gilt dann μ({ 1, 2 }) = 1/3, μ(A − { 1 }) = 5/6, usw. Allgemeiner eignen sich alle fünf platonischen Körper für „würfelnde“ Zufallsexperimente, deren mathematische Verteilungen durch ν4(a) = 1/4, ν6(a) = 1/6, ν8(a) = 1/8, ν12(a) = 1/12 und ν20(a) = 1/20 für alle Elementarereignisse a bestimmt sind.

 Wirft man eine Münze und einen Würfel, so ist A = { 0, 1 } × { 1, …, 6 } ein geeigneter Ergebnisraum. Sind dabei Münze und Würfel fair, so induziert die Verteilung „ν(a) = 1/12 für alle a  ∈  A“ den passenden Wahrscheinlichkeitsraum. Der Wurf eines Dodekaeders lässt sich also durch dieses Experiment simulieren.

 Werfen wir zwei faire Würfel und betrachten die Summe der Augen, so ist, wie man sich leicht überlegt, die Ergebnismenge S = { 2, …, 12 } und die folgende Verteilung ν zur Modellierung geeignet:

ν(2) = ν(12) = 1/36,  ν(3) = ν(11) = 2/36,  ν(4) = ν(10) = 3/36,

ν(5) = ν(9) = 4/36,  ν(6) = ν(8) = 5/36,  ν(7) = 6/36.

Der Ansatz hinter diesen Berechnungen ist, den zweifachen Würfelwurf zunächst durch die Ergebnismenge A = { 1, …, 6 }2 und die Verteilung ν(a1, a2) = 1/36 für alle (a1, a2)  ∈  A zu beschreiben und dann das „Zufallsverhalten“ der Funktion f : A   mit f(a1, a2) = a1 + a2 für alle (a1, a2)  ∈  A zu untersuchen. Diese Überlegung führt zu den so genannten Zufallsvariablen, die wir unten genauer betrachten.

Urnenmodelle

grundbegriffe-AbbID49

 Eine ganze Familie von Zufallsexperimenten liefert das Ziehen aus einer Urne. Wir ziehen nacheinander k Kugeln aus einer Urne mit n Kugeln, die mit den Zahlen 1, 2, …, n beschriftet sind. Hier ist zu unterscheiden, ob die Kugeln nach dem Ziehen zurückgelegt werden und ob die Reihenfolge für das Ergebnis der Ziehung eine Rolle spielt. Wir diskutieren die vier sich ergebenden Varianten in den Übungen. Dabei spielen die folgenden Werte eine wichtige Rolle:

|A| =  „die Anzahl der Elemente von A“,  (Betrag oder Mächtigkeit von A )
n! =  1 · … · n,  mit  0! = 1, (n-Fakultät)
nk =  n!/(k! · (n − k)!), (Binomialkoeffizienten, „n über k“, „k aus n“)
nk1,…,kr =  n!/(k1! · … · kr!), (Multinomialkoeffizienten, „n über k1, …, kr“)

die für alle endlichen Mengen A und alle n, k, k1, …, kr  ∈   mit 0 ≤ k ≤ n und k1 + … + kr = n definiert sind.

 Die Binomialkoeffizienten geben an, auf wie viele Arten es möglich ist, k Elemente aus einer Menge mit n Elementen auszuwählen, d. h. nk ist die Anzahl der k-elementigen Teilmengen von { 1, …, n }. Da es genau 2n Teilmengen der Menge { 1, …, n } gibt, gilt 0 ≤ k ≤ n nk = 2n für alle n.

 Analog ist nk1,…,kr die Anzahl der Zerlegungen der Menge { 1, …, n } in Mengen A1, …, Ar, die genau k1, …, kr Elemente enthalten, d. h. es gilt

nk1,…,kr = |{ (A1, …, Ar) | Ai ∩ Aj = ∅ für i ≠ j, ⋃1 ≤ i ≤ r Ai = { 1, …, n }, |Ai| = ki für alle i }|.

 Damit gibt es also 496 Ergebnisse einer Lottoziehung und 3210,10,10,2 Skatspiele, also Möglichkeiten, 32 Karten auf drei Spieler I, II, III mit je 10 Karten und einen Skat mit zwei Karten zu verteilen.

 Die Multinomialkoeffizienten verallgemeinern die Binomialkoeffizienten, denn es gilt nk = nk,(nk) für alle 0 ≤ k ≤ n. In der Tat entsprechen die k-elementigen Teilmengen von { 1, …, n } den Zerlegungen dieser Menge in zwei Teile mit k und n − k Elementen.

grundbegriffe-AbbID50

 Das Pascalsche Dreieck liefert eine Möglichkeit der rekursiven Berechnung der Binomialkoeffizienten. Die äußeren Werte jeder Zeile sind 1, und jeder andere Wert einer Zeile ist die Summe der beiden über ihm stehenden Werte. Die (n + 1)-te Zeile listet dann die Binomialkoeffizienten n0, n1, …, nn auf.

 Die Bezeichnung „Binomial-“ und „Multinomialkoeffizienten“ ist motiviert durch

(x + y)n  =  0 ≤ k ≤ n nk xk yn − k, (Binomialsatz)

(x1 + … + xr)n  =  0 ≤ ki ≤ n, k1 + …+ kr = n nk1,…,kr x1k1 · … · xrkr. (Multinomialsatz).

Binomial- und Multinomialverteilungen

 Obige Anzahlaussagen können wir auch so formulieren: nk ist die Anzahl der 0-1-Tupel (a1, …, an), die genau k Einsen aufweisen. Denn hat A ⊆ { 1, …, n } genau k Elemente, so formen wir das 0-1-Tupel (a1, …, an) mit ai = 1 für i  ∈  A und ai = 0 sonst. Dadurch entsteht eine Bijektion zwischen den k-elementigen Teilmengen von { 1, …, n } und den 0-1-Tupeln (a1, …, an) mit genau k Einsen. Analog ist nk1,…,kr die Anzahl der Tupel (a1, …, an) mit Einträgen in { 1, …, r }, die für alle 1 ≤ i ≤ r genau ki-oft die Zahl i aufweisen.

 Definieren wir also für ein 0 ≤ p ≤ 1 und ein n ≥ 1

bpn(k)  =  nk pk (1 − p)n − k  für alle 0 ≤ k ≤ n,

so ist bpn(k) die Wahrscheinlichkeit, in einem n-fach wiederholten Zufallsexperiment genau k Erfolge zu erzielen, wenn p die Erfolgswahrscheinlichkeit ist. Die Verteilung bpn auf { 0, …, n } heißt die Binomialverteilung für n und p.

 Interessieren wir uns für r verschiedene Ergebnisse a1, …, ar eines Experiments, und hat jedes Ergebnis ai die Wahrscheinlichkeit pi, so ist analog

bp1, …, prn(k1, …, kr)  =  nk1,…,kr p1k1 … prkr  für alle 0 ≤ ki ≤ n mit k1 + … + kr = n

die Wahrscheinlichkeit, bei einer n-fachen Wiederholung des Experiments genau ki-oft das Ergebnis ai zu erhalten, für alle 1 ≤ i ≤ r. Die Verteilung bp1, …, prn heißt die Multinomialverteilung für n und p1, …, pr.

 Sind also die Tageswahrscheinlichkeiten für „Regen, bewölkt, Sonne“ gleich 1/10, 1/5 bzw. 7/10, so ist die Wahrscheinlichkeit für eine Woche mit einem Regen-, zwei bewölkten und vier Sonnentagen gleich 71,2,4 · 1/10 · (2/10)2 · (7/10)4 = (105 · 4 · 74)/107 = 0,1008421, also etwa 10%.

grundbegriffe-AbbID51

 Die Binomialverteilung (und das Pascalsche Dreieck) taucht auch im folgenden Zufallsexperiment auf, dem sog. Galton-Brett: Eine Kugel K fällt in einem wie im Diagramm rechts angeordneten Nagelbrett stufenweise nach unten, und zwar jeweils mit Wahrscheinlichkeit p nach rechts und mit Wahrscheinlichkeit q = (1 − p) nach links. Dann wird die Wahrscheinlichkeit, dass die Kugel in einem der am Ende des Brettes angebrachten Fächer F0, …, Fn landet, durch die Binomialverteilung bpn beschrieben. In unserem Diagramm ist n = 6 und die Wahrscheinlichkeit, bei p = 1/2 im Fach F3 zu landen, berechnet sich zu 63 · 1/23 · 1/23  =  20/64. In der Tat führen genau 20 Pfade nach F3. Sie lassen sich durch 0-1-Tupel (a1, …, a6) mit genau drei 1-Einträgen beschreiben, wobei „0“ für „links“ und „1“ für „rechts“ steht.

Normierung von Reihen und geometrische Verteilung

 Aus jeder nichttrivialen konvergenten Summe nichtnegativer Zahlen können wir eine Verteilung der Eins durch Normierung erhalten: Ist n  ∈   an = b > 0 für reelle Zahlen an ≥ 0, so definiert ν(n) = an/b für alle n  ∈   eine Verteilung der Eins auf . Ein Beispiel liefert die geometrische Reihe n  ∈   qn = (1 − q)−1 für ein q mit 0 ≤ q < 1. Wiederholen wir nämlich ein Zufallsexperiment mit einer Erfolgswahrscheinlichkeit p = 1 − q, so ist

ν(n) = qn p

für alle n  ∈   die Wahrscheinlichkeit, in den ersten n Versuchen einen Misserfolg zu erzielen und danach einen Erfolg. Die Funktion ν heißt die geometrische Verteilung zum Parameter q. In der Tat ist ν die Normierung der geometrischen Reihe.

Gleichverteilungen und Dirac-Maße

 Wir definieren nun allgemein:

Definition (Gleichverteilung auf einer endlichen Menge)

Sei A eine nichtleere Menge, und sei ν(a) = 1/|A| für alle a  ∈  A.

Dann heißt das durch ν induzierte Maß die Gleichverteilung auf A.

 Jedes Element der Grundmenge A erhält hier das gleiche Gewicht. Für alle B ⊆ A ist μ(B) die Anzahl der Elemente von B geteilt durch die Anzahl der Elemente von A. Andererseits können wir auch einem einzigen Punkt die gesamte Masse zuweisen:

Definition (Dirac-Maß)

Sei A eine beliebige nichtleere Menge, und sei a  ∈  A. Weiter sei

ν(b) = 1, falls b = a, und ν(b) = 0, sonst.

Dann heißt das durch ν induzierte Maß das Dirac-Maß auf A im Punkt a und wird mit δa, A bezeichnet.

 Für das Dirac-Maß δa, A gilt also δa, A(B) = 1, falls a  ∈  B, und δa, A(B) = 0, sonst, für alle B ⊆ A.

Gewichtete Summen und Produkte

 Sind ν1, ν2 : A  [ 0, 1 ] Verteilungen der Eins, so können wir die Verteilungen mitteln, indem wir ν(a) = ν1(a)/2 + ν2(a)/2 für alle a  ∈  A setzen. Statt der Mittelung mit Faktor 1/2 ist eine Mittelung mit Faktoren 1/3 und 2/3 usw. möglich.

 Allgemein sei A eine abzählbare Menge und seien νn : A  [ 0, 1 ] Verteilungen der Eins für alle n  ∈  . Weiter sei auch ν :   [ 0, 1 ] eine Verteilung der Eins. Dann definieren wir

ν*(a)  =  n  ∈   ν(n) · νn(a)  für alle a  ∈  A.

 Dass ν* wieder eine Verteilung der Eins auf A ist, folgt aus dem Folgenden auch andernorts oft nützlichen Summationssatz, der das Kommutativ- und Assoziativgesetz für nichtnegative reelle Zahlen ins Unendliche ausdehnt:

Satz (Summationssatz)

Seien xn, m reelle Zahlen mit xn, m ≥ 0 für alle n, m  ∈  . Weiter sei π :   2 bijektiv. Es existiere

s*  =  sup({ (n, m)  ∈  E xn, m | E ⊆ 2, E endlich }).

Dann gilt:

(+)  n  ∈   m  ∈   xn, m  =  m  ∈   n  ∈   xn, m  =  k  ∈   xπ(k)  =  s*.

Beweis

Für alle n0, m0, k0  ∈   seien

Sn0, m0  =  n ≤ n0 m ≤ m0 xn, m,  S′n0, m0  =  m ≤ m0 n ≤ n0 xn, m, 

Tk0  =  k ≤ k0 xπ(k).

Dann gilt Sn0, m0 = S′n0, m0 und Sn0, m0, S′n0, m0, Tk0 ≤ s* für alle n0, m0, k0  ∈  .

Hieraus folgt n ≤ n0 m  ∈   xn, m ≤ s* für alle n0 und m ≤ m0 n  ∈   xn, m ≤ s* für alle m0, und damit dann weiter, dass alle in (+) betrachteten Reihen konvergent und kleinergleich s* sind.

Zum Beweis der anderen Ungleichungen sei E ⊆ 2 endlich. Wir wählen dann n* so groß, dass E ⊆ { (n, m)  ∈  2 | n, m ≤ n* } ∩ { π(k) | k ≤ n* }.

Dann gilt (n, m)  ∈  E xn, m  ≤  Sn*, n*, S′n*, n*, Tn*. Folglich sind alle in (+) betrachteten unendlichen Reihen größergleich s*.

 Damit können wir definieren:

Definition (gewichtete Summe von Wahrscheinlichkeitsmaßen)

Sind in obiger Situation μn die von den Verteilungen νn induzierten Maße, so nennen wir das von ν* induzierte Maß μ* die durch ν gewichtete Summe der μn, in Zeichen μ* = n  ∈   ν(n) μn.

 Wir modellieren zur Illustration folgende Situation: Ein Spieler wirft eine Münze, entscheidet dann mit Wahrscheinlichkeit 1/2, ob er aufhört oder noch einmal eine Münze wirft, usw. Als Grundmenge A können wir hier die Menge der nichtleeren endlichen 0-1-Folgen wählen, und für das modellierende Wahrscheinlichkeitsmaß gilt

μ({ 0 }) = μ({ 1 }) = 1/4,  μ({ 01 }) = μ({ 00 }) = μ({ 10 }) = μ({ 11 }) = 1/16, usw.,

denn das Ereignis 10 entsteht zum Beispiel durch folgenden Ablauf: Der Spieler wirft eine 1, entscheidet sich weiter zu machen, wirft eine 0, und entscheidet sich aufzuhören.

 Das Maß μ können wir einfach als gewichtete Summe notieren. Ist τn die Gleichverteilung auf den endlichen 0-1-Folgen der Länge n, und τn(s) = 0 für alle anderen Folgen s, so gilt μ = n ≥ 1 1/2n τn.

 Als Nächstes betrachten wir Produkte von Wahrscheinlichkeitsräumen. Seien hierzu ν1 : A  [ 0, 1 ] und ν2 : B  [ 0, 1 ] Verteilungen der Eins. Weiter sei C = A × B. Wir setzen

ν((a, b))  =  ν1(a) · ν2(b)  für alle a  ∈  A und b  ∈  B.

Dann ist ν eine Verteilung der Eins auf C, und wir können definieren:

Definition (Produkt von Wahrscheinlichkeitsmaßen)

Sind in obiger Situation μ1 und μ2 die von ν1 bzw. ν2 induzierten Maße, so heißt das von ν induzierte Maß μ das Produkt von μ1 und μ2, in Zeichen

μ  =  μ1 × μ2.

Weiter nennen wir (C, μ) den Produktraum von (A, μ1) und (B, μ2).

 Es gilt dann μ(C) = (a, b)  ∈  C μ1({ a }) · μ2({ b }) für alle C ⊆ A × B.

 Rekursiv definieren wir μ1 × … × μn + 1 = (μ1 × … × μn) × μn + 1 und haben damit beliebig lange endliche Produkte von Wahrscheinlichkeitsmaßen und -räumen zur Verfügung. Diese Produktbildung entspricht der unabhängigen Hintereinanderausführung von Zufallsexperimenten, die durch μ1, …, μn modelliert werden. Speziell gilt der leicht zu zeigende Satz:

Satz (Produkte von Gleichverteilungen)

Seien μ1, …, μn die Gleichverteilungen auf A1, …, An, und sei

μ  =  μ1  ×  …  ×  μn.

Dann ist μ die Gleichverteilung auf A = A1 × … × An.

Bildmaße

 Wir können ein auf einer Menge A definiertes Wahrscheinlichkeitsmaß μ mit Hilfe von Funktionen auf andere Mengen übertragen:

Definition (Bildmaß)

Sei (A, μ) ein Wahrscheinlichkeitsraum, und sei T : A  B eine Funktion.

Dann setzen wir:

μT(C)  =  μ({ a  ∈  A | T(a)  ∈  C })  für alle C ⊆ B.

Die Funktion μT : (B)  [ 0, 1 ] heißt das Bildmaß von μ bzgl. T und wird auch mit T(μ) oder μ ∘ T−1 bezeichnet.

 Es ist leicht zu sehen, dass (B, μT) wieder ein Wahrscheinlichkeitsraum ist. Das Maß μT wird zudem induziert von der Verteilung νT : B  [ 0, 1 ] der Eins auf B mit νT(b) = μ(T − 1({ b })) für alle b  ∈  B.

 Ist (A, μ) ein Wahrscheinlichkeitsraum und sind T : A  B sowie S : B  C Funktionen, so gilt μS ∘ T = (μT)S, oder, in den beiden alternativen Notationen, (S ∘ T) (μ) = S(T(μ)) bzw. μ ∘ (S ∘ T)−1 = (μ ∘ T− 1) ∘ S−1.

 Ist (A × B, μ) der Produktraum von (A, μ1) und (B, μ2), so ist μ1 das Bildmaß der Projektion pr1 : A × B  A mit pr1((a, b)) = a für alle (a, b)  ∈  A × B. Denn für alle C ⊆ A × B ist

μpr1(C)  =  μ({ (a, b)  ∈  A × B | pr1((a, b))  ∈  C })  =  μ({ (a, b)  ∈  A × B | a  ∈  C })  =  μ(C × B)  =  (a, b)  ∈  C × B μ1({ a }) μ2({ b })  =  μ1(C) · μ2(B)  =  μ1(C) · 1  =  μ1(C).

Analog ist μ2 das Bildmaß der Projektion pr2 : A × B  B mit pr2((a, b)) = b für alle (a, b)  ∈  A × B.