Mathematik für Biologiestudierende¶
Wintersemester 2024/25
- November 2024
© 2024 Prof. Dr. Rüdiger W. Braun
Stochastische Unabhängigkeit¶
Zwei diskrete Zufallsvariable $X$ und $Y$ sind stochastisch unabhängig, wenn für alle möglichen Werte $k$ und $m$ \begin{equation*} P(X=k, Y=m) = P(X=k) \cdot P(Y=m) \end{equation*}
Ein Beispiel, wo die Unabhängigkeit auf eine subtile Weise nicht gegeben war
Beispiel: Lotterie¶
- Eine Lotterie wurde nach den folgenden Regeln gespielt:
- In einer Trommel befinden sich 70 Kugeln, und zwar für jede Ziffer je sieben
- Es werden nacheinander sieben Kugeln gezogen
- Dadurch entsteht eine siebenstellige Zahl
- Den Hauptgewinn erhält, wer diese Zahl auf seinem Los hat
- Das ist kein faires Spiel
Lotterie: Kritik¶
- Die Wahrscheinlichkeit, gezogen zu werden, ist für alle Kugeln gleich
- aber nicht für alle Losnummern
- Es gibt $$ 7^7 = 823\,543 $$ Möglichkeiten, Einzelkugeln so auszuwählen, dass die Losnummer 1234567 herauskommt
- Es gibt aber nur $$ 7! = 5040 $$ Möglichkeiten, Einzelkugeln so auszuwählen, dass die Losnummer 1111111 herauskommzt
import numpy as np
np.set_printoptions(legacy='1.21')
import scipy
anzahl_gesamt = 70*69*68*67*66*65*64
anzahl_gesamt
6041824588800
anzahl1234567 = 7**7
anzahl1234567
823543
anzahl1111111 = scipy.special.factorial(7)
anzahl1111111
5040.0
P1234567 = anzahl1234567 / anzahl_gesamt
P1234567
1.363070026108733e-07
P1111111 = anzahl1111111 / anzahl_gesamt
P1111111
8.341850919245278e-10
P1234567 / P1111111
163.4013888888889
Die Gewinnwahrscheinlichkeit des Loses mit der Nummer 1234567 ist mehr als 160 mal so groß wie die des Loses mit der Nummer 1111111
Die Zufallsvariablen
- $X_1$: Ziffer auf der ersten Kugel
- $X_2$: Ziffer auf der zweiten Kugel
sind stochastisch nicht unabhängig
Wenn die erste Kugel eine 1 zeigt, dann ist die Wahrscheinlichkeit, dass die zweite das auch tut, kleiner als die Wahrscheinlichkeit, dass die zweite eine 2 zeigt.
Bedingte Wahrscheinlichkeit¶
Nutzung von Zusatzinformationen¶
- Die bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit unter Berücksichtigung von Zusatzinformationen
- Beispielsweise ist für einen 50 jährigen die Wahrscheinlichkeit, 80 Jahre zu werden, höher als für ein Neugeborenes
- Allgemein wird mit $P(A|B)$ die Wahrscheinlichkeit von $A$ bezeichnet, wenn bereits bekannt ist, dass $B$ eingetreten ist
- Das Ereignis $B$, dessen Eintritt vorausgesetzt ist, heißt Hypothese
Bedingte Wahrscheinlichkeit¶
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$
bezeichnet man als bedingte Wahrscheinlichkeit von $A$ unter der Hypothese $B$
man sagt auch "gegeben $B$"
- Die Hypothese $B$ ist also vorausgesetzt (im Beispiel ist jemand bereits 50 Jahre alt geworden)
- Das Ereignis $A$ ist das Ereignis, dessen Wahrscheinlichkeit interessiert (im Beispiel ist $A$ das Ereignis, älter als 80 zu werden)
- Man bezeichnet $P(A)$ auch als totale Wahrscheinlichkeit, wenn man den Unterschied zu einer bedingten Wahrscheinlichkeit verdeutlichen will
Beispiel zur bedingten Wahrscheinlichkeit¶
- Sei $E_{m50}$ das Ereignis, dass ein männliches Neugeborenes ein Alter von mindestens 50 Jahren erreichen wird; laut Sterbetafel ist $P(E_{m50}) = 0.919$
- für 80 Jahre $P(E_{m80}) = 0.365$
- dann wegen $E_{m50} \cap E_{m80} = E_{m80}$ $$ P(E_{m80} | E_{m50}) = \frac{P(E_{m80} \cap E_{m50})}{P(E_{m50})} = \frac{0.365}{0.919} = 0.397 $$
- für weibliche Neugeborene $P(E_{w50}) = 0.958$ und $P(E_{w80}) = 0.566$
$$ P(E_{w80} | E_{w50}) = \frac{P(E_{w80} \cap E_{w50})}{P(E_{w50})} = \frac{0.566}{0.958} = 0.591 $$
Beispiele für Hypothesen¶
- Frage: Wie groß ist die Wahrscheinlichkeit für eine Frau an ihrem hundertsten Geburtstag, dass sie ihren nächsten Geburtstag erlebt?
Hypothese: Eine Frau erreicht ihren hundersten Geburtstag
- Frage: Wie groß ist die Wahrscheinlichkeit auf Darmkrebs, wenn Spuren von Blut im Stuhl gefunden wurden?
Hypothese: Es wurden Spuren von Blut im Stuhl gefunden
- Frage: Wie groß ist die Wahrscheinlichkeit, dass ein TB-Test die Krankheit anzeigt?
Hypothese: Patient ist krank
- Frage: Wie groß ist die Wahrscheinlichkeit, dass ein positiv getesteter Proband tatsächlich an TB erkrankt ist?
Hypothese: Patient wurde positiv getestet
- Frage: Wie hoch ist die Wahrscheinlichkeit einer geimpften Person für einen schweren Krankheitsverlauf?
Hypothese: Person ist geimpft
Beispiel aus dem Wahlkampf 2017¶
- Richtige Aussage: 40% der befristet Beschäftigten sind zwischen 25 und 35 Jahren alt
- Falsche Aussage eines Spitzenpolitikers: 40% der Beschäftigten zwischen 25 und 35 Jahren sind befristet beschäftigt
Heuristische Begründung der Formel¶
$$ P(A|B) = \frac{P(A\cap B)}{P(B)} $$
- unter der Hypothese $B$ ist $B$ sicher, also $P(B|B) = 1$; daher wird durch $P(B)$ geteilt
- unter der Hypothese $B$ sind diejenigen Elementarereignisse von $A$, die nicht in $B$ liegen, irrelevant; daher steht im Zähler $P(A \cap B)$ und nicht $P(A)$
Rechenregeln¶
- $P(A|B)$ ist eine Wahrscheinlichkeit für $A$, erfüllt also die Rechenregeln für Wahrscheinlichkeiten
- die wichtigste ist die Regel für die Wahrscheinlichkeit des Komplementärereignisses $$ P(A^c|B) = 1 - P(A|B) $$
Produktformel¶
$$ P(A \cap B) = P(A|B) \cdot P(B) $$
Für unabhängige $ A $ und $ B $ lautet die Produktformel $$ P(A \cap B) = P(A) \cdot P(B) $$
Also sind $ A $ und $ B $ genau dann unabhängig, wenn $$ P(A|B) = P(A) $$
Satz von der totalen Wahrscheinlichkeit¶
Bekannt:
- totale Wahrscheinlichkeit $P(B)$ und damit auch $P(B^c)$
- bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
Gesucht: totale Wahrscheinlichkeit $P(A)$
\begin{align*} P(A) &= P(A \cap B) + P(A \cap B^c) \\ &= P(A | B) \cdot P(B) + P(A | B^c) \cdot P(B^c) \\ &= P(A | B) \cdot P(B) + P(A | B^c) \cdot (1-P(B)) \end{align*}
Bayessche Formel¶
Bekannt:
- totale Wahrscheinlichkeit $P(B)$
- bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
- totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit
Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$ $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$
Beispiel Röntgenreihenuntersuchung¶
In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt. Beispielhafte Daten:
- bei 94% aller Erkrankten schlägt der Test an
- bei 1% der Gesunden schlägt der Test an
- 99.8% aller Probanden sind gesund
Zufällig herausgegriffener Proband
- $A$: "Verdacht auf TB"
- $B$: "an TB erkrankt"
Röntgenreihenuntersuchungen, Fortsetzung¶
- $P(B) = 0.002$ (totale Wahrscheinlichkeit)
- $P(A|B) = 0.94$ (bedingte Wahrscheinlichkeit)
- $P(A|B^c) = 0.01$ (bedingte Wahrscheinlichkeit)
Satz von der totalen Wahrscheinlichkeit \begin{align*} P(A) &= P(A|B) \cdot P(B) + P(A|B^c) \cdot P(B^c) \\ &= 0.94 \cdot 0.002 + 0.01 \cdot 0.998 \\ &= 0.00188 + 0.00998 \\ &= 0.01186 \end{align*}
1.186% aller Probanden verlassen die Untersuchung mit einem Verdacht,
aber nur 0.2% aller Probanden sind krank
Fragen zur Röntgenreihenuntersuchung¶
- Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt?
- Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch?
- Mit welcher Wahrscheinlichkeit wird eine falsche Diagnose gestellt?
erste Frage¶
Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt?
"Falsch negativer Befund": Krankheit übersehen $$ P(A^c|B) = 1 - P(A|B) = 1 - 0.94 = 0.06 $$ Die Wahrscheinlichkeit, dass ein Kranker für gesund gehalten wird, beträgt 6%
zweite Frage¶
Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch?
"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert \begin{align*} P(B^c | A) &= 1 - P(B|A) \\ &= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\ &= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\ &= 1 - 0.1585 \\ &= 0.8415 \end{align*} Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit gesund
dritte Frage¶
Mit welcher Wahrscheinlichkeit kommt es zu einer Fehldiagnose?
Das ist eine totale Wahrscheinlichkeit, nämlich \begin{align*} P(A \cap B^c) + P(A^c \cap B) &= P(A|B^c) \cdot P(B^c) + P(A^c|B) \cdot P(B) \\ &= 0.06 \cdot 0.002 + 0.01 \cdot 0.998 \\ &= 0.0101 \end{align*} Die Wahrscheinlichkeit einer Fehldiagnose beträgt 1.01%
Wahrscheinlichkeitsbäume¶
Juwelenwespen¶
Juwelenwespen legen Eier in Puppen anderer Insekten. Das Geschlechterverhältnis ist
- 95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
- 10% weibliche und 90% männliche Eier andernfalls
Folgendes Experiment wird modelliert: Eine Puppe wurde von zwei Juwelenwespen gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt.
- $A$: Ei ist weiblich
- $A^c$: Ei ist männlich
- $B$ : Ei ist von erster Wespe
- $B^c$ : Ei ist von zweiter Wespe
Wahrscheinlichkeitsbaum Juwelenwespe¶
Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.
Eine Puppe wurde zweimal gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt. Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?
- $A$: Ei ist weiblich
- $A^c$: Ei ist männlich
- $B$ : Ei ist von erster Wespe
- $B^c$ : Ei ist von zweiter Wespe
Gesucht $P(B^c|A^c)$
Bekannt: $$ P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90 $$
$$ P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)} = \frac{0.90 \cdot 0.5}{0.475} = 0.947 $$
Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%
Juwelenwespe: Genetische Vielfalt¶
- Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
- Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
- Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen $$ 0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138 $$
Hardy-Weinberg Gleichgewicht¶
- Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$. Dann hat jedes Individuum einen der folgenden Genotypen: $AA$, $Aa$ oder $aa$.
- Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$
- Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.
Modell¶
- $V_{AA}$: "Vater mit Genotpy $AA$"
- $V_{Aa}$: "Vater mit Genotyp $Aa$"
- $V_{aa}$: "Vater mit Genotyp $aa$"
- $M_{AA}$: "Mutter mit Genotyp $AA$"
- $K_{AA}$: "Kind mit Genotyp $AA$"
- $M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein
- Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.
- Dieselben Größen für die Kindgeneration.
- Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln
- $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 1 & 1/2 & 0 \\ Aa & 1/2 & 1/4 & 0 \\ aa & 0 & 0 & 0 \end{array} $$
Mit der Formel für die totale Wahrscheinlichkeit
\begin{align*} P(K_{AA}) &= P(K_{AA}|M_{AA} \cap V_{AA}) \cdot P(M_{AA} \cap V_{AA}) + P(K_{AA}|M_{AA} \cap V_{Aa}) \cdot P(M_{AA} \cap V_{Aa}) \\ &+ P(K_{AA}|M_{Aa} \cap V_{AA}) \cdot P(M_{Aa} \cap V_{AA}) + P(K_{AA}|M_{Aa} \cap V_{Aa}) \cdot P(M_{Aa} \cap V_{Aa}) \\ &= 1 \cdot u \cdot u + \frac12 \cdot u \cdot 2v + \frac12 \cdot 2v \cdot u + \frac14 \cdot 2v \cdot 2v \\ &= (u+v)^2 \end{align*}
Genauso: \begin{align*} P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\ P(K_{aa}) &= (v+w)^2 \end{align*}
Die Population ist im Gleichgewicht, wenn $P(K_{AA}) = P(V_{AA}) = P(M_{AA})$ usw., d. h. wenn die Hardy-Weinberg Gleichungen gelten: \begin{align*} (u+v)^2 &= u\\ 2v + 2(u \cdot w - v^2) &= 2v\\ (w+v)^2 &= w \end{align*}
Dies ist genau dann der Fall ist, wenn \begin{equation*} v^2 = u \cdot w \end{equation*}
Seltene Erberkrankungen¶
Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr 1 Mensch unter 40000 betroffen ist. Wir wollen $u$, $v$ und $w$ bestimmen.
- Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.
- Man macht keinen großen Fehler, wenn man $u = 1$ setzt. Dann folgt aus den Hardy-Weinberg Gleichungen $$ v^2 = u \cdot w \cong w = \frac1{40000} $$ also $$ v = \frac1{200} $$
Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.
\begin{align*} u &= 1 \\ v &= \frac1{200} \\ w &= \frac1{40000} \end{align*}
Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird. Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.
- In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.
- Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität $$ v^2 = u $$
- $v$ ist winzig, dann ist $u$ also noch winziger. Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten $$ 2v = 1 - u - w \cong 1 - w = \frac1{40000} $$
\begin{align*} u &= 1.56 \cdot 10^{-10} \\ v &= \frac1{80000} \\ w &= 1 - \frac1{40000} \end{align*}