Mathematik für Biologiestudierende¶
Wintersemester 2025/26
18.11.2025
© 2025 Prof. Dr. Rüdiger W. Braun
Wiederholung (interaktiv)¶
Gehen Sie auf die Website
und geben Sie folgende Zugangsnummer ein
- 670719
oder scannen Sie den QR-Code

Themen heute¶
- Bedingte Wahrscheinlichkeit
- Wahrscheinlichkeitsbäume
- Hardy-Weinberg Gesetz
- Grundlagen der Hypothesentests
- Binomialtest
import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd
Bedingte Wahrscheinlichkeit¶
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$
bezeichnet man als bedingte Wahrscheinlichkeit von $A$ unter der Hypothese $B$
man sagt auch "Wahrscheinlichkeit von $A$ gegeben $B$"
Beispiel Röntgenreihenuntersuchung¶
In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt. Beispielhafte Daten:
- bei 94% aller Erkrankten schlägt der Test an
- bei 1% der Gesunden schlägt der Test an
- 99.8% aller Probanden sind gesund
Zufällig herausgegriffener Proband
- $A$: "Verdacht auf TB"
- $B$: "an TB erkrankt"
- $P(B) = 0.002$ gegeben
- $P(A|B) = 0.94$ gegeben
- $P(A|B^c) = 0.01$ gegeben
- $P(A) = 0.01186$ hatten wir mit dem Satz von der totalen Wahrscheinlichkeit bestimmt
Bayessche Formel¶
Bekannt:
- totale Wahrscheinlichkeit $P(B)$
- bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
- totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit
Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$ $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$
"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert
Letztes Mal ausgerechnet:
$$ \begin{align*}
P(B^c | A)
&= 1 - P(B|A) \\
&= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\
&= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\
&= 1 - 0.1585 \\
&= 0.8415
\end{align*}
$$
Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit gesund
Beispiel: Mit welcher Wahrscheinlichkeit ist ein Proband, bei dem die Untersuchung keinen Verdacht zeigt, auch tatsächlich gesund?
Gesucht $P(B^c|A^c)$
In der Bayesschen Formel $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$ müssen wir $A$ durch $A^c$ und $B$ durch $B^c$ ersetzen.
Benötigte Größen
- $P(A^c|B^c) = 1 - P(A|B^c) = 1 - 0.01 = 0.99$
- $P(B^c) = 0.998$
- $P(A^c) = 1 - P(A) = 1 - 0.01186 = 0.98814$
$$ \begin{align*} P(B^c|A^c) &= \frac{P(A^c|B^c)\cdot P(B^c)}{P(A^c)} \\ &= \frac{0.99 \cdot 0.998}{0.98814} \\ &= 0.99988 \end{align*} $$
In dieser Situation arbeitet der Test fast perfekt.
Wo kommt die hohe Rate an falsch positiven Befunden her?
- Unter $100\,000$ Probanden sind nur $200$ Erkrankte,
- aber $1\,186$ Verdachtsfälle
Wahrscheinlichkeitsbäume¶
Juwelenwespen¶
Juwelenwespen legen Eier in Puppen anderer Insekten. Das Geschlechterverhältnis ist
- 95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
- 10% weibliche und 90% männliche Eier andernfalls
Folgendes Experiment wird modelliert: Eine Puppe wurde von zwei Juwelenwespen gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt.
- $A$: Ei ist weiblich
- $A^c$: Ei ist männlich
- $B$ : Ei ist von erster Wespe
- $B^c$ : Ei ist von zweiter Wespe
Wahrscheinlichkeitsbaum Juwelenwespe¶
Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.
Eine Puppe wurde zweimal gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt. Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?
- $A$: Ei ist weiblich
- $A^c$: Ei ist männlich
- $B$ : Ei ist von erster Wespe
- $B^c$ : Ei ist von zweiter Wespe
Gesucht $P(B^c|A^c)$
Bekannt: $$ P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90 $$
$$ P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)} = \frac{0.90 \cdot 0.5}{0.475} = 0.947 $$
Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%
Juwelenwespe: Genetische Vielfalt¶
- Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
- Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
- Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen $$ 0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138 $$
Hardy-Weinberg Gleichgewicht¶
- Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$. Dann hat jedes Individuum einen der folgenden Genotypen: $AA$, $Aa$ oder $aa$.
- Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$
- Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.
Modell¶
- $V_{AA}$: "Vater mit Genotpy $AA$"
- $V_{Aa}$: "Vater mit Genotyp $Aa$"
- $V_{aa}$: "Vater mit Genotyp $aa$"
- $M_{AA}$: "Mutter mit Genotyp $AA$"
- $K_{AA}$: "Kind mit Genotyp $AA$"
- $M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein
- Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.
- Dieselben Größen für die Kindgeneration.
- Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln für jede Variante von $XY$ bzw. $ZW$ als $AA$, $Aa$ oder $aa$
- $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 1 & 1/2 & 0 \\ Aa & 1/2 & 1/4 & 0 \\ aa & 0 & 0 & 0 \end{array} $$
- $P(K_{Aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 1/2 & 1 \\ Aa & 1/2 & 1/2 & 1/2 \\ aa & 1 & 1/2 & 0 \end{array} $$
- $P(K_{aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 0 & 0 \\ Aa & 0 & 1/4 & 1/2 \\ aa & 0 & 1/2 & 1 \end{array} $$
Mit der Formel für die totale Wahrscheinlichkeit
\begin{align*} P(K_{AA}) &= (u+v)^2 \\ P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\ P(K_{aa}) &= (v+w)^2 \end{align*}
Die Population ist im Gleichgewicht, wenn $$ \begin{align*} P(K_{AA}) &= P(V_{AA}) = P(M_{AA}) \\ P(K_{Aa}) &= P(V_{Aa}) = P(M_{Aa}) \\ P(K_{aa}) &= P(V_{aa}) = P(M_{aa}) \end{align*} $$
d. h. wenn die Hardy-Weinberg Gleichungen gelten: $$ \begin{align*} (u+v)^2 &= u\\ 2v + 2(u \cdot w - v^2) &= 2v\\ (w+v)^2 &= w \end{align*} $$
Dies ist genau dann der Fall ist, wenn \begin{equation*} v^2 = u \cdot w \end{equation*}
Seltene Erberkrankungen¶
Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr 1 Mensch unter 40000 betroffen ist. Wir wollen $u$, $v$ und $w$ bestimmen.
- Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.
- Man macht keinen großen Fehler, wenn man $u = 1$ setzt. Dann folgt aus den Hardy-Weinberg Gleichungen $$ v^2 = u \cdot w \cong w = \frac1{40000} $$ also $$ v = \frac1{200} $$
Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.
Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird. Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.
- In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.
- Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität $$ v^2 = u $$
- $v$ ist winzig, dann ist $u$ also noch winziger. Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten $$ 2v = 1 - u - w \cong 1 - w = \frac1{40000} $$
Schließende Statistik¶
Hypothesentests¶
Beispiel¶
Es wird vermutet, dass Wärme den Keimerfolg eines Getreides verringert. 900 Saatkörner werden ausgebracht.
- bunte Felder: Erfolg
- schwarze Felder: Misserfolg
Frage¶
Gibt es weniger Erfolge bei dem Anbauversuch im Warmen?
- im kühlem Klima gab es 720 Keimerfolge
- im warmen nur 696
die richtige Frage ist aber
- beruht der Unterschied auf Zufall
- oder ist er signifikant?
Binäre Antwort wird erwartet¶
obwohl prinzipiell drei Szenarien möglich sind
- klare Hinweise auf "ja"
- klare Hinweise auf "nein"
- unklares Ergebnis
"klar" und "unklar" bemisst sich nach dem Signifikanzniveau
Beispiel Saatgut¶
Generell sind vier Ausgänge des Experiments möglich
Beeinträchtigt die Temperaturerhöhung den Keimerfolg?¶
Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "nein"
🟢 Korrekte Antwort
Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "ja"
🔴 Falsche Antwort
Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "nein"
🔴 Falsche Antwort
Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "ja"
🟢 Korrekte Antwort
Was soll im Fall unklarer Datenlage die Antwort sein?
- Forschungsteam hat Zusammenhang zwischen Temperatur und Keimerfolg entdeckt und will Ergebnis in angesehener Zeitschrift publizieren
- Die Zeitschrift fordert stichhaltige Beweise
- Wenn die Zeitschrift die Datenlage für unklar hält, wird sie die Publikation ablehnen
Die Zeitschrift möchte ausschließen, dass ein zufälliger Effekt aufgebauscht wird
- Nullhypothese: Es gibt keinen Effekt
- Das Gegenteil der Nullhypothese ist die Alternative
- Die Alternative ist also das, was "bewiesen" werden soll
- Wenn die Daten klar für die Alternative sprechen, wird die Alternative angenommen
- In allen anderen Fällen wird die Nullhypothese beibehalten
Nullhypothese und Alternativhypothese¶
Durch die Auswahl der Stichprobe kommt Zufall ins Spiel. Falsche Antworten sind unvermeidbar.
- Ziel der Statistik ist es, Schranken für die Wahrscheinlichkeit falscher Antworten zu geben
- Nullhypothese $H_0$: Das ist diejenige Hypothese, deren fälschliche Ablehnung man nach Möglichkeit vermeiden will
- Alternativhypothese $H_1$: Das ist die Alternative zur Nullhypothese
bei unklarer Datenlage wird also die Nullhypothese beibehalten
- Wissenschaft ist konservativ. Wer mit einer neuen Idee kommt, muss zeigen, dass sie besser ist als die alte
- typische Nullhypothesen:
- bestehende Theorie mindestens so gut wie der neue Ansatz
- der untersuchte Stoff ist ohne Einfluss
- das Präparat ist wirkungslos
- der beobachtete Unterschied im Gen ist folgenlos
Kleines Theaterstück¶
- Forscher: Habe wichtige Beobachtung gemacht
- Statistikerin: Ist doch alles Zufall
- Forscher: Kann überhaupt nicht sein
- Statistikerin: Zeigen Sie mal die Daten
- Forscher zeigt Daten
- Statistikerin rechnet
Happy End¶
- Statistikerin: Mit Wahrscheinlichkeit 1% beruht das Ergebnis auf Zufall
- Forscher: das ist eine sehr kleine Wahrscheinlichkeit
- Forscher reicht Arbeit bei Zeitschrift ein
offenes Ende¶
- Statistikerin: Mit Wahrscheinlichkeit 20% beruht das Ergebnis auf Zufall
- Forscher: Ich hätte gedacht, die Wahrscheinlichkeit sei viel kleiner
- Abgang Tür rechts zurück ins Labor
Fehler erster und zweiter Art¶
- Der Fehler 1. Art ist die fälschliche Ablehnung der Nullhypothese
- Der Fehler 2. Art ist die fälschliche Beibehaltung der Nullhypothese
Die Priorität liegt auf der Vermeidung des Fehlers 1. Art. Diese Asymmetrie ist ein entscheidendes Merkmal der Testtheorie.
| $H_0$ wird beibehalten | $H_0$ wird abgelehnt | |
|---|---|---|
| $H_0$ trifft zu | richtige Entscheidung | Fehler 1. Art |
| $H_1$ trifft zu | Fehler 2. Art | richtige Entscheidung |
Sprechweise¶
- $H_0$ wird beibehalten oder abgelehnt
- $H_1$ wird angenommen oder verworfen
Signifikanztests¶
- Für den Fall, dass $H_0$ zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem abgelehnt wird, als Fehlerwahrscheinlichkeit erster Art
- Ein Test heißt Signifikanztest zum Niveau $\alpha$, wenn alle Fehlerwahrscheinlichkeiten erster Art $\le \alpha$ sind
- Das übliche Niveau ist 0.05
- Für den Fall, dass $H_0$ nicht zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem beibehalten wird, als Fehlerwahrscheinlichkeit zweiter Art
Binomialtests¶
Beispiel: Saatgut¶
- Wir konstruieren einen Test zum Signifikanzniveau $\alpha = 0.05$
- Stichprobenumfang ist 900
- $p_0 = 0.80$ ist die Vergleichswahrscheinlichkeit, denn in kühlem Klima keimen 80% des Saatguts
- $p$ ist die unbekannte tatsächliche Wahrscheinlichkeit, dass im warmen Klima ein zufällig herausgegriffenes Korn keimt
- Nullhypothese $H_0 = \{ p \ge p_0 \}$, d.h. die Nullhypothese besagt, dass der Keimerfolg in warmem Klima nicht geringer ist als in kühlem
- Bei der Bestimmung des Fehlers 1. Art gehen wir davon aus, dass $H_0$ wahr ist
Pythonsagt: Mit Wahrscheinlichkeit 0.0452 beobachten wir in diesem Fall 699 oder weniger Keimerfolge- Wenn wir also sagen: Bei oder weniger Bakterien wird $H_0$ abgelehnt, dann machen wir den Fehler 1. Art mit einer Wahrscheinlichkeit von ca 4.5%
Wo kommen diese Zahlen her:
from scipy import stats
P = stats.binom(900, 0.80) # W'keitsverteilung unter Nullhypothese
P.cdf(699) # cumulative distribution function
# W'keit, dass 699 oder weniger Keimerfolge
0.045195625799864816
Zum Vergleich:
P.cdf(700)
0.05346354525840081
Diese Fehlerwahrscheinlichkeit ist höher als das Signifikanzniveau $\alpha=0.05$
Wir hätten den Wert 700 finden können mittels
P.ppf(0.05)
700.0
P.ppf: percent point functionP.ppf(0.05)ist das kleinste $k$, für dasP.cdf(k)über 0.05 liegt
Entscheidungsregel für das Beispiel¶
$n=900$ und $p_0=0.80$ und $H_0=\{p\ge p_0\}$ und $\alpha=0.05$
Die Nullhypothese wird abgelehnt, wenn 699 oder weniger Erfolge beobachtet werden
Bei 700 oder mehr Erfolgen wird die Nullhypothese beibehalten
Im Beispiel hatten wir 696 Keimerfolge. Also ist nachgewiesen, dass der Keimerfolg in warmem Klima sinkt