Mathematik für Biologiestudierende¶

Wintersemester 2025/26

18.11.2025

Wiederholung (interaktiv)¶

Gehen Sie auf die Website

https://pingo.coactum.de

und geben Sie folgende Zugangsnummer ein

670719

oder scannen Sie den QR-Code

QR-Code

Themen heute¶

Bedingte Wahrscheinlichkeit
Wahrscheinlichkeitsbäume
Hardy-Weinberg Gesetz
Grundlagen der Hypothesentests
Binomialtest

In [1]:

import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd

Bedingte Wahrscheinlichkeit¶

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

bezeichnet man als bedingte Wahrscheinlichkeit von $A$ unter der Hypothese $B$

man sagt auch "Wahrscheinlichkeit von $A$ gegeben $B$"

Beispiel Röntgenreihenuntersuchung¶

In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt. Beispielhafte Daten:

bei 94% aller Erkrankten schlägt der Test an
bei 1% der Gesunden schlägt der Test an
99.8% aller Probanden sind gesund

Zufällig herausgegriffener Proband

$A$: "Verdacht auf TB"
$B$: "an TB erkrankt"

$P(B) = 0.002$ gegeben
$P(A|B) = 0.94$ gegeben
$P(A|B^c) = 0.01$ gegeben
$P(A) = 0.01186$ hatten wir mit dem Satz von der totalen Wahrscheinlichkeit bestimmt

Bayessche Formel¶

Bekannt:

totale Wahrscheinlichkeit $P(B)$
bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit

Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$ $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$

"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert

Letztes Mal ausgerechnet:
$$ \begin{align*} P(B^c | A) &= 1 - P(B|A) \\ &= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\ &= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\ &= 1 - 0.1585 \\ &= 0.8415 \end{align*} $$

Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit gesund

Beispiel: Mit welcher Wahrscheinlichkeit ist ein Proband, bei dem die Untersuchung keinen Verdacht zeigt, auch tatsächlich gesund?

Gesucht $P(B^c|A^c)$

In der Bayesschen Formel $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$ müssen wir $A$ durch $A^c$ und $B$ durch $B^c$ ersetzen.

Benötigte Größen

$P(A^c|B^c) = 1 - P(A|B^c) = 1 - 0.01 = 0.99$
$P(B^c) = 0.998$
$P(A^c) = 1 - P(A) = 1 - 0.01186 = 0.98814$

$$ \begin{align*} P(B^c|A^c) &= \frac{P(A^c|B^c)\cdot P(B^c)}{P(A^c)} \\ &= \frac{0.99 \cdot 0.998}{0.98814} \\ &= 0.99988 \end{align*} $$

In dieser Situation arbeitet der Test fast perfekt.

Wo kommt die hohe Rate an falsch positiven Befunden her?

Unter $100\,000$ Probanden sind nur $200$ Erkrankte,
aber $1\,186$ Verdachtsfälle

Wahrscheinlichkeitsbäume¶

$Wahrscheinlichkeitsbaum$

Juwelenwespen¶

Juwelenwespen legen Eier in Puppen anderer Insekten. Das Geschlechterverhältnis ist

95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
10% weibliche und 90% männliche Eier andernfalls

Folgendes Experiment wird modelliert: Eine Puppe wurde von zwei Juwelenwespen gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt.

$A$: Ei ist weiblich
$A^c$: Ei ist männlich
$B$ : Ei ist von erster Wespe
$B^c$ : Ei ist von zweiter Wespe

Wahrscheinlichkeitsbaum Juwelenwespe¶

Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.

$Wahrscheinlichkeitsbaum$

Wahrscheinlichkeitsbaum Juwelenwespe¶

Totale Wahrscheinlichkeiten für die zweimal gestochene Puppe

$Wahrscheinlichkeitsbaum$

Eine Puppe wurde zweimal gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt. Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?

$A$: Ei ist weiblich
$A^c$: Ei ist männlich
$B$ : Ei ist von erster Wespe
$B^c$ : Ei ist von zweiter Wespe

Gesucht $P(B^c|A^c)$

Bekannt: $$ P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90 $$

$$ P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)} = \frac{0.90 \cdot 0.5}{0.475} = 0.947 $$

Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%

Juwelenwespe: Genetische Vielfalt¶

Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen $$ 0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138 $$

Hardy-Weinberg Gleichgewicht¶

Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$. Dann hat jedes Individuum einen der folgenden Genotypen: $AA$, $Aa$ oder $aa$.
Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$
Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.

Modell¶

$V_{AA}$: "Vater mit Genotpy $AA$"
$V_{Aa}$: "Vater mit Genotyp $Aa$"
$V_{aa}$: "Vater mit Genotyp $aa$"
$M_{AA}$: "Mutter mit Genotyp $AA$"
$K_{AA}$: "Kind mit Genotyp $AA$"
$M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein

Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.
Dieselben Größen für die Kindgeneration.
Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln für jede Variante von $XY$ bzw. $ZW$ als $AA$, $Aa$ oder $aa$

$P(K_{AA} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 1 & 1/2 & 0 \\ Aa & 1/2 & 1/4 & 0 \\ aa & 0 & 0 & 0 \end{array} $$

$P(K_{Aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 1/2 & 1 \\ Aa & 1/2 & 1/2 & 1/2 \\ aa & 1 & 1/2 & 0 \end{array} $$

$P(K_{aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 0 & 0 \\ Aa & 0 & 1/4 & 1/2 \\ aa & 0 & 1/2 & 1 \end{array} $$

Mit der Formel für die totale Wahrscheinlichkeit

\begin{align*} P(K_{AA}) &= (u+v)^2 \\ P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\ P(K_{aa}) &= (v+w)^2 \end{align*}

Die Population ist im Gleichgewicht, wenn $$ \begin{align*} P(K_{AA}) &= P(V_{AA}) = P(M_{AA}) \\ P(K_{Aa}) &= P(V_{Aa}) = P(M_{Aa}) \\ P(K_{aa}) &= P(V_{aa}) = P(M_{aa}) \end{align*} $$

d. h. wenn die Hardy-Weinberg Gleichungen gelten: $$ \begin{align*} (u+v)^2 &= u\\ 2v + 2(u \cdot w - v^2) &= 2v\\ (w+v)^2 &= w \end{align*} $$

Dies ist genau dann der Fall ist, wenn \begin{equation*} v^2 = u \cdot w \end{equation*}

Seltene Erberkrankungen¶

Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr 1 Mensch unter 40000 betroffen ist. Wir wollen $u$, $v$ und $w$ bestimmen.

Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.
Man macht keinen großen Fehler, wenn man $u = 1$ setzt. Dann folgt aus den Hardy-Weinberg Gleichungen $$ v^2 = u \cdot w \cong w = \frac1{40000} $$ also $$ v = \frac1{200} $$

Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.

Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird. Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.

In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.
Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität $$ v^2 = u $$
$v$ ist winzig, dann ist $u$ also noch winziger. Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten $$ 2v = 1 - u - w \cong 1 - w = \frac1{40000} $$

Schließende Statistik¶

Hypothesentests¶

Beispiel¶

Es wird vermutet, dass Wärme den Keimerfolg eines Getreides verringert. 900 Saatkörner werden ausgebracht.

bunte Felder: Erfolg
schwarze Felder: Misserfolg

$Keimerfolge in kühlem und warmem Klima$

Frage¶

Gibt es weniger Erfolge bei dem Anbauversuch im Warmen?

im kühlem Klima gab es 720 Keimerfolge
im warmen nur 696

die richtige Frage ist aber

beruht der Unterschied auf Zufall
oder ist er signifikant?

Zwei Probleme¶

die aber miteinander verbunden sind

Zufallseinflüsse unvermeidlich¶

Sichere Aussagen unmöglich
Vorgabe des Signifikanzniveaus begrenzt Fehlerwarscheinlichkeit

Binäre Antwort wird erwartet¶

obwohl prinzipiell drei Szenarien möglich sind

klare Hinweise auf "ja"
klare Hinweise auf "nein"
unklares Ergebnis

"klar" und "unklar" bemisst sich nach dem Signifikanzniveau

Beispiel Saatgut¶

Generell sind vier Ausgänge des Experiments möglich

Beeinträchtigt die Temperaturerhöhung den Keimerfolg?¶

Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "nein"

🟢 Korrekte Antwort

Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "ja"

🔴 Falsche Antwort

Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "nein"

🔴 Falsche Antwort

Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "ja"

🟢 Korrekte Antwort

Was soll im Fall unklarer Datenlage die Antwort sein?

Forschungsteam hat Zusammenhang zwischen Temperatur und Keimerfolg entdeckt und will Ergebnis in angesehener Zeitschrift publizieren
Die Zeitschrift fordert stichhaltige Beweise
Wenn die Zeitschrift die Datenlage für unklar hält, wird sie die Publikation ablehnen

Die Zeitschrift möchte ausschließen, dass ein zufälliger Effekt aufgebauscht wird

Nullhypothese: Es gibt keinen Effekt
Das Gegenteil der Nullhypothese ist die Alternative
Die Alternative ist also das, was "bewiesen" werden soll
Wenn die Daten klar für die Alternative sprechen, wird die Alternative angenommen
In allen anderen Fällen wird die Nullhypothese beibehalten

Nullhypothese und Alternativhypothese¶

Durch die Auswahl der Stichprobe kommt Zufall ins Spiel. Falsche Antworten sind unvermeidbar.

Ziel der Statistik ist es, Schranken für die Wahrscheinlichkeit falscher Antworten zu geben
Nullhypothese $H_0$: Das ist diejenige Hypothese, deren fälschliche Ablehnung man nach Möglichkeit vermeiden will
Alternativhypothese $H_1$: Das ist die Alternative zur Nullhypothese

bei unklarer Datenlage wird also die Nullhypothese beibehalten

Wissenschaft ist konservativ. Wer mit einer neuen Idee kommt, muss zeigen, dass sie besser ist als die alte
typische Nullhypothesen:
- bestehende Theorie mindestens so gut wie der neue Ansatz
- der untersuchte Stoff ist ohne Einfluss
- das Präparat ist wirkungslos
- der beobachtete Unterschied im Gen ist folgenlos

Kleines Theaterstück¶

Forscher: Habe wichtige Beobachtung gemacht
Statistikerin: Ist doch alles Zufall
Forscher: Kann überhaupt nicht sein
Statistikerin: Zeigen Sie mal die Daten
Forscher zeigt Daten
Statistikerin rechnet

Happy End¶

Statistikerin: Mit Wahrscheinlichkeit 1% beruht das Ergebnis auf Zufall
Forscher: das ist eine sehr kleine Wahrscheinlichkeit
Forscher reicht Arbeit bei Zeitschrift ein

offenes Ende¶

Statistikerin: Mit Wahrscheinlichkeit 20% beruht das Ergebnis auf Zufall
Forscher: Ich hätte gedacht, die Wahrscheinlichkeit sei viel kleiner
Abgang Tür rechts zurück ins Labor

Fehler erster und zweiter Art¶

Der Fehler 1. Art ist die fälschliche Ablehnung der Nullhypothese
Der Fehler 2. Art ist die fälschliche Beibehaltung der Nullhypothese

Die Priorität liegt auf der Vermeidung des Fehlers 1. Art. Diese Asymmetrie ist ein entscheidendes Merkmal der Testtheorie.

	$H_0$ wird beibehalten	$H_0$ wird abgelehnt
$H_0$ trifft zu	richtige Entscheidung	Fehler 1. Art
$H_1$ trifft zu	Fehler 2. Art	richtige Entscheidung

Sprechweise¶

$H_0$ wird beibehalten oder abgelehnt
$H_1$ wird angenommen oder verworfen

Signifikanztests¶

Für den Fall, dass $H_0$ zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem abgelehnt wird, als Fehlerwahrscheinlichkeit erster Art
Ein Test heißt Signifikanztest zum Niveau $\alpha$, wenn alle Fehlerwahrscheinlichkeiten erster Art $\le \alpha$ sind
Das übliche Niveau ist 0.05
Für den Fall, dass $H_0$ nicht zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem beibehalten wird, als Fehlerwahrscheinlichkeit zweiter Art

Binomialtests¶

Beispiel: Saatgut¶

Wir konstruieren einen Test zum Signifikanzniveau $\alpha = 0.05$
Stichprobenumfang ist 900
$p_0 = 0.80$ ist die Vergleichswahrscheinlichkeit, denn in kühlem Klima keimen 80% des Saatguts
$p$ ist die unbekannte tatsächliche Wahrscheinlichkeit, dass im warmen Klima ein zufällig herausgegriffenes Korn keimt
Nullhypothese $H_0 = \{ p \ge p_0 \}$, d.h. die Nullhypothese besagt, dass der Keimerfolg in warmem Klima nicht geringer ist als in kühlem

Bei der Bestimmung des Fehlers 1. Art gehen wir davon aus, dass $H_0$ wahr ist
Pythonsagt: Mit Wahrscheinlichkeit 0.0452 beobachten wir in diesem Fall 699 oder weniger Keimerfolge
Wenn wir also sagen: Bei oder weniger Bakterien wird $H_0$ abgelehnt, dann machen wir den Fehler 1. Art mit einer Wahrscheinlichkeit von ca 4.5%

Wo kommen diese Zahlen her:

In [2]:

from scipy import stats

In [3]:

P = stats.binom(900, 0.80)  #  W'keitsverteilung unter Nullhypothese

In [4]:

P.cdf(699)   # cumulative distribution function
# W'keit, dass 699 oder weniger Keimerfolge

Out[4]:

0.045195625799864816

Zum Vergleich:

In [5]:

P.cdf(700)

Out[5]:

0.05346354525840081

Diese Fehlerwahrscheinlichkeit ist höher als das Signifikanzniveau $\alpha=0.05$

Wir hätten den Wert 700 finden können mittels

In [6]:

P.ppf(0.05)

Out[6]:

700.0

P.ppf: percent point function
P.ppf(0.05) ist das kleinste $k$, für das P.cdf(k) über 0.05 liegt

Entscheidungsregel für das Beispiel¶

$n=900$ und $p_0=0.80$ und $H_0=\{p\ge p_0\}$ und $\alpha=0.05$
Die Nullhypothese wird abgelehnt, wenn 699 oder weniger Erfolge beobachtet werden
Bei 700 oder mehr Erfolgen wird die Nullhypothese beibehalten

Im Beispiel hatten wir 696 Keimerfolge. Also ist nachgewiesen, dass der Keimerfolg in warmem Klima sinkt