Mathematik für Biologiestudierende¶

Wintersemester 2025/26

18.11.2025

© 2025 Prof. Dr. Rüdiger W. Braun

Wiederholung (interaktiv)¶

Gehen Sie auf die Website

  • https://pingo.coactum.de

und geben Sie folgende Zugangsnummer ein

  • 670719

oder scannen Sie den QR-Code

QR-Code

Themen heute¶

  • Bedingte Wahrscheinlichkeit
  • Wahrscheinlichkeitsbäume
  • Hardy-Weinberg Gesetz
  • Grundlagen der Hypothesentests
  • Binomialtest
In [1]:
import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd

Bedingte Wahrscheinlichkeit¶

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

bezeichnet man als bedingte Wahrscheinlichkeit von $A$ unter der Hypothese $B$

man sagt auch "Wahrscheinlichkeit von $A$ gegeben $B$"

Beispiel Röntgenreihenuntersuchung¶

In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt. Beispielhafte Daten:

  • bei 94% aller Erkrankten schlägt der Test an
  • bei 1% der Gesunden schlägt der Test an
  • 99.8% aller Probanden sind gesund

Zufällig herausgegriffener Proband

  • $A$: "Verdacht auf TB"
  • $B$: "an TB erkrankt"
  • $P(B) = 0.002$ gegeben
  • $P(A|B) = 0.94$ gegeben
  • $P(A|B^c) = 0.01$ gegeben
  • $P(A) = 0.01186$ hatten wir mit dem Satz von der totalen Wahrscheinlichkeit bestimmt

Bayessche Formel¶

Bekannt:

  • totale Wahrscheinlichkeit $P(B)$
  • bedingte Wahrscheinlichkeiten $P(A|B)$ und $P(A|B^c)$
  • totale Wahrscheinlichkeit $P(A)$ aus dem Satz von der totalen Wahrscheinlichkeit

Gesucht: bedingte Wahrscheinlichkeit $P(B|A)$ $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$

"Falsch positiver Befund": Krankheit zu Unrecht diagnostiziert

Letztes Mal ausgerechnet:
$$ \begin{align*} P(B^c | A) &= 1 - P(B|A) \\ &= 1 - \frac{P(A|B) \cdot P(B)}{P(A)} \\ &= 1 - \frac{0.94 \cdot 0.002}{0.01186} \\ &= 1 - 0.1585 \\ &= 0.8415 \end{align*} $$

Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit gesund

Beispiel: Mit welcher Wahrscheinlichkeit ist ein Proband, bei dem die Untersuchung keinen Verdacht zeigt, auch tatsächlich gesund?

Gesucht $P(B^c|A^c)$

In der Bayesschen Formel $$ P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$ müssen wir $A$ durch $A^c$ und $B$ durch $B^c$ ersetzen.

Benötigte Größen

  • $P(A^c|B^c) = 1 - P(A|B^c) = 1 - 0.01 = 0.99$
  • $P(B^c) = 0.998$
  • $P(A^c) = 1 - P(A) = 1 - 0.01186 = 0.98814$

$$ \begin{align*} P(B^c|A^c) &= \frac{P(A^c|B^c)\cdot P(B^c)}{P(A^c)} \\ &= \frac{0.99 \cdot 0.998}{0.98814} \\ &= 0.99988 \end{align*} $$

In dieser Situation arbeitet der Test fast perfekt.

Wo kommt die hohe Rate an falsch positiven Befunden her?

  • Unter $100\,000$ Probanden sind nur $200$ Erkrankte,
  • aber $1\,186$ Verdachtsfälle

Wahrscheinlichkeitsbäume¶

Wahrscheinlichkeitsbaum

Juwelenwespen¶

Juwelenwespen legen Eier in Puppen anderer Insekten. Das Geschlechterverhältnis ist

  • 95% weibliche und 5% männliche Eier, wenn die Puppe noch nicht von einer anderen Juwelenwespe infiziert wurde
  • 10% weibliche und 90% männliche Eier andernfalls

Folgendes Experiment wird modelliert: Eine Puppe wurde von zwei Juwelenwespen gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt.

  • $A$: Ei ist weiblich
  • $A^c$: Ei ist männlich
  • $B$ : Ei ist von erster Wespe
  • $B^c$ : Ei ist von zweiter Wespe

Wahrscheinlichkeitsbaum Juwelenwespe¶

 

Der Wahrscheinlichkeitsbaum für eine zweimal gestochene Puppe. Beide Wespen haben dieselbe Anzahl Eier gelegt.

Wahrscheinlichkeitsbaum

Wahrscheinlichkeitsbaum Juwelenwespe¶

 

Totale Wahrscheinlichkeiten für die zweimal gestochene Puppe

Wahrscheinlichkeitsbaum

Eine Puppe wurde zweimal gestochen. Beide Wespen haben dieselbe Anzahl Eier gelegt. Mit welcher Wahrscheinlichkeit stammt ein zufällig ausgewähltes, männliches Ei von der zweiten Wespe?

  • $A$: Ei ist weiblich
  • $A^c$: Ei ist männlich
  • $B$ : Ei ist von erster Wespe
  • $B^c$ : Ei ist von zweiter Wespe

Gesucht $P(B^c|A^c)$

Bekannt: $$ P(A^c) = 0.475, \qquad P(B^c) = 0.5, \qquad P(A^c|B^c) = 0.90 $$

$$ P(B^c|A^c) = \frac{P(A^c|B^c)P(B^c)}{P(A^c)} = \frac{0.90 \cdot 0.5}{0.475} = 0.947 $$

Die Wahrscheinlichkeit, dass ein zufällig ausgewähltes männliches Ei von der zweiten Wespe stammt, beträgt 94.7%

Juwelenwespe: Genetische Vielfalt¶

  • Ein männliches Ei stammt mit Wahrscheinlichkeit 0.053 von der ersten und mit Wahrscheinlichkeit 0.947 von der zweiten Wespe
  • Ein weibliches Ei stammt mit Wahrscheinlichkeit 0.905 von der ersten und mit Wahrscheinlichkeit 0.095 von der zweiten Wespe
  • Treffen ein männliches und ein weibliches Ei aufeinander, so beträgt die Wahrscheinlichkeit, dass sie von derselben Wespe abstammen $$ 0.053 \cdot 0.905 + 0.947 \cdot 0.095 = 0.138 $$

Hardy-Weinberg Gleichgewicht¶

  • Ein Gen komme in zwei Ausprägungen vor, genannt $A$ und $a$. Dann hat jedes Individuum einen der folgenden Genotypen: $AA$, $Aa$ oder $aa$.
  • Wenn die Population in Hinblick auf dieses Gen im Gleichgewicht ist, dann haben diese drei Genotypen bestimmte Wahrscheinlichkeiten $ u $, $ 2v $ und $w$
  • Wenn $A$ das dominante Allel ist, dann kann man die Zahl $w$ beobachten, die Zahlen $ u $ und $v$ aber nicht.

Modell¶

  • $V_{AA}$: "Vater mit Genotpy $AA$"
  • $V_{Aa}$: "Vater mit Genotyp $Aa$"
  • $V_{aa}$: "Vater mit Genotyp $aa$"
  • $M_{AA}$: "Mutter mit Genotyp $AA$"
  • $K_{AA}$: "Kind mit Genotyp $AA$"
  • $M_{Aa}$, $M_{aa}$, $K_{Aa}$ und $K_{aa}$ sollten dann klar sein
  • Gegeben $P(V_{AA}) = P(M_{AA}) = u$, $P(V_{Aa}) = P(M_{Aa}) = 2v$ und $P(V_{aa}) = P(M_{aa}) = w$.
  • Dieselben Größen für die Kindgeneration.
  • Bestimmen wir die bedingten Wahrscheinlichkeiten $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ etc. nach den Mendelschen Regeln für jede Variante von $XY$ bzw. $ZW$ als $AA$, $Aa$ oder $aa$
  • $P(K_{AA} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 1 & 1/2 & 0 \\ Aa & 1/2 & 1/4 & 0 \\ aa & 0 & 0 & 0 \end{array} $$
  • $P(K_{Aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 1/2 & 1 \\ Aa & 1/2 & 1/2 & 1/2 \\ aa & 1 & 1/2 & 0 \end{array} $$
  • $P(K_{aa} \mid V_{XY} \cap M_{ZW})$ $$ \begin{array}{c|ccc} \text{Mutter} \Bigm\backslash \text{Vater} & AA & Aa & aa \\\hline AA & 0 & 0 & 0 \\ Aa & 0 & 1/4 & 1/2 \\ aa & 0 & 1/2 & 1 \end{array} $$

Mit der Formel für die totale Wahrscheinlichkeit

\begin{align*} P(K_{AA}) &= (u+v)^2 \\ P(K_{Aa}) &= 2v + 2 u \cdot w - 2 v^2 \\ P(K_{aa}) &= (v+w)^2 \end{align*}

Die Population ist im Gleichgewicht, wenn $$ \begin{align*} P(K_{AA}) &= P(V_{AA}) = P(M_{AA}) \\ P(K_{Aa}) &= P(V_{Aa}) = P(M_{Aa}) \\ P(K_{aa}) &= P(V_{aa}) = P(M_{aa}) \end{align*} $$

d. h. wenn die Hardy-Weinberg Gleichungen gelten: $$ \begin{align*} (u+v)^2 &= u\\ 2v + 2(u \cdot w - v^2) &= 2v\\ (w+v)^2 &= w \end{align*} $$

Dies ist genau dann der Fall ist, wenn \begin{equation*} v^2 = u \cdot w \end{equation*}

Seltene Erberkrankungen¶

Die Friedreich-Ataxie ist eine autosomal rezessiv vererbte Krankheit, von der ungefähr 1 Mensch unter 40000 betroffen ist. Wir wollen $u$, $v$ und $w$ bestimmen.

  • Da die Krankheit rezessiv vererbt wird, ist $w = 1/40000$.
  • Man macht keinen großen Fehler, wenn man $u = 1$ setzt. Dann folgt aus den Hardy-Weinberg Gleichungen $$ v^2 = u \cdot w \cong w = \frac1{40000} $$ also $$ v = \frac1{200} $$

Also ist jeder hunderste ein Genträger dieser seltenen Erkrankung.

Die SCA (spinozerebelläre Ataxie) ist eine Ataxie, die autosomal dominant vererbt wird. Sie ist ungefähr genauso häufig wie die Friedreich-Ataxie.

  • In diesem Fall sind die Leute mit Genkombination $ aa $ die einzig gesunden, also $ w = 1 - 1/40000 $.
  • Dann ergeben die Hardy-Weinberg Gleichungen näherungsweise die Identität $$ v^2 = u $$
  • $v$ ist winzig, dann ist $u$ also noch winziger. Wir vernachlässigen daher $u$ in der Formel $u + 2v + w = 1$ und erhalten $$ 2v = 1 - u - w \cong 1 - w = \frac1{40000} $$

Schließende Statistik¶

Hypothesentests¶

Beispiel¶

Es wird vermutet, dass Wärme den Keimerfolg eines Getreides verringert. 900 Saatkörner werden ausgebracht.

  • bunte Felder: Erfolg
  • schwarze Felder: Misserfolg

Keimerfolge in kühlem und warmem Klima

Frage¶

Gibt es weniger Erfolge bei dem Anbauversuch im Warmen?

  • im kühlem Klima gab es 720 Keimerfolge
  • im warmen nur 696

die richtige Frage ist aber

  • beruht der Unterschied auf Zufall
  • oder ist er signifikant?

Zwei Probleme¶

die aber miteinander verbunden sind

Zufallseinflüsse unvermeidlich¶

  • Sichere Aussagen unmöglich
  • Vorgabe des Signifikanzniveaus begrenzt Fehlerwarscheinlichkeit

Binäre Antwort wird erwartet¶

obwohl prinzipiell drei Szenarien möglich sind

  • klare Hinweise auf "ja"
  • klare Hinweise auf "nein"
  • unklares Ergebnis

"klar" und "unklar" bemisst sich nach dem Signifikanzniveau

Beispiel Saatgut¶

Generell sind vier Ausgänge des Experiments möglich

Beeinträchtigt die Temperaturerhöhung den Keimerfolg?¶

  • Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "nein"

    🟢 Korrekte Antwort

  • Die Temperaturerhöhung beeinträchtigt den Keimerfolg nicht und die statistische Auswertung des Experiments führt zur Antwort "ja"

    🔴 Falsche Antwort

  • Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "nein"

    🔴 Falsche Antwort

  • Die Temperaturerhöhung beeinträchtigt den Keimerfolg und die statistische Auswertung des Experiments führt zur Antwort "ja"

    🟢 Korrekte Antwort

Was soll im Fall unklarer Datenlage die Antwort sein?

  • Forschungsteam hat Zusammenhang zwischen Temperatur und Keimerfolg entdeckt und will Ergebnis in angesehener Zeitschrift publizieren
  • Die Zeitschrift fordert stichhaltige Beweise
  • Wenn die Zeitschrift die Datenlage für unklar hält, wird sie die Publikation ablehnen

Die Zeitschrift möchte ausschließen, dass ein zufälliger Effekt aufgebauscht wird

  • Nullhypothese: Es gibt keinen Effekt
  • Das Gegenteil der Nullhypothese ist die Alternative
  • Die Alternative ist also das, was "bewiesen" werden soll
  • Wenn die Daten klar für die Alternative sprechen, wird die Alternative angenommen
  • In allen anderen Fällen wird die Nullhypothese beibehalten

Nullhypothese und Alternativhypothese¶

Durch die Auswahl der Stichprobe kommt Zufall ins Spiel. Falsche Antworten sind unvermeidbar.

  • Ziel der Statistik ist es, Schranken für die Wahrscheinlichkeit falscher Antworten zu geben
  • Nullhypothese $H_0$: Das ist diejenige Hypothese, deren fälschliche Ablehnung man nach Möglichkeit vermeiden will
  • Alternativhypothese $H_1$: Das ist die Alternative zur Nullhypothese

bei unklarer Datenlage wird also die Nullhypothese beibehalten

  • Wissenschaft ist konservativ. Wer mit einer neuen Idee kommt, muss zeigen, dass sie besser ist als die alte
  • typische Nullhypothesen:
    • bestehende Theorie mindestens so gut wie der neue Ansatz
    • der untersuchte Stoff ist ohne Einfluss
    • das Präparat ist wirkungslos
    • der beobachtete Unterschied im Gen ist folgenlos

Kleines Theaterstück¶

  • Forscher: Habe wichtige Beobachtung gemacht
  • Statistikerin: Ist doch alles Zufall
  • Forscher: Kann überhaupt nicht sein
  • Statistikerin: Zeigen Sie mal die Daten
  • Forscher zeigt Daten
  • Statistikerin rechnet

Happy End¶

  • Statistikerin: Mit Wahrscheinlichkeit 1% beruht das Ergebnis auf Zufall
  • Forscher: das ist eine sehr kleine Wahrscheinlichkeit
  • Forscher reicht Arbeit bei Zeitschrift ein

offenes Ende¶

  • Statistikerin: Mit Wahrscheinlichkeit 20% beruht das Ergebnis auf Zufall
  • Forscher: Ich hätte gedacht, die Wahrscheinlichkeit sei viel kleiner
  • Abgang Tür rechts zurück ins Labor

Fehler erster und zweiter Art¶

  • Der Fehler 1. Art ist die fälschliche Ablehnung der Nullhypothese
  • Der Fehler 2. Art ist die fälschliche Beibehaltung der Nullhypothese

Die Priorität liegt auf der Vermeidung des Fehlers 1. Art. Diese Asymmetrie ist ein entscheidendes Merkmal der Testtheorie.

$H_0$ wird beibehalten $H_0$ wird abgelehnt
$H_0$ trifft zu richtige Entscheidung Fehler 1. Art
$H_1$ trifft zu Fehler 2. Art richtige Entscheidung

Sprechweise¶

  • $H_0$ wird beibehalten oder abgelehnt
  • $H_1$ wird angenommen oder verworfen

Signifikanztests¶

  • Für den Fall, dass $H_0$ zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem abgelehnt wird, als Fehlerwahrscheinlichkeit erster Art
  • Ein Test heißt Signifikanztest zum Niveau $\alpha$, wenn alle Fehlerwahrscheinlichkeiten erster Art $\le \alpha$ sind
  • Das übliche Niveau ist 0.05
  • Für den Fall, dass $H_0$ nicht zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem beibehalten wird, als Fehlerwahrscheinlichkeit zweiter Art

Binomialtests¶

Beispiel: Saatgut¶

  • Wir konstruieren einen Test zum Signifikanzniveau $\alpha = 0.05$
  • Stichprobenumfang ist 900
  • $p_0 = 0.80$ ist die Vergleichswahrscheinlichkeit, denn in kühlem Klima keimen 80% des Saatguts
  • $p$ ist die unbekannte tatsächliche Wahrscheinlichkeit, dass im warmen Klima ein zufällig herausgegriffenes Korn keimt
  • Nullhypothese $H_0 = \{ p \ge p_0 \}$, d.h. die Nullhypothese besagt, dass der Keimerfolg in warmem Klima nicht geringer ist als in kühlem
  • Bei der Bestimmung des Fehlers 1. Art gehen wir davon aus, dass $H_0$ wahr ist
  • Pythonsagt: Mit Wahrscheinlichkeit 0.0452 beobachten wir in diesem Fall 699 oder weniger Keimerfolge
  • Wenn wir also sagen: Bei oder weniger Bakterien wird $H_0$ abgelehnt, dann machen wir den Fehler 1. Art mit einer Wahrscheinlichkeit von ca 4.5%

Wo kommen diese Zahlen her:

In [2]:
from scipy import stats
In [3]:
P = stats.binom(900, 0.80)  #  W'keitsverteilung unter Nullhypothese
In [4]:
P.cdf(699)   # cumulative distribution function
# W'keit, dass 699 oder weniger Keimerfolge
Out[4]:
0.045195625799864816

Zum Vergleich:

In [5]:
P.cdf(700)
Out[5]:
0.05346354525840081

Diese Fehlerwahrscheinlichkeit ist höher als das Signifikanzniveau $\alpha=0.05$

Wir hätten den Wert 700 finden können mittels

In [6]:
P.ppf(0.05)
Out[6]:
700.0
  • P.ppf: percent point function
  • P.ppf(0.05) ist das kleinste $k$, für das P.cdf(k) über 0.05 liegt

Entscheidungsregel für das Beispiel¶

  • $n=900$ und $p_0=0.80$ und $H_0=\{p\ge p_0\}$ und $\alpha=0.05$

  • Die Nullhypothese wird abgelehnt, wenn 699 oder weniger Erfolge beobachtet werden

  • Bei 700 oder mehr Erfolgen wird die Nullhypothese beibehalten

Im Beispiel hatten wir 696 Keimerfolge. Also ist nachgewiesen, dass der Keimerfolg in warmem Klima sinkt