Mathematik für Biologiestudierende¶

Wintersemester 2023/24

17.01.2024

© 2024 Prof. Dr. Rüdiger W. Braun

Standard-Normalverteilung¶

  • Die Dichte der Standardnormalverteilung ist die Gaußsche Glockenkurve $$ \varphi(x) = \frac1{\sqrt{2\pi}} \exp\!\left( -\frac{x^2}2 \right) $$
  • Die Verteilungsfunktion ist $$ \Phi(u) = \frac1{\sqrt{2\pi}} \int_{-\infty}^u \exp\!\left( -\frac{x^2}2 \right) dx $$
In [1]:
from scipy import stats
Phi = stats.norm()   # Normalverteilung
Phi.cdf(-1.8)
Out[1]:
0.03593031911292579

Normalverteilung¶

  • Die Standard-Normalverteilung ist nicht flexibel genug
  • Wir benötigen Varianten
  • diese unterscheiden sich in Erwartungswert und Varianz

Erwartungswert einer kontinuierlichen Zufallsvariablen¶

  • Der Erwartungswert einer diskreten Zufallsvariablen $X$ ist definiert als $$ E(X) = \sum_k k \cdot P(X=k) $$ wobei $k$ alle möglichen Werte von $X$ durchläuft
  • Der Erwartungswert einer kontinuierlichen Zufallsvariablen $X$ mit Dichte $f$ ist definiert als $$ E(X) = \int x \cdot f(x)\; dx $$ wobei sich der Integrationsbereich über alle möglichen Werte von $X$ erstreckt

Varianz einer kontinuierlichen Zufallsvariablen¶

  • Die Varianz einer diskreten Zufallsvariablen X ist definiert als $$ \text{Var}(X) = \sum_{k} (k-\mu)^2 P(X=k) $$ wobei $\mu = E(X) $ und $k$ alle möglichen Werte von $X$ durchläuft
  • Die Varianz einer kontinuierlichen Zufallsvariablen $X$ mit Dichte $f$ ist definiert als $$ \text{Var}(X) = \int (x-\mu)^2 \cdot f(x)\; dx $$ wobei $\mu=E(X)$ und der Integrationsbereich sich über alle möglichen Werte von $X$ erstreckt

Streuung¶

Die Standardabweichung oder Streuung eine Zufallsvariablen ist die Quadratwurzel aus der Varianz

$$ \sigma(X) = \sqrt{\text{Var}(X)} $$

Erwartungswert und Streuung der Standard-Normalverteilung¶

Die Zufallsvariable $X$ sei standard-normalverteilt

  • $E(X) = 0$
  • $\text{Var}(X) = 1$
In [2]:
P = stats.norm()
P.mean()
Out[2]:
0.0
In [3]:
P.var()
Out[3]:
1.0

Streuung (engl.: standard deviation)

In [4]:
P.std()
Out[4]:
1.0

Es gelten dieselben Rechenregeln wie im diskreten Fall

Rechenregeln für den Erwartungswert¶

  • Für jede Zahl $c$ und jede Zufallsvariable $X$ ist $E(c \cdot X) = c \cdot E(X)$
  • Für Zufallsvariablen $X_1, \dots, X_n$ ist $E(X_1 + \dots + X_n) = E(X_1) + \dots + E(X_n)$
  • $X$ und $Y$ unabhängige Zufallsvariable. Dann $$ E(X \cdot Y) = E(X) \cdot E(Y) $$

Rechenregeln für die Varianz¶

  • Für jede Zahl $a$ und jede Zufallsvariable $X$ gilt $\text{Var}(a + X) = \text{Var}(X)$
  • Für jede Zahl $c$ und jede Zufallsvariable $X$ gilt $\text{Var}(c \cdot X) = c^2 \cdot \text{Var}(X)$
  • $X$ und $Y$ unabhängige Zufallsvariable. Dann $$ \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) $$

Normalverteilungen¶

  • Die Zufallsvariable $X$ heißt normalverteilt zum Erwartungswert $\mu$ und der Varianz $\sigma^2$, wenn $$ Y = \frac{X-\mu}\sigma $$ standard-normalverteilt ist. Man sagt dann, $X$ sei $N(\mu, \sigma^2)$-verteilt
  • Normalverteilungen werden beispielsweise zur Modellierung von Messfehlern benutzt

Umrechnung auf Standardnormalverteilung¶

Die Zufallsvariable $X$ sei $N(\mu, \sigma^2)$-verteilt. Dann ist $\displaystyle \frac{X-\mu}\sigma$ standard-normalverteilt und für $a < b$ gelten \begin{align*} P(a < X \le b) &= \Phi\!\left(\frac{b-\mu}\sigma\right) - \Phi\!\left(\frac{a-\mu}\sigma\right) \\ P(a < X) &= 1 - \Phi\!\left(\frac{a-\mu}\sigma\right) \\ P(X \le b) &= \Phi\!\left(\frac{b-\mu}\sigma\right) \end{align*}

In [5]:
mu = 10
sigma = 3
P = stats.norm(mu, sigma)
In [6]:
P.mean()
Out[6]:
10.0
In [7]:
P.std()
Out[7]:
3.0

Achtung: $N(\mu,\sigma^2)$ wird aufgerufen als stats.norm(mu, sigma)

Beispiel: natürliche Variabilitäten¶

  • Roggenpflanzen erreichen unter Laborbedingungen eine mittlere Höhe von 0.98m. Dabei streut die Höhe um 19cm.
  • Welcher Prozentsatz ist unter 1.20m hoch?
  • $X$ = Höhe der Pflanze
  • Wir rechnen in Metern. Dann $E(X) = 0.98$ und $\sigma = 0.19$
  • Wir suchen $$ P( X \le 1.2 ) $$
  • Wie bei der Binomialverteilung auch bekommt man diese Zahl in scipy.stats durch P.cdf
In [8]:
P = stats.norm(0.98, 0.19)
P.cdf(1.2)
Out[8]:
0.8765465021876291

Knapp 88% aller Pflanzen bleiben unter 1.20m

  • Welcher Prozentsatz der Pflanzen bleibt erreicht eine Höhe von mehr als 1.1m ?
  • Wir suchen $$ P(1.1 < X) = 1 - P(X \le 1.1) $$
In [9]:
1 - P.cdf(1.1)
Out[9]:
0.2638310233953918

26% aller Pflanzen sind höher als 1.1m

  • Welcher Anteil der Pflanzen hat eine Länge zwischen 1.00m und 1.05m ?
  • Wir suchen $$ P(1 < X \le 1.05) = P(X \le 1.05) - P(x \le 1) $$
In [10]:
P.cdf(1.05) - P.cdf(1)
Out[10]:
0.10180384712676416

10% der Pflanzen hat eine Länge zwischen 1.00m und 1.05m

Kritische Betrachtung des Modells¶

  • Das Modell erlaubt auch den unsinnigen Fall, dass Roggenpflanzen eine negative Höhe aufweisen
  • Mit welcher Wahrscheinlichkeit geschieht das?
In [11]:
P.cdf(0)
Out[11]:
1.2487097323935358e-07
In [12]:
1 / P.cdf(0)
Out[12]:
8008266.245216114

Das Modell sagt für jeweils eine unter 8 Millionen Pflanzen eine negative Höhe voraus.

In [13]:
import pandas as pd
import numpy as np
import seaborn as sns
sns.set_theme()
In [14]:
df = pd.DataFrame()
x = np.linspace(-0.1, 2, 300)
df['x'] = x
df['y'] = P.pdf(x)  # probability density function

Verteilungsdichte der Halmlängen¶

In [15]:
sns.lineplot(data=df, x='x', y='y');
No description has been provided for this image

Quantile¶

  • $F$ die Verteilungsfunktion einer Zufallsvariablen
  • Die Zahl $u$ mit $F(u)=x$ bezeichnet man als Quantil von $x$
  • In scipy.stats: P.ppf (percent point function)

Quantile¶

  • $\Phi$ die Verteilungsfunktion der Standardnormalverteilung
  • Die Zahl $q_\alpha$ mit $\Phi(q_\alpha) = \alpha$ ist das $\alpha$-Quantil der Standardnormalverteilung. Die wichtigsten Quantile der Standardnormalverteilung sind
$ \Phi(u) $ 70% 80% 90% 95% 97.5% 99% 99.5%
$ u $ 0.524 0.842 1.282 1.645 1.960 2.326 2.576
In [16]:
Phi = stats.norm()
Phi.ppf(0.99)
Out[16]:
2.3263478740408408
  • Umrechnungsformel $$ q_\alpha = - q_{1-\alpha} $$
  • Beispiel $$ q_{0.05} = - q_{0.95} = -1.645 $$
  • Das Quantil ist die Umkehrfunktion der Verteilungsfunktion, in Formeln $$ \Phi(q_\alpha) = \alpha $$
In [17]:
Phi.ppf(0.05)
Out[17]:
-1.6448536269514729

Beispiel¶

  • Welche Höhe wird nur von 5% der Roggenpflanzen unterschritten?
In [18]:
P = stats.norm(0.98, 0.19)
P.ppf(0.05)
Out[18]:
0.6674778108792201

Verteilungsfunktion und Quantil¶

Die Verteilungsfunktion beantwortet die Frage

Mit welcher Wahrscheinlichkeit liegt der Wert der Zufallsvariablen unterhalb eines vorgegebenen Werts?

Das Quantil beantwortet die Frage

Welches x kann ich maximal wählen, wenn die Wahrscheinlichkeit, dass die Zufallsvariable unterhalb von x bleibt, kleiner als u sein soll

Beispiel¶

Das Gewicht von Zitronen sei normalverteilt mit Erwartungswert 178g und Streuung 12g

  • Zitronen mit einem Gewicht unter 150g können nicht verkauft werden. Welcher Anteil ist das
In [19]:
P = stats.norm(178, 12)
P.cdf(150)
Out[19]:
0.009815328628645334
  • Wie schwer ist das oberste Prozent der Zitronen mindestens?
  • Umformuliert: Wir schwer sind die untersten 99% der Zitronen höchstens?
In [20]:
P.ppf(0.99)
Out[20]:
205.9161744884901

Das oberste Prozent der Zitronen wiegt über 206g

Beispiel: IQ-Tests¶

  • IQ-Tests sind so skaliert, dass die Werte in der Population normalverteilt mit Erwartungswert $\mu = 100$ und Streuung $\sigma = 15$ sind
  • Welcher Anteil der Bevölkerung hat einen IQ unter 60?
  • $X$ messe den IQ
  • $X$ ist $N(100,225)$-verteilt.
  • Also
In [21]:
P = stats.norm(100, 15)
P.cdf(60)
Out[21]:
0.0038303805675897365

Knapp 0.4% der Bevölkerung hat einen IQ unter 60

Beispiel: Die schlauste Person der Welt¶

  • Welchen IQ hat die schlauste Person der Welt?
  • Es gibt ca 8 Milliarden Menschen
  • Die schlauste Person ist also die, deren IQ nur von einem Anteil von $\frac1{8\,000\,000\,000}$ der Weltbevölkerung übertroffen wird
In [22]:
N = 8_000_000_000
1 - 1/N
Out[22]:
0.999999999875
In [23]:
P = stats.norm(100, 15)
P.ppf(1-1/N)
Out[23]:
194.90475300947824

Die schlaueste Person der Welt hat einen IQ von 195

Verteilungsfunktionen diskreter Zufallsvariablen¶

  • $X$ sei eine Zufallsvariable. Die Funktion
  • $$ F(x) = P(X \le x) $$ ist die Verteilungsfunktion von $X$
  • Die Verteilungsfunktion $F(x)$ gibt an, mit welcher Wahrscheinlichkeit ein kleinerer Wert als $x$ angenommen wird ($x$~eingeschlossen)
  • Die Verteilungsfunktion wächst also monoton
  • Wenn $X$ diskret ist, weist ihre Verteilungsfunktion Sprünge auf.

Verteilungsfunktion der Binomialverteilung¶

  • $F$ sei die Verteilungsfunktion von $B_{6,\,1/3}$, also $$ F(r) = \sum_{k\le r} B_{6,\,1/3}(k) $$
$$k$$ $$B_{6,\,1/3}(k)$$ $$ F(k) $$
0 0.0878 0.0878
1 0.2634 0.3512
2 0.3292 0.6804
3 0.2195 0.8999
4 0.0823 0.9822
5 0.0165 0.9986
6 0.0014 1.0000

Verteilung und Verteilungsfunlktion der Binomialverteilung

Standardisierte Verteilung¶

  • Problem: Binomialverteilungen zu verschiedenen Stichprobenumfängen kann man schlecht vergleichen
  • Die Zufallsvariable $X$ besitze den Erwartungswert $E(X) = \mu$ und die Varianz $\text{Var}(X) = \sigma^2$
  • Setze $$ Y = \frac{X-\mu}\sigma $$
  • Dann $E(Y) = 0$ und $\text{Var}(Y) = 1$
  • $Y$ ist die standardisierte Zufallsvariable zu $X$

Standardisierte Binomialverteilung zu n = 40 und p = 0.2¶

Standardisierte Binomialverteilung

Standardisierte Binomialverteilung zu n = 320 und p = 0.2¶

Standardisierte Binomialverteilung

Standard-Normalverteilung¶

Standardisierte Binomialverteilung

Animation¶

Standardisierte Binomialverteilung

Zentraler Grenzwertsatz¶

Für jeden Parameterwert $p$ konvergiert der Grenzprozess auf der letzten Folie gegen die Verteilungsfunktion der Standard-Normalverteilung.

Normalapproximation¶

  • Die Zufallsvariable $X$ sei $B(n,p)$-verteilt
  • $E(X) = n \cdot p$ und $\text{Var}(X) = n \cdot p \cdot (1-p)$
  • Die standardisierte Zufallsvariable zu $X$ ist $$ Y = \frac{X - n \cdot p}{\sqrt{n \cdot p \cdot (1-p)}} $$
  • Für große $n$ ist $Y$ annähernd standard-normalverteilt
  • "groß" bedeutet $$ n \cdot p \cdot (1-p) > 9 $$

Normalapproximation: Formel¶

  • $X$ sei $B(n,p)$-verteilt
  • Es gilt näherungsweise für natürliche Zahlen $a < b$ $$ P(a \le X \le b) \cong \Phi\!\left( \frac{b - n \cdot p}{\sqrt{n \cdot p \cdot (1-p)}} \right) - \Phi\!\left( \frac{a - n \cdot p}{\sqrt{n \cdot p \cdot (1-p)}} \right) $$
  • Wenn $a = 0$ oder $b = n$ ist, braucht man nur einen Term \begin{align*} P(a \le X) &\cong 1 - \Phi\!\left( \frac{a - n \cdot p}{\sqrt{n \cdot p \cdot (1-p)}} \right) \\ P(X \le b) &\cong \Phi\!\left( \frac{b - n \cdot p}{\sqrt{n \cdot p \cdot (1-p)}} \right) \end{align*}

Beispiel zur Normalapproximation¶

  • Ein Tulpenbauer hat 30000 Zwiebeln eingepflanzt
  • Jede einzelne wächst mit einer Wahrscheinlichkeit von 0.97 zu einer Pflanze mit Blütenknospe heran, die er dann ernten kann
  • Mit welcher Wahrscheinlichkeit wird er mindestens 29000 Knospen ernten können?

Erste Lösung: Binomialverteilung¶

In [24]:
n = 30000
p = 0.97
a = 29000
P = stats.binom(n, p)
1 - P.cdf(a-1)
Out[24]:
0.9995929788786511

Zweite Lösung: Normalapproximation¶

In [25]:
Phi = stats.norm()
u = (a - n*p) / np.sqrt(n*p*(1-p))
u
Out[25]:
-3.384487217112062
In [26]:
1 - Phi.cdf(u)
Out[26]:
0.9996434433031975