Mathematik für Biologiestudierende¶

Wintersemester 2023/24

St. Nikolaus 2023

© 2023 Prof. Dr. Rüdiger W. Braun

Schließende Statistik¶

Hypothesentests¶

Beispiel¶

  • In ungestörten Boden bekannt: 75% L-Bakterien, 25% R-Bakterien
  • Nach Einwirkung eines Pestizids bei Studie gefunden: 14 L-Bakterien, 13 R-Bakterien

Frage¶

  • Ist der Rückgang des Anteils der L-Bakterien signifikant?

Zwei Probleme¶

die aber miteinander verbunden sind

Zufallseinflüsse unvermeidlich¶

  • Sichere Aussagen unmöglich
  • Vorgabe des Signifikanzniveaus begrenzt Fehlerwarscheinlichkeit

Binäre Antwort wird erwartet¶

obwohl prinzipiell mehrere Szenarien möglich sind

  • klare Hinweise auf "ja"
  • klare Hinweise auf "nein"
  • unklares Ergebnis

"klar" und "unklar" bemisst sich nach dem Signifikanzniveau

Beispiel L-Bakterien¶

Generell sind vier Ausgänge des Experiments möglich

  • Das Pestizid schädigt L-Bakterien nicht mehr als R-Bakterien und das Experiment beantwortet die Frage mit nein

    🟢 Korrekte Antwort

  • Das Pestizid schädigt L-Bakterien nicht mehr als R-Bakterien und das Experiment beantwortet die Frage mit ja

    🔴 Falsche Antwort

  • Das Pestizid schädigt L-Bakterien mehr als R-Bakterien und das Experiment beantwortet die Frage mit nein

    🔴 Falsche Antwort

  • Das Pestizid schädigt L-Bakterien mehr als R-Bakterien und das Experiment beantwortet die Frage mit ja

    🟢 Korrekte Antwort

Was soll im Fall unklarer Datenlage die Antwort sein?

  • Geschichte; Forschungsteam hat Zusammenhang zwischen Pestizid und Chiralität entdeckt und will Ergebnis in angesehener Zeitschrift publizieren
  • Die Zeitschrift fordert stichhaltige Beweise
  • Wenn die Zeitschrift die Datenlage für unklar hält, wird sie die Publikation ablehnen

Nullhypothese und Alternativhypothese¶

Durch die Auswahl der Stichprobe kommt Zufall ins Spiel. Falsche Antworten sind unvermeidbar.

  • Ziel der Statistik ist es, Schranken für die Wahrscheinlichkeit falscher Antworten zu geben
  • Nullhypothese $H_0$: Das ist diejenige Hypothese, deren fälschliche Ablehnung man nach Möglichkeit vermeiden will
  • Alternativhypothese $H_1$: Das ist die Alternative zur Nullhypothese

bei unklarer Datenlage wird also die Nullhypothese beibehalten

  • Wissenschaft ist konservativ. Wer mit einer neuen Idee kommt, muss zeigen, dass sie besser ist als die alte
  • Daher ist die Nullhypothese in der Regel die Annahme, dass die bestehende Theorie so gut ist wie die Neuerungen bzw. dass der untersuchte Stoff ohne Einfluss ist
  • Neutralitätshypothese in der Genetik: Die Nullhypothese besagt, dass die untersuchte Variation der Gensequenz folgenlos ist

Fehler erster und zweiter Art¶

  • Der Fehler 1. Art ist die fälschliche Ablehnung der Nullhypothese.
  • Der Fehler 2. Art ist die fälschliche Beibehaltung der Nullhypothese

Die Priorität liegt auf der Vermeidung des Fehlers 1. Art. Diese Asymmetrie ist ein entscheidendes Merkmal der Testtheorie.

$H_0$ wird beibehalten $H_0$ wird abgelehnt
$H_0$ trifft zu richtige Entscheidung Fehler 1. Art
$H_1$ trifft zu Fehler 2. Art richtige Entscheidung

Sprechweise¶

  • $H_0$ wird beibehalten oder abgelehnt
  • $H_1$ wird angenommen oder verworfen

Signifikanztests¶

  • Für den Fall, dass $H_0$ zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem abgelehnt wird, als Fehlerwahrscheinlichkeit erster Art
  • Ein Test heißt Signifikanztest zum Niveau~$\alpha$, wenn alle Fehlerwahrscheinlichkeiten erster Art $\le \alpha$ sind
  • Das übliche Niveau ist 0.05
  • Für den Fall, dass $H_0$ nicht zutrifft, bezeichnet man die Wahrscheinlichkeit, dass $H_0$ trotzdem beibehalten wird, als Fehlerwahrscheinlichkeit zweiter Art
  • Signifikanzniveau $\alpha = 0.05$ bedeutet: Wenn die Daten die Annahme der Alternative nicht mit 95% Wahrscheinlichkeit nahelegen, dann bleiben wir bei der Nullhypothese
  • Das bedeutet: bei unklarer Datenlage behalten dir die Nullhypothese bei
  • Wenn die Nullhypothese abgelehnt wird, dann hat der Signifikanztest die Alternative mit der angegebenen Sicherheit "gezeigt"
  • Die Nullhypothese kann nie gezeigt werden

Binomialtests¶

Beispiel: L-Bakterien¶

  • Wir konstruieren einen Test zum Signifikanzniveau $\alpha = 0.05$
  • Stichprobenumfang ist 27
  • $p_0 = 0.75$ ist die Vergleichswahrscheinlichkeit
  • $p$ ist die unbekannte tatsächliche Wahrscheinlichkeit, dass ein zufällig herausgegriffenes Bakterium ein L-Bakterium ist
  • Nullhypothese $H_0 = \{ p \ge p_0 \}$, d.h. die Nullhypothese besagt, dass das Pestizid $L$-Bakterien nicht mehr schädigt als die anderen
  • Bei der Bestimmung des Fehlers 1. Art ist $H_0$ wahr
  • Mit Wahrscheinlichkeit 0.02162 beobachten wir in diesem Fall 15 oder weniger L-Bakterien
  • Wenn wir also sagen: Bei 15 oder weniger Bakterien wird $H_0$ abgelehnt, dann machen wir den Fehler 1. Art mit einer Wahrscheinlichkeit von unter 2.2%

Wo kamen diese Zahlen her:

In [1]:
from scipy import stats
P = stats.binom(27, 0.75)
In [2]:
P.cdf(15)   # cumulative distribution function
Out[2]:
0.021622275992339908

Zum Vergleich:

In [3]:
P.cdf(16)
Out[3]:
0.05277727837539943

Diese Fehlerwahrscheinlichkeit ist höher als das Signifikanzniveau $\alpha=0.05$

Wir hätte ich den Wert 15 finden können ausgehend von $\alpha=0.05$

In [4]:
P.ppf(0.05)  # percent point function
Out[4]:
16.0

Das ist das kleinste $k$, dessen Wert über 0.05 liegt

Entscheidungsregel:¶

  • $n=27$ und $p_0=0.75$ und $H_0=\{p\ge p_0\}$ und $\alpha=0.05$

  • Die Nullhypothese wird abgelehnt, wenn 15 oder weniger Erfolge beobachtet werden

  • Bei 16 oder mehr Erfolgen wird die Nullhypothese beibehalten

Fehlerwahrscheinlichkeit zweiter Art¶

  • Wie groß ist die Fehlerwahrscheinlichkeit zweiter Art?
  • Das ist keine gute Frage
  • Wenn das Pestizid den Anteil von L-Bakterien von 75% auf 74.9% senkt, dann ist das sehr schwer nachzuweisen
  • Sinnvoll ist folgende Frage

Angenommen, das Pestizid senkt den Anteil von L-Bakterien auf 50%, mit welcher Wahrscheinlichkeit wird unser Test diesen Rückgang entdecken?

  • Wenn $q$ die Fehlerwahrscheinlichkeit zweiter Art ist, dann bezeichnet man $ 1 - q $ als Power des Tests
  • Die Power hängt also davon ab, welche Annahme man über den Abstand zwischen Nullhypothese und Alternative macht

Fehlerwahrscheinlichkeit zweiter Art für den Bakterientest

  • Bei 16 oder mehr L-Bakterien wird $ H_0 $ beibehalten
  • Wie wahrscheinlich ist dieses Ergebnis, wenn tatsächlich nur 50% aller Bakterien L-Bakterien sind?
  • Gesucht $$ \sum_{k=16}^{27} B_{27,\,0.5}(k) = 1 - \sum_{k=0}^{15} B_{27,\,0.5}(k) = 1 - 0.77897 = 0.22103 $$
In [5]:
Q = stats.binom(27, 0.5)
1 - Q.cdf(15)
Out[5]:
0.22103416919708252
  • Unter der Annahme beträgt die Fehlerwahrscheinlichkeit zweiter Art 22%
  • Die Power beträgt entsprechend 78%
  • Mit anderen Worten: In 78% der Fälle, bei denen das Pestizid den Anteil der L-Bakterien von 75% auf unter 50% senkt, kann der Test diesen Fakt entdecken

Fehler erster und zweiter Art¶

Fehler erster und zweiter Art

Die orangefarbenen Balken zeigen Fehlentscheidungen

Ein- und zweiseitige Tests¶

  • Ein ja/nein-Experiment mit unbekannter Erfolgswahrscheinlichkeit $p$ wird $n$-mal wiederholt
  • Ziel: Aussage über $p$ relativ zu einem Referenzwert $p_0$
  • verschiedene Nullhypothesen sind denkbar
    • $H_0 : p \ge p_0$: einseitiger unterer Test
    • $H_0 : p \le p_0$: einseitiger oberer Test
    • $H_0 : p = p_0$: zweiseitiger Test
  • Die Nullhypothese $H_0 \colon p \ne p_0$ macht keinen Sinn

Einseitiger unterer Binomialtest zum Niveau $\alpha$¶

  • Gegeben sind unabhängige $B(1, p)$-verteilte Zufallsvariable $X_1, \dots, X_n$ mit unbekanntem $p$ sowie ein Signifikanzniveau $\alpha$
  • Verglichen werden soll mit einem Referenzwert $p_0$
  • Getestet wird die Nullhypothese $H_0 = \{p \ge p_0\}$ gegen die Alternative $H_1 = \{p < p_0\}$
  • P ist die Binomialverteilung $B_{n,p_0}$
  • Der Wert $c$ ist so zu wählen, dass P.cdf(c-1)$\le\alpha$ und P.cdf(c)$>\alpha$
  • $c$ heißt kritischer Wert

Entscheidungsregel:¶

  • Die Nullhypothese wird abgelehnt, falls die Anzahl der Erfolge echt kleiner als $c$ ist
  • Die Nullhypothese wird beibehalten, falls die Anzahl der Erfolge mindestens $c$ ist
In [6]:
P = stats.binom(27, 0.75)
alpha = 0.05
c = P.ppf(alpha)
c
Out[6]:
16.0

Einseitiger oberer Binomialtest zum Niveau $\alpha$¶

  • Gegeben sind unabhängige $B(1, p)$-verteilte Zufallsvariable $X_1, \dots, X_n$ mit unbekanntem $p$ sowie ein Signifikanzniveau $\alpha$
  • Verglichen werden soll mit einem Referenzwert $p_0$
  • Getestet wird die Nullhypothese $H_0 = \{p \le p_0\}$ gegen die Alternative $H_1 = \{p > p_0\}$
  • P ist die Binomialverteilung $B_{n,p_0}$
  • Der kritische Wert $c$ ist so zu wählen, dass P.cdf(c-1)$<1-\alpha$ und P.cdf(c)$\ge1-\alpha$

Entscheidungsregel:¶

  • Die Nullhypothese wird abgelehnt, falls die Anzahl der Erfolge echt größer als $c$ ist
  • Die Nullhypothese wird beibehalten, falls die Anzahl der Erfolge höchstens $c$ ist

Beispiel zum oberen Binomialtest¶

  • Zuchtlachsen wird Fischabfall und vegetarisches Futter zur Auswahl angboten
  • 11% aller Lachse bevorzugen das Gemüse
  • Der Geschmack der vegetarischen Kost wird durch Zusatz eines Aromastoffs verändet
  • Die Frage

Bevorzugen sie das aromatisierte Gemüse mit höherer Wahrscheinlichkeit als vorher?

soll zum Signifikanzniveau $\alpha = 0.05$ beantwortet werden

  • Einseitiger, oberer Binomialtest mit Nullhypothese $H_0 = \{p \le 0.11 \}$
  • Stichprobenumfang $n = 38$
In [7]:
P = stats.binom(38, 0.11)
alpha = 0.05
P.ppf(1-alpha)
Out[7]:
8.0
In [8]:
P.cdf(8)
Out[8]:
0.9801967881175796
In [9]:
P.cdf(7)
Out[9]:
0.9484147640607011

Also $c=8$

Wenn 9 oder mehr Fische das aromatisierte Futter bevorzugen, dann wird die Nullhypothese, dass das neue Futter nicht besser angenommen wird als das alte, abgelehnt

Wenn die Nullhypothese trotzdem gilt, dann machen wir mit Wahrscheinlichkeit

In [10]:
1 - P.cdf(8)
Out[10]:
0.019803211882420402

den Fehler erster Art

Beispiel Lachs: Power des Tests¶

  • Was ist die Power des Tests, wenn tatsächlich 15% der Lachse die aromatisierte vegetarische Kost bevorzugen?
  • $H_0$ wird abgelehnt bei mindestens 9 Erfolgen
  • Im Beispiel $ p = 0.15 $
In [11]:
Q = stats.binom(38, 0.15)
  • Wenn 8 oder weniger Erfolge beobachtet werden, mache ich den Fehler zweiter Art
  • Also ist die Fehlerwahrscheinlichkeit zweiter Art gleich
In [12]:
Q.cdf(8)
Out[12]:
0.8942848027814655

und die Power gleich

In [13]:
1 - Q.cdf(8)
Out[13]:
0.1057151972185345
  • Die Power beträgt nur 10.5%. Das bedeutet zweierlei:
    • Der Test ist schlecht konzipiert: Eine Verbesserung wird mit großer Wahrscheinlichkeit gar nicht entdeckt
    • Rückschlüsse auf die Nullhypothese sind nicht möglich

Fehler erster und zweiter Art Im Beispiel "Lachs"¶

Fehler erster und zweiter Art

Orangefarbene Balken zeigen Fehlentscheidungen

Der p-Wert¶

  • Der $p$-Wert ist das kleinste Signifikanzniveau, zu dem die Daten den Test noch bestehen würden.
  • Der $p$-Wert beantwortet die Frage
 Wie knapp wurde das vorgeschriebene Signifikanzniveau eingehalten bzw. verfehlt?
  • Wenn $\alpha$ das Signifikanzniveau ist
    • $p \le \alpha$: Nullhypothese wird abgelehnt
    • $p > \alpha$: Nullhypothese wird beibehalten

Software gibt immer den $p$-Wert aus

In [14]:
res = stats.binomtest(9, 38, 0.11, alternative="greater")
res
Out[14]:
BinomTestResult(k=9, n=38, alternative='greater', statistic=0.23684210526315788, pvalue=0.01980321188242038)
In [15]:
res.pvalue
Out[15]:
0.01980321188242038
In [16]:
res.statistic == 9/38
Out[16]:
True

Der Begriff der Teststatistik spielt erst bei den später zu besprechenden Tests eine Rolle

Zusammenfassung¶

  • Stichprobenumfang und Referenzwert
  • oberer, unterer oder zweiseitiger Test
  • kritischer Wert
  • Entscheidungsregel
  • dann das Experiment durchführen
  • Entscheidungsregel anwenden, um Nullhyposthese abzulehnen oder beizubehalten

oder mit stats.binomtest

  • Stichprobenumfang und Referenzwert
  • oberer, unterer oder zweiseitiger Test
  • p-Wert bestimmen
  • mit Signifikanzniveau vergleichen