import numpy as np
np.set_printoptions(legacy='1.21')
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()
from statsmodels.graphics.mosaicplot import mosaic

df = sns.load_dataset("titanic")
df.head()

tafel = pd.crosstab(df.pclass, df.embark_town)
tafel

mosaic(tafel.stack());

res = stats.chi2_contingency(tafel)

pd.DataFrame(res.expected_freq)

res.pvalue

8.435267819894384e-26

# pd.crosstab(df.class, df.embark_town)  # invalid syntax

pd.crosstab(df['class'], df.embark_town)

tafel = pd.DataFrame(index=['Tag', 'Dämmerung'])
tafel['Mauerbienen'] = [131, 7]
tafel['Holzbienen'] = [18, 4]
tafel

res = stats.chi2_contingency(tafel)

pd.DataFrame(res.expected_freq)

stats.fisher_exact(tafel)

SignificanceResult(statistic=4.158730158730159, pvalue=0.046533029009005966)

tafel = pd.DataFrame(index=['Mo', 'Di', 'Mi', 'Do', 'Fr', 'Sa', 'So'])
tafel['Tage'] = [52, 52, 52, 52, 53, 52, 52]
tafel['Geburten'] = [41, 63, 63, 47, 56, 47, 33]
tafel

n = tafel.Geburten.sum()
n

350

tafel['erwartet'] = tafel.Tage*n/365
tafel.round(2)

tafel['Differenz'] = tafel.Geburten - tafel.erwartet
tafel['normierte Differenz'] = tafel.Differenz**2 / tafel.erwartet
tafel

t = tafel['normierte Differenz'].sum()
t

15.05675927845739

P = stats.chi2(6)
1 - P.cdf(t)

0.01981981977372671

res = stats.chisquare(tafel.Geburten, tafel.erwartet)
res

Power_divergenceResult(statistic=15.05675927845739, pvalue=0.01981981977372675)

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

embark_town	Cherbourg	Queenstown	Southampton
pclass
1	85	2	127
2	17	3	164
3	66	72	353

	0	1	2
0	40.440945	18.535433	155.023622
1	34.771654	15.937008	133.291339
2	92.787402	42.527559	355.685039

embark_town	Cherbourg	Queenstown	Southampton
class
First	85	2	127
Second	17	3	164
Third	66	72	353

	0	1
0	128.5125	20.4875
1	9.4875	1.5125

Mathematik für Biologiestudierende II¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Erstellung der Kontingenztafel aus einer Tabelle¶

`pd.crosstab`¶

Warum funktioniert folgendes nicht?¶

Python: reservierte Worte¶

Vierfeldertest¶

Exakter Test nach Fisher¶

Der $\chi^2$-Anpassungstest¶

Beispiel Geburten pro Wochentag¶

Anpassungstest: Test auf Übereinstimmung der Daten mit einer Verteilung¶

Weiter im Beispiel¶

Tabelle der erwarteten Werte¶

Tabelle der normierten Differenzen¶

Ein exakter Permutationstest¶

Mendelsche Erbregeln als Beispiel¶

Interpretation als Vergleich zweier Verteilungen¶

Beispiel Mendel: Tabelle der Wahrscheinlichkeiten der Einzelereignisse¶

Wochentag	Tage im Jahr	Anzahl Geburten
Montag	52	41
Dienstag	52	63
Mittwoch	52	63
Donnerstag	52	47
Freitag	53	56
Samstag	52	47
Sonntag	52	33

	Tage	Geburten	erwartet
Mo	52	41	49.86
Di	52	63	49.86
Mi	52	63	49.86
Do	52	47	49.86
Fr	53	56	50.82
Sa	52	47	49.86
So	52	33	49.86

	Tage	Geburten	erwartet	Differenz	normierte Differenz
Mo	52	41	49.863014	-8.863014	1.575376
Di	52	63	49.863014	13.136986	3.461091
Mi	52	63	49.863014	13.136986	3.461091
Do	52	47	49.863014	-2.863014	0.164387
Fr	53	56	50.821918	5.178082	0.527578
Sa	52	47	49.863014	-2.863014	0.164387
So	52	33	49.863014	-16.863014	5.702849

$k_1$	$k_2$	$k_3$	$P(X_1=k_1, X_2=k_2, X_3=k_3) $	kumulierte Summe
$ 0 $	$ 0 $	$ 4 $	$ 0.0039 $	$ 0.0039 $
$ 4 $	$ 0 $	$ 0 $	$ 0.0039 $	$ 0.0078 $
$ 1 $	$ 0 $	$ 3 $	$ 0.0156 $	$ 0.0234 $
$ 3 $	$ 0 $	$ 1 $	$ 0.0156 $	$ 0.0391 $
$ 2 $	$ 0 $	$ 2 $	$ 0.0234 $	$ 0.0625 $
$ 0 $	$ 1 $	$ 3 $	$ 0.0312 $	$ 0.0938 $
$ 3 $	$ 1 $	$ 0 $	$ 0.0312 $	$ 0.1250 $
$ 0 $	$ 4 $	$ 0 $	$ 0.0625 $	$ 0.1875 $
$ 0 $	$ 2 $	$ 2 $	$ 0.0938 $	$ 0.2812 $
$ 1 $	$ 1 $	$ 2 $	$ 0.0938 $	$ 0.3750 $
$ 2 $	$ 1 $	$ 1 $	$ 0.0938 $	$ 0.4688 $
$ 2 $	$ 2 $	$ 0 $	$ 0.0938 $	$ 0.5625 $
$ 0 $	$ 3 $	$ 1 $	$ 0.1250 $	$ 0.6875 $
$ 1 $	$ 3 $	$ 0 $	$ 0.1250 $	$ 0.8125 $
$ 1 $	$ 2 $	$ 1 $	$ 0.1875 $	$ 1.0000 $

	Mauerbienen	Holzbienen
Tag	131	18
Dämmerung	7	4

Zahlencode	Ausprägung	Wahrscheinlichkeit
1	weiß	25%
2	rosa	50%
3	rot	25%

Mathematik für Biologiestudierende II¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Erstellung der Kontingenztafel aus einer Tabelle¶

pd.crosstab¶

Warum funktioniert folgendes nicht?¶

Python: reservierte Worte¶

Vierfeldertest¶

Exakter Test nach Fisher¶

Der $\chi^2$-Anpassungstest¶

Beispiel Geburten pro Wochentag¶

Anpassungstest: Test auf Übereinstimmung der Daten mit einer Verteilung¶

Weiter im Beispiel¶

Tabelle der erwarteten Werte¶

Tabelle der normierten Differenzen¶

Ein exakter Permutationstest¶

Mendelsche Erbregeln als Beispiel¶

Interpretation als Vergleich zweier Verteilungen¶

Beispiel Mendel: Tabelle der Wahrscheinlichkeiten der Einzelereignisse¶

`pd.crosstab`¶