import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

tafel = pd.DataFrame(index=['weiblich', 'nicht weiblich'])
tafel['Biologie'] = [235, 153]
tafel['Biochemie'] = [75, 32]
tafel['Chemie'] = [123, 81]
tafel['Pharmazie'] = [50, 19]
tafel

from statsmodels.graphics.mosaicplot import mosaic

tafel.stack()

weiblich        Biologie     235
                Biochemie     75
                Chemie       123
                Pharmazie     50
nicht weiblich  Biologie     153
                Biochemie     32
                Chemie        81
                Pharmazie     19
dtype: int64

mosaic(tafel.stack());

n = 3
b = n
b

3

n = 4
b

3

df = tafel.copy()   #  df = tafel vergibt nur einen zweite Namen

df.sum()

Biologie     388
Biochemie    107
Chemie       204
Pharmazie     69
dtype: int64

df.loc['Summe'] = df.sum()
df

df.sum(axis=1)

weiblich          483
nicht weiblich    285
Summe             768
dtype: int64

df['insgesamt'] = df.sum(axis=1)
df

p_w = 483 / 768
p_w

0.62890625

p_bio = 388 / 768
p_bio

0.5052083333333334

p_w * p_bio * 768

244.015625

n = df.loc['Summe'].insgesamt
p_zeile = df.loc['Summe'] / n
p_zeile

Biologie     0.505208
Biochemie    0.139323
Chemie       0.265625
Pharmazie    0.089844
insgesamt    1.000000
Name: Summe, dtype: float64

p_spalte = df.insgesamt / n
p_spalte

weiblich          0.628906
nicht weiblich    0.371094
Summe             1.000000
Name: insgesamt, dtype: float64

erwartet = pd.DataFrame(index = df.index)

erwartet['Biologie'] = n*p_zeile['Biologie']*p_spalte
erwartet['Biochemie'] = n*p_zeile['Biochemie']*p_spalte
erwartet['Chemie'] = n*p_zeile['Chemie']*p_spalte
erwartet['Pharmazie'] = n*p_zeile['Pharmazie']*p_spalte
erwartet['insgesamt'] = erwartet.sum(axis=1)
erwartet

mosaic(erwartet.stack());

mosaic(erwartet.drop(index='Summe').drop(columns='insgesamt').stack());

df - erwartet

tafel2 = (df-erwartet)**2 / erwartet
tafel2

tafel2.loc['Summe'] = tafel2.sum()
tafel2['insgesamt'] = tafel2.sum(axis=1)
tafel2

t = tafel2.loc['Summe'].insgesamt
t

6.575014133739289

P = stats.chi2(3)
1 - P.cdf(t)

0.08675061576179643

res = stats.chi2_contingency(tafel)
res

Chi2ContingencyResult(statistic=6.5750141337392884, pvalue=0.08675061576179643, dof=3, expected_freq=array([[244.015625  ,  67.29296875, 128.296875  ,  43.39453125],
       [143.984375  ,  39.70703125,  75.703125  ,  25.60546875]]))

res.pvalue

0.08675061576179643

pd.DataFrame(res.expected_freq)

Verteilungsannahmen	Test in `scipy.stats`	Post-hoc-Test	in `scipy.stats`
normalverteilt, homoskedastisch	`f_oneway`	unverbundener t-Test	`ttest_ind`
normalverteilt, heteroskedastisch	`alexandergovern`	Welch-Test	siehe Lektion 17
nicht normalverteil	`kruskal`	Mann-Whitney-Test	`mannwhitneyu`

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	-9.015625	7.707031	-5.296875	6.605469
nicht weiblich	9.015625	-7.707031	5.296875	-6.605469
Summe	0.000000	0.000000	0.000000	0.000000

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	0.333100	0.882683	0.218687	1.005477
nicht weiblich	0.564516	1.495915	0.370617	1.704019
Summe	0.000000	0.000000	0.000000	0.000000

	Biologie	Biochemie	Chemie	Pharmazie	insgesamt
weiblich	0.333100	0.882683	0.218687	1.005477	2.439947
nicht weiblich	0.564516	1.495915	0.370617	1.704019	4.135067
Summe	0.897616	2.378597	0.589304	2.709497	6.575014

Mathematik für Biologiestudierende II¶

ANOVA¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Beispiel: Geschlechterverteilung in verschiedenen Fächern¶

Kontingenztafel¶

Spaltensummen¶

Zeilensummen¶

Anwendbarkeit¶

	Biologie	Biochemie	Chemie	Pharmazie	insgesamt
weiblich	244.015625	67.292969	128.296875	43.394531	483.0
nicht weiblich	143.984375	39.707031	75.703125	25.605469	285.0
Summe	388.000000	107.000000	204.000000	69.000000	768.0