import numpy as np
np.set_printoptions(legacy='1.21')
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

tafel = pd.DataFrame(index=['weiblich', 'nicht weiblich'])
tafel['Biologie'] = [237, 117]
tafel['Biochemie'] = [31, 20]
tafel['Chemie'] = [136, 104]
tafel['Pharmazie'] = [56, 21]
tafel

from statsmodels.graphics.mosaicplot import mosaic

mosaic(tafel.stack());

df = tafel.copy()   #  df = tafel würde nur einen zweiten Namen vergeben

df.sum()

Biologie     354
Biochemie     51
Chemie       240
Pharmazie     77
dtype: int64

df.loc['Summe'] = df.sum()
df

df.sum(axis=1)

weiblich          460
nicht weiblich    262
Summe             722
dtype: int64

df['Stud_insgesamt'] = df.sum(axis=1)
df

p_w = 460 / 722
p_w

0.6371191135734072

p_bio = 354 / 722
p_bio

0.4903047091412742

p_w * p_bio * 722

225.54016620498615

n = df.loc['Summe'].Stud_insgesamt
n

722

p_faecher = df.loc['Summe'] / n
p_faecher

Biologie          0.490305
Biochemie         0.070637
Chemie            0.332410
Pharmazie         0.106648
Stud_insgesamt    1.000000
Name: Summe, dtype: float64

p_geschlecht = df.Stud_insgesamt / n
p_geschlecht

weiblich          0.637119
nicht weiblich    0.362881
Summe             1.000000
Name: Stud_insgesamt, dtype: float64

erwartet = pd.DataFrame(index = tafel.index)

erwartet['Biologie'] = n * p_faecher['Biologie'] * p_geschlecht
erwartet['Biochemie'] = n * p_faecher['Biochemie'] * p_geschlecht
erwartet['Chemie'] = n * p_faecher['Chemie'] * p_geschlecht
erwartet['Pharmazie'] = n * p_faecher['Pharmazie'] * p_geschlecht
erwartet

mosaic(erwartet.stack());

mosaic(tafel.stack());

tafel - erwartet

differenzen = (tafel-erwartet)**2 / erwartet
differenzen

differenzen.loc['Summe'] = differenzen.sum()
differenzen

Gesamtsumme = sum(differenzen.loc['Summe'])
Gesamtsumme

9.653079025502825

t = Gesamtsumme

P = stats.chi2(3)

p = 1 - P.cdf(t)
p

0.021757400637373303

res = stats.chi2_contingency(tafel)
res

Chi2ContingencyResult(statistic=9.65307902550282, pvalue=0.021757400637373383, dof=3, expected_freq=array([[225.5401662 ,  32.49307479, 152.90858726,  49.05817175],
       [128.4598338 ,  18.50692521,  87.09141274,  27.94182825]]))

res.pvalue

0.021757400637373383

res.statistic

9.65307902550282

pd.DataFrame(res.expected_freq)

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	11.459834	-1.493075	-16.908587	6.941828
nicht weiblich	-11.459834	1.493075	16.908587	-6.941828

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	0.582281	0.068608	1.869747	0.982282
nicht weiblich	1.022326	0.120456	3.282761	1.724618

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	0.582281	0.068608	1.869747	0.982282
nicht weiblich	1.022326	0.120456	3.282761	1.724618
Summe	1.604607	0.189064	5.152508	2.706900

Mathematik für Biologiestudierende II¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Beispiel: Geschlechterverteilung in verschiedenen Fächern¶

Kontingenztafel¶

Spaltensummen¶

Zeilensummen¶

Tafel der erwarteten Werte¶

Differenzen¶

Tabelle der normierten Differenzen¶

Berechnung mit `stats`¶

Anwendbarkeit¶

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	225.540166	32.493075	152.908587	49.058172
nicht weiblich	128.459834	18.506925	87.091413	27.941828

Mathematik für Biologiestudierende II¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Beispiel: Geschlechterverteilung in verschiedenen Fächern¶

Kontingenztafel¶

Spaltensummen¶

Zeilensummen¶

Tafel der erwarteten Werte¶

Differenzen¶

Tabelle der normierten Differenzen¶

Berechnung mit stats¶

Anwendbarkeit¶

Berechnung mit `stats`¶