import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd
from scipy import stats

tafel = pd.DataFrame(index=['weiblich', 'nicht weiblich'])
tafel['Biologie'] = [237, 117]
tafel['Biochemie'] = [31, 20]
tafel['Chemie'] = [136, 104]
tafel['Pharmazie'] = [56, 21]
tafel

from statsmodels.graphics.mosaicplot import mosaic

mosaic(tafel.stack());

tafel.stack()

weiblich        Biologie     237
                Biochemie     31
                Chemie       136
                Pharmazie     56
nicht weiblich  Biologie     117
                Biochemie     20
                Chemie       104
                Pharmazie     21
dtype: int64

df = tafel.copy()   #  df = tafel würde nur einen zweiten Namen vergeben

df.sum()

Biologie     354
Biochemie     51
Chemie       240
Pharmazie     77
dtype: int64

df.loc['Summe'] = df.sum()
df

df.sum(axis=1)

weiblich          460
nicht weiblich    262
Summe             722
dtype: int64

df['Stud_insgesamt'] = df.sum(axis=1)
df

p_w = 460 / 722
p_w

0.6371191135734072

p_bio = 354 / 722
p_bio

0.4903047091412742

p_w * p_bio * 722

225.54016620498615

n = df.loc['Summe'].Stud_insgesamt
n

722

p_faecher = df.loc['Summe'] / n
p_faecher

Biologie          0.490305
Biochemie         0.070637
Chemie            0.332410
Pharmazie         0.106648
Stud_insgesamt    1.000000
Name: Summe, dtype: float64

p_geschlecht = df.Stud_insgesamt / n
p_geschlecht

weiblich          0.637119
nicht weiblich    0.362881
Summe             1.000000
Name: Stud_insgesamt, dtype: float64

erwartet = pd.DataFrame(index = tafel.index)

erwartet['Biologie'] = n * p_faecher['Biologie'] * p_geschlecht
erwartet['Biochemie'] = n * p_faecher['Biochemie'] * p_geschlecht
erwartet['Chemie'] = n * p_faecher['Chemie'] * p_geschlecht
erwartet['Pharmazie'] = n * p_faecher['Pharmazie'] * p_geschlecht
erwartet

mosaic(erwartet.stack());

mosaic(tafel.stack());

tafel - erwartet

normierte_differenzen = (tafel-erwartet)**2 / erwartet
normierte_differenzen

normierte_differenzen.loc['Summe'] = normierte_differenzen.sum()
normierte_differenzen

t = sum(normierte_differenzen.loc['Summe'])
t

9.653079025502825

P = stats.chi2(3)

p = 1 - P.cdf(t)
p

0.021757400637373303

res = stats.chi2_contingency(tafel)
res

Chi2ContingencyResult(statistic=9.65307902550282, pvalue=0.021757400637373383, dof=3, expected_freq=array([[225.5401662 ,  32.49307479, 152.90858726,  49.05817175],
       [128.4598338 ,  18.50692521,  87.09141274,  27.94182825]]))

res.pvalue

0.021757400637373383

res.statistic

9.65307902550282

pd.DataFrame(res.expected_freq)

pd.DataFrame(res.expected_freq, columns=tafel.columns, index=tafel.index)

res.dof

3

df = sns.load_dataset("titanic")
df.head()

tafel = pd.crosstab(df.pclass, df.embark_town)
tafel

mosaic(tafel.stack());

res = stats.chi2_contingency(tafel)

res.pvalue

8.435267819894384e-26

pd.DataFrame(res.expected_freq)

# pd.crosstab(df.class, df.embark_town)  # invalid syntax

pd.crosstab(df['class'], df.embark_town)

tafel = pd.DataFrame(index=['Tag', 'Dämmerung'])
tafel['Mauerbienen'] = [131, 7]
tafel['Holzbienen'] = [18, 4]
tafel

res = stats.chi2_contingency(tafel)

pd.DataFrame(res.expected_freq)

stats.fisher_exact(tafel)

SignificanceResult(statistic=4.158730158730159, pvalue=0.046533029009005966)

tafel = pd.DataFrame(index=['Mo', 'Di', 'Mi', 'Do', 'Fr', 'Sa', 'So'])
tafel['Tage'] = [52, 52, 52, 52, 53, 52, 52]
tafel['Geburten'] = [41, 63, 63, 47, 56, 47, 33]
tafel

n = tafel.Geburten.sum()
n

350

tafel['erwartet'] = tafel.Tage*n/365
tafel.round(2)

tafel['Differenz'] = tafel.Geburten - tafel.erwartet
tafel['normierte Differenz'] = tafel.Differenz**2 / tafel.erwartet
tafel

t = tafel['normierte Differenz'].sum()
t

15.05675927845739

P = stats.chi2(6)
1 - P.cdf(t)

0.01981981977372671

res = stats.chisquare(tafel.Geburten, tafel.erwartet)
res

Power_divergenceResult(statistic=15.05675927845739, pvalue=0.01981981977372675)

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	11.459834	-1.493075	-16.908587	6.941828
nicht weiblich	-11.459834	1.493075	16.908587	-6.941828

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	0.582281	0.068608	1.869747	0.982282
nicht weiblich	1.022326	0.120456	3.282761	1.724618

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	0.582281	0.068608	1.869747	0.982282
nicht weiblich	1.022326	0.120456	3.282761	1.724618
Summe	1.604607	0.189064	5.152508	2.706900

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

	0	1	2
0	40.440945	18.535433	155.023622
1	34.771654	15.937008	133.291339
2	92.787402	42.527559	355.685039

Mathematik für Biologiestudierende¶

Klausuranmeldung¶

Wiederholung (interaktiv)¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Beispiel: Geschlechterverteilung in verschiedenen Fächern¶

Kontingenztafel¶

Spaltensummen¶

Zeilensummen¶

Tafel der erwarteten Werte¶

Tabelle der Differenzen¶

Tabelle der normierten Differenzen¶

$\chi^2$-Verteilung¶

Berechnung mit `stats`¶

Anwendbarkeit¶

Erstellung der Kontingenztafel aus einem Datensatz¶

Warum funktioniert folgendes nicht?¶

Python: reservierte Worte¶

Vierfeldertest¶

Exakter Test nach Fisher¶

Der $\chi^2$-Anpassungstest¶

Beispiel Geburten pro Wochentag¶

Anpassungstest¶

Weiter im Beispiel¶

Tabelle der erwarteten Werte¶

Tabelle der normierten Differenzen¶

Dasselbe komplett mit `stats`¶

	Biologie	Biochemie	Chemie	Pharmazie
weiblich	225.540166	32.493075	152.908587	49.058172
nicht weiblich	128.459834	18.506925	87.091413	27.941828

Wochentag	Tage im Jahr	Anzahl Geburten
Montag	52	41
Dienstag	52	63
Mittwoch	52	63
Donnerstag	52	47
Freitag	53	56
Samstag	52	47
Sonntag	52	33

	Tage	Geburten	erwartet
Mo	52	41	49.86
Di	52	63	49.86
Mi	52	63	49.86
Do	52	47	49.86
Fr	53	56	50.82
Sa	52	47	49.86
So	52	33	49.86

	Tage	Geburten	erwartet	Differenz	normierte Differenz
Mo	52	41	49.863014	-8.863014	1.575376
Di	52	63	49.863014	13.136986	3.461091
Mi	52	63	49.863014	13.136986	3.461091
Do	52	47	49.863014	-2.863014	0.164387
Fr	53	56	50.821918	5.178082	0.527578
Sa	52	47	49.863014	-2.863014	0.164387
So	52	33	49.863014	-16.863014	5.702849

embark_town	Cherbourg	Queenstown	Southampton
pclass
1	85	2	127
2	17	3	164
3	66	72	353

	Mauerbienen	Holzbienen
Tag	131	18
Dämmerung	7	4

	0	1
0	128.5125	20.4875
1	9.4875	1.5125

Mathematik für Biologiestudierende¶

Klausuranmeldung¶

Wiederholung (interaktiv)¶

Themen¶

Tests für kategorielle Daten¶

$\chi^2$-Unabhängigkeitsstest¶

Beispiel: Geschlechterverteilung in verschiedenen Fächern¶

Kontingenztafel¶

Spaltensummen¶

Zeilensummen¶

Tafel der erwarteten Werte¶

Tabelle der Differenzen¶

Tabelle der normierten Differenzen¶

$\chi^2$-Verteilung¶

Berechnung mit stats¶

Anwendbarkeit¶

Erstellung der Kontingenztafel aus einem Datensatz¶

Warum funktioniert folgendes nicht?¶

Python: reservierte Worte¶

Vierfeldertest¶

Exakter Test nach Fisher¶

Der $\chi^2$-Anpassungstest¶

Beispiel Geburten pro Wochentag¶

Anpassungstest¶

Weiter im Beispiel¶

Tabelle der erwarteten Werte¶

Tabelle der normierten Differenzen¶

Dasselbe komplett mit stats¶

Berechnung mit `stats`¶

Dasselbe komplett mit `stats`¶