import numpy as np
np.set_printoptions(legacy='1.21')
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

df = pd.read_csv("http://reh.math.uni-duesseldorf.de/~braun/bio2425/zitronen.csv")

df.head()

df.Land.value_counts()

Land
Spanien         8
Italien         8
Griechenland    8
Marokko         8
Indien          8
Name: count, dtype: int64

sns.displot(df, x='Vitamin_C_Gehalt', hue='Land', multiple='stack');

spanien = df[df.Land=='Spanien'].Vitamin_C_Gehalt
italien = df[df.Land=='Italien'].Vitamin_C_Gehalt
griechenland = df[df.Land=='Griechenland'].Vitamin_C_Gehalt
marokko = df[df.Land=='Marokko'].Vitamin_C_Gehalt
indien = df[df.Land=='Indien'].Vitamin_C_Gehalt

stats.f_oneway(spanien, italien, griechenland, marokko, indien)

F_onewayResult(statistic=11.873757820342005, pvalue=3.373341669675729e-06)

from statsmodels.sandbox.stats.multicomp import MultiComparison

muc = MultiComparison(df.Vitamin_C_Gehalt, df.Land)

res = muc.allpairtest(stats.ttest_ind, method='bonferroni')
res[0]

res = muc.allpairtest(stats.ttest_ind, method='holm')
res[0]

res[1]

(array([[-4.95235073e+00,  2.12516086e-04],
        [ 1.11298427e+00,  2.84460819e-01],
        [-3.53387275e+00,  3.30511610e-03],
        [-1.94781061e+00,  7.17760991e-02],
        [ 6.20082296e+00,  2.31091193e-05],
        [ 3.18345880e-01,  7.54921930e-01],
        [ 3.32261512e+00,  5.03074269e-03],
        [-4.33123161e+00,  6.90566981e-04],
        [-3.30423221e+00,  5.21815835e-03],
        [ 2.27858634e+00,  3.88961763e-02]]),
 array([ True, False,  True, False,  True, False,  True,  True,  True,
        False]),
 array([1.91264477e-03, 5.68921637e-01, 2.31358127e-02, 2.15328297e-01,
        2.31091193e-04, 7.54921930e-01, 3.01844561e-02, 5.52453585e-03,
        3.01844561e-02, 1.55584705e-01]),
 0.005116196891823743,
 0.005)

p_werte_korrigiert = res[1][2]
p_werte_korrigiert

array([1.91264477e-03, 5.68921637e-01, 2.31358127e-02, 2.15328297e-01,
       2.31091193e-04, 7.54921930e-01, 3.01844561e-02, 5.52453585e-03,
       3.01844561e-02, 1.55584705e-01])

stats.f_oneway(spanien, italien, griechenland, marokko, indien).pvalue

3.373341669675729e-06

res = muc.allpairtest(stats.ttest_ind, alpha=5.0E-6, method='bonferroni')

res[0]

df = sns.load_dataset('penguins')
df.head()

df.island.value_counts()

island
Biscoe       168
Dream        124
Torgersen     52
Name: count, dtype: int64

g1 = df[df.island=='Biscoe'].body_mass_g.dropna()
g2 = df[df.island=='Dream'].body_mass_g.dropna()
g3 = df[df.island=='Torgersen'].body_mass_g.dropna()

stats.f_oneway(g1, g2, g3)

F_onewayResult(statistic=110.00796506232122, pvalue=1.5151291424015603e-37)

df_dropped = df[df.body_mass_g.notnull()]
df_dropped

df2 = df.dropna()
df2

df_dropped[df_dropped.sex.isnull()]

muc = MultiComparison(df_dropped.body_mass_g, df_dropped.island)

res = muc.allpairtest(stats.ttest_ind, method='bonferroni')

res[0]

sns.displot(df, x="body_mass_g", col="island", hue="species", multiple='stack');

muc = MultiComparison(df_dropped.body_mass_g, df_dropped.species)
res = muc.allpairtest(stats.ttest_ind, method='bonferroni')
res[0]

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	Male
...	...	...	...	...	...	...	...
338	Gentoo	Biscoe	47.2	13.7	214.0	4925.0	Female
340	Gentoo	Biscoe	46.8	14.3	215.0	4850.0	Female
341	Gentoo	Biscoe	50.4	15.7	222.0	5750.0	Male
342	Gentoo	Biscoe	45.2	14.8	212.0	5200.0	Female
343	Gentoo	Biscoe	49.9	16.1	213.0	5400.0	Male

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	Male
...	...	...	...	...	...	...	...
338	Gentoo	Biscoe	47.2	13.7	214.0	4925.0	Female
340	Gentoo	Biscoe	46.8	14.3	215.0	4850.0	Female
341	Gentoo	Biscoe	50.4	15.7	222.0	5750.0	Male
342	Gentoo	Biscoe	45.2	14.8	212.0	5200.0	Female
343	Gentoo	Biscoe	49.9	16.1	213.0	5400.0	Male

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
8	Adelie	Torgersen	34.1	18.1	193.0	3475.0	NaN
9	Adelie	Torgersen	42.0	20.2	190.0	4250.0	NaN
10	Adelie	Torgersen	37.8	17.1	186.0	3300.0	NaN
11	Adelie	Torgersen	37.8	17.3	180.0	3700.0	NaN
47	Adelie	Dream	37.5	18.9	179.0	2975.0	NaN
246	Gentoo	Biscoe	44.5	14.3	216.0	4100.0	NaN
286	Gentoo	Biscoe	46.2	14.4	214.0	4650.0	NaN
324	Gentoo	Biscoe	47.3	13.8	216.0	4725.0	NaN
336	Gentoo	Biscoe	44.5	15.7	217.0	4875.0	NaN

group1	group2	stat	pval	pval_corr	reject
Adelie	Chinstrap	-0.5081	0.6119	1.0	False
Adelie	Gentoo	-23.6136	0.0	0.0	True
Chinstrap	Gentoo	-19.1032	0.0	0.0	True

Mathematik für Biologiestudierende II¶

Post-hoc Analyse¶

Beispiel Zitronen¶

Paarvergleiche¶

Bonferroni-Holm¶

Ablesung genauerer Werte¶

Behandlung von NaN¶

	Vitamin_C_Gehalt	Land
0	494.5	Spanien
1	499.2	Spanien
2	494.3	Spanien
3	478.0	Spanien
4	500.1	Spanien

group1	group2	stat	pval	pval_corr	reject
Griechenland	Indien	-4.9524	0.0002	0.0021	True
Griechenland	Italien	1.113	0.2845	1.0	False
Griechenland	Marokko	-3.5339	0.0033	0.0331	True
Griechenland	Spanien	-1.9478	0.0718	0.7178	False
Indien	Italien	6.2008	0.0	0.0002	True
Indien	Marokko	0.3183	0.7549	1.0	False
Indien	Spanien	3.3226	0.005	0.0503	False
Italien	Marokko	-4.3312	0.0007	0.0069	True
Italien	Spanien	-3.3042	0.0052	0.0522	False
Marokko	Spanien	2.2786	0.0389	0.389	False

group1	group2	stat	pval	pval_corr	reject
Biscoe	Dream	12.9663	0.0	0.0	True
Biscoe	Torgersen	8.7781	0.0	0.0	True
Dream	Torgersen	0.0924	0.9265	1.0	False