import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

u_schad = "https://www.math.uni-duesseldorf.de/~braun/bio2324/data/schadstoffe.csv"
df = pd.read_csv(u_schad, index_col=0)
df

sns.displot(data=df, x='Konzentration', col='Messstelle');

g1 = df[df.Messstelle==1].Konzentration
g1

2     0.000589
3     0.000950
13    0.001301
14    0.001605
18    0.000927
22    0.001250
28    0.000965
33    0.000669
41    0.000712
42    0.001019
45    0.000780
54    0.001306
61    0.001006
64    0.001057
65    0.000381
70    0.000919
74    0.001323
Name: Konzentration, dtype: float64

g2 = df[df.Messstelle==2].Konzentration
g3 = df[df.Messstelle==3].Konzentration
g4 = df[df.Messstelle==4].Konzentration
g5 = df[df.Messstelle==5].Konzentration

res = stats.f_oneway(g1, g2, g3, g4, g5)
res

F_onewayResult(statistic=np.float64(0.8666121588849811), pvalue=np.float64(0.48807057520065544))

P = stats.f(4, 75)
1 - P.cdf(res.statistic)

np.float64(0.48807057520065544)

res.pvalue

np.float64(0.48807057520065544)

df = sns.load_dataset("penguins") 
df.head()

sns.displot(df, x='bill_length_mm', hue='species', multiple='stack');

df.species.value_counts()

species
Adelie       152
Gentoo       124
Chinstrap     68
Name: count, dtype: int64

gA = df[df.species=='Adelie'].bill_length_mm
gA

0      39.1
1      39.5
2      40.3
3       NaN
4      36.7
       ... 
147    36.6
148    36.0
149    37.8
150    36.0
151    41.5
Name: bill_length_mm, Length: 152, dtype: float64

gG = df[df.species=='Gentoo'].bill_length_mm
gC = df[df.species=='Chinstrap'].bill_length_mm

stats.f_oneway(gA, gG, gC)

F_onewayResult(statistic=np.float64(nan), pvalue=np.float64(nan))

res = stats.f_oneway(gA.dropna(), gG.dropna(), gC.dropna())
res

F_onewayResult(statistic=np.float64(410.6002550405077), pvalue=np.float64(2.6946137388895484e-91))

r1 = stats.ttest_ind(gA.dropna(), gG.dropna())
r1

TtestResult(statistic=np.float64(-25.09530115900974), pvalue=np.float64(9.324042980315958e-73), df=np.float64(272.0))

r2 = stats.ttest_ind(gA.dropna(), gC.dropna())
r2

TtestResult(statistic=np.float64(-23.801939237440887), pvalue=np.float64(2.011759018655462e-62), df=np.float64(217.0))

r3 = stats.ttest_ind(gG.dropna(), gC.dropna())
r3

TtestResult(statistic=np.float64(-2.7694045269151144), pvalue=np.float64(0.006175813141889592), df=np.float64(189.0))

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female

Mathematik für Biologiestudierende II¶

Multiples Testen¶

Beispiel Gummibärchen¶

ANOVA¶

Beispiel Schadstoffkonzentration¶

Haben unterschiedliche Pinguinarten unterschiedliche Schnabellängen?¶

	Messstelle	Konzentration
0	5	0.000867
1	3	0.000490
2	1	0.000589
3	1	0.000950
4	4	0.001152
...	...	...
75	5	0.000918
76	3	0.000528
77	3	0.000961
78	4	0.001272
79	3	0.001012