from scipy import stats
import pandas as pd
import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()

df = sns.load_dataset("penguins") 
df

adelie = df[df.species=="Adelie"]
adelie

adelie.sex.value_counts()

sex
Male      73
Female    73
Name: count, dtype: int64

am = adelie[adelie.sex=="Male"]
af = adelie[adelie.sex=="Female"]

am.describe()

af.describe()

zaehler = 72*6.599**2 + 72*5.595**2
nenner = 72 + 72
sp = np.sqrt(zaehler/nenner)
sp

6.117631322660757

faktor = (73*73) / (73+73)
faktor

36.5

t = (192.4-187.8) / sp * np.sqrt(faktor)
t

4.542772238713508

P = stats.t(72+72)
P.ppf(0.975)

1.9765750658185364

stats.ttest_ind(am.flipper_length_mm, af.flipper_length_mm)

TtestResult(statistic=4.5588666963515765, pvalue=1.08977531716496e-05, df=144.0)

zaehler = 72*am.flipper_length_mm.std()**2 + 72*af.flipper_length_mm.std()**2
nenner = 72 + 72
sp = np.sqrt(zaehler/nenner)
sp

6.117818375391429

t = (am.flipper_length_mm.mean()-af.flipper_length_mm.mean()) / sp * np.sqrt(faktor)
t

4.5588666963515765

stats.ttest_ind(am.flipper_length_mm, af.flipper_length_mm).statistic

4.5588666963515765

2*(1 - P.cdf(abs(t)))

1.0897753171645874e-05

stats.ttest_ind(am.flipper_length_mm, af.flipper_length_mm).pvalue

1.08977531716496e-05

u = "https://www.math.uni-duesseldorf.de/~braun/bio2324/data/schadstoffe.csv"
df = pd.read_csv(u, index_col=0)
df['referenz'] = 0.08 / 100
df.head()

res = stats.ttest_rel(df.Konzentration, df.referenz, alternative="greater")
res.pvalue

0.0035114445640696246

df['z'] = df.Konzentration - df.referenz
df.describe()

t = 0.000105 / 0.000341 * np.sqrt(80)
t

2.7541013212607384

res.statistic

2.768040010585661

P = stats.t(79)

1 - P.cdf(t)

0.003650577575303182

res.pvalue

0.0035114445640696246

df = pd.read_csv('treatment.csv', index_col=0)
df

dfv = df[df.Treatment=='Verum']
dfv.describe()

dfp = df[df.Treatment=='Placebo']
dfp.describe()

stats.ttest_ind(dfv.Difference, dfp.Difference, alternative='greater')

TtestResult(statistic=2.314493969317715, pvalue=0.010377396661800722, df=1767.0)

n1 = dfv.Difference.count()
n2 = dfp.Difference.count()
n1, n2

(887, 882)

xq = dfv.Difference.mean()
yq = dfp.Difference.mean()
xq, yq

(-4.019165727170237, -4.359410430839002)

sx = dfv.Difference.std()
sy = dfp.Difference.std()
sx, sy

(3.0938434063949605, 3.0891165720500093)

zaehler = (n1-1)*sx**2 + (n2-1)*sy**2
nenner = n1+n2-2
sp = np.sqrt(zaehler/nenner)
sp

3.091487580276714

d = (xq - yq) / sp
d

0.11005857045633367

import statsmodels.stats.power as smp

poweranalyse = smp.TTestPower()

poweranalyse.power(effect_size=0.7, alpha=0.01, nobs=10, alternative="larger")

0.3306090902052323

poweranalyse.plot_power(effect_size=[0.5,0.7], alpha=0.01, nobs=np.arange(2,100), 
                         alternative='larger');

poweranalyse.power(effect_size=0.7, alpha=0.01, nobs=35, alternative='larger')

0.9502228513191198

poweranalyse = smp.TTestIndPower()  # Ind = Independent

poweranalyse.plot_power(effect_size=[0.5], alpha=0.05, nobs=np.arange(2,150));

poweranalyse.power(effect_size=0.5, alpha=0.05, nobs1=100, ratio=1)

0.9404271933839895

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
...	...	...	...	...	...	...	...
339	Gentoo	Biscoe	NaN	NaN	NaN	NaN	NaN
340	Gentoo	Biscoe	46.8	14.3	215.0	4850.0	Female
341	Gentoo	Biscoe	50.4	15.7	222.0	5750.0	Male
342	Gentoo	Biscoe	45.2	14.8	212.0	5200.0	Female
343	Gentoo	Biscoe	49.9	16.1	213.0	5400.0	Male

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
...	...	...	...	...	...	...	...
147	Adelie	Dream	36.6	18.4	184.0	3475.0	Female
148	Adelie	Dream	36.0	17.8	195.0	3450.0	Female
149	Adelie	Dream	37.8	18.1	193.0	3750.0	Male
150	Adelie	Dream	36.0	17.1	187.0	3700.0	Female
151	Adelie	Dream	41.5	18.5	201.0	4000.0	Male

	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g
count	73.000000	73.000000	73.000000	73.000000
mean	40.390411	19.072603	192.410959	4043.493151
std	2.277131	1.018886	6.599317	346.811553
min	34.600000	17.000000	178.000000	3325.000000
25%	39.000000	18.500000	189.000000	3800.000000
50%	40.600000	18.900000	193.000000	4000.000000
75%	41.500000	19.600000	197.000000	4300.000000
max	46.000000	21.500000	210.000000	4775.000000

	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g
count	73.000000	73.000000	73.000000	73.000000
mean	37.257534	17.621918	187.794521	3368.835616
std	2.028883	0.942993	5.595035	269.380102
min	32.100000	15.500000	172.000000	2850.000000
25%	35.900000	17.000000	185.000000	3175.000000
50%	37.000000	17.600000	188.000000	3400.000000
75%	38.800000	18.300000	191.000000	3550.000000
max	42.200000	20.700000	202.000000	3900.000000

Mathematik für Biologiestudierende¶

Themen heute¶

	Messstelle	Konzentration	referenz	z
count	80.000000	80.000000	8.000000e+01	80.000000
mean	2.987500	0.000905	8.000000e-04	0.000105
std	1.409675	0.000341	1.091043e-19	0.000341
min	1.000000	0.000061	8.000000e-04	-0.000739
25%	2.000000	0.000701	8.000000e-04	-0.000099
50%	3.000000	0.000938	8.000000e-04	0.000138
75%	4.000000	0.001158	8.000000e-04	0.000358
max	5.000000	0.001605	8.000000e-04	0.000805

	t0	t1	Treatment	Difference
0	63.0	62.0	Verum	-1.0
1	24.0	22.0	Verum	-2.0
2	77.0	72.0	Verum	-5.0
3	43.0	41.0	Verum	-2.0
4	88.0	84.0	Verum	-4.0
...	...	...	...	...
1764	62.0	53.0	Placebo	-9.0
1765	54.0	56.0	Placebo	2.0
1766	57.0	52.0	Placebo	-5.0
1767	95.0	93.0	Placebo	-2.0
1768	41.0	39.0	Placebo	-2.0