import numpy as np
np.set_printoptions(legacy='1.21')
import seaborn as sns
sns.set_theme()
sns.set_context('talk')
import pandas as pd
from scipy import stats

treatment = pd.read_csv('https://www.math.uni-duesseldorf.de/~braun/bio2526/treatment.csv', index_col=0)
treatment

treatment['Difference'] = treatment.t1 - treatment.t0
treatment

sns.displot(treatment, x='Difference', hue='Treatment', bins=np.arange(-15, 8));

verum = treatment[treatment.Treatment=='Verum']
verum.describe()

placebo = treatment[treatment.Treatment=='Placebo']
placebo.describe()

stats.ttest_ind(verum.Difference, placebo.Difference, alternative='greater')

TtestResult(statistic=2.2224928684720053, pvalue=0.01318808737727292, df=1767.0)

anz_verum = verum.Difference.count()
anz_verum

887

anz_placebo = placebo.Difference.count()
anz_placebo

882

mean_verum = verum.Difference.mean()
mean_verum

-4.219842164599775

mean_placebo = placebo.Difference.mean()
mean_placebo

-4.545351473922903

std_verum = verum.Difference.std()
std_placebo = placebo.Difference.std()

zaehler = (anz_verum-1)*std_verum**2 + (anz_placebo-1)*std_placebo**2
nenner = anz_verum + anz_placebo - 2
sp = np.sqrt(zaehler/nenner)
sp

3.0800319638117295

d = (mean_verum - mean_placebo) / sp
d

0.10568374391812818

import statsmodels.stats.power as smp

poweranalyse = smp.TTestPower()

poweranalyse.power(effect_size=0.7, alpha=0.01, nobs=10, alternative="larger")

0.3306090909980096

poweranalyse.plot_power(effect_size=[0.5,0.7], alpha=0.01, nobs=np.arange(2,100), 
                         alternative='larger');

poweranalyse.power(effect_size=0.7, alpha=0.01, nobs=35, alternative='larger')

0.9502228587369882

poweranalyse = smp.TTestIndPower()  # Ind = Independent

poweranalyse.plot_power(effect_size=[0.5], alpha=0.05, nobs=np.arange(2,150));

poweranalyse.power(effect_size=0.5, alpha=0.05, nobs1=105, ratio=1)

0.9501287033889152

poweranalyse.plot_power(effect_size=[0.5], alpha=0.05, nobs=np.arange(90,120));

import statsmodels.api as sm

pp = sm.ProbPlot(treatment.t0)
pp.qqplot();

galapagos = pd.read_csv("https://www.math.uni-duesseldorf.de/~braun/bio2526/galapagos.csv")
galapagos.head()

pp = sm.ProbPlot(galapagos.Area)
pp.qqplot();

galapagos.Area.describe()

count      30.000000
mean      261.708667
std       864.110519
min         0.010000
25%         0.257500
50%         2.590000
75%        59.237500
max      4669.320000
Name: Area, dtype: float64

u = "https://www.math.uni-duesseldorf.de/~braun/bio2324/data/schadstoffe.csv"
schadstoffe = pd.read_csv(u, index_col=0)
schadstoffe.head()

res = stats.wilcoxon(schadstoffe.Konzentration, 0.0008, alternative="greater")
res

WilcoxonResult(statistic=2169.0, pvalue=0.004229703509534525)

stats.ttest_rel(schadstoffe.Konzentration, 0.0008, alternative="greater")

TtestResult(statistic=2.768040010585661, pvalue=0.0035114445640696246, df=79)

res = stats.wilcoxon(schadstoffe.Konzentration, 0.0008, alternative="greater", method="approx")
res

WilcoxonResult(statistic=2169.0, pvalue=0.004229703509534525)

res.zstatistic

2.6331616685404655

n = schadstoffe.Konzentration.count()
n

80

r = abs(res.zstatistic / np.sqrt(n))
r

0.2943964243301625

	t0	t1	Difference
count	887.000000	887.000000	887.000000
mean	62.616685	58.396843	-4.219842
std	12.253146	12.486847	3.130375
min	29.000000	21.000000	-14.000000
25%	54.000000	50.000000	-6.000000
50%	62.000000	58.000000	-4.000000
75%	71.000000	67.000000	-2.000000
max	100.000000	96.000000	6.000000

	t0	t1	Difference
count	882.000000	882.000000	882.000000
mean	62.175737	57.630385	-4.545351
std	11.728762	12.272701	3.028560
min	28.000000	23.000000	-15.000000
25%	54.000000	49.000000	-7.000000
50%	62.000000	58.000000	-5.000000
75%	69.000000	65.750000	-3.000000
max	100.000000	96.000000	5.000000

d-Wert	Interpretation
0.2	geringer Effekt
0.5	mittlerer Effekt
0.8	starker Effekt

	Island	Species	Area	Elevation	Nearest	Scruz	Adjacent
0	Baltra	58	25.09	346	0.6	0.6	1.84
1	Bartolome	31	1.24	109	0.6	26.3	572.33
2	Caldwell	3	0.21	114	2.8	58.7	0.78
3	Champion	25	0.10	46	1.9	47.4	0.18
4	Coamano	2	0.05	77	1.9	1.9	903.82

Vergeich	parametrisch	nicht-parametrisch
mit Referenzwert	t-Test für verbundene Stichproben	Wilcoxon-Test
vorher-nachher	t-Test für verbundene Stichproben	Wilcoxon-Test
verschiedene Populationen	t-Test für unverbundene Stichproben	Mann-Whitney-U-Test
was wird verglichen?	Erwartungswert	Median

Mathematik für Biologiestudierende¶

Wiederholung (interaktiv)¶

Themen heute¶

Z-Test¶

Effektstärke¶

Effektstärke¶

Interpretation der Effektstärke¶

Power-Analyse beim t-Test¶

Grafische Bestimmung der Power in Abhängigkeit vom Stichprobenumfang¶

Power-Analyse für unverbundene t-Tests¶

Ausschnittsvergrößerung aus dem Bild¶

Normalverteilungsannahmen¶

t-Test zum Vergleich zweier Erwartungswerte bei verbundenen Stichproben¶

Q-Q-Plot¶

Beispiel¶

Beispiel Galapagos Inseln¶

Nicht-parametrische Tests¶

Vergleich zweier Mediane¶

Vergleich zweier Erwartungswerte bzw. zweier Mediane¶

Wilcoxon-Signed-Rank-Test¶

Effektstärke beim Wilcoxon-Test¶

Interpretation der Effektstärke für Cohen's r¶

	t0	t1	Treatment
0	43	35	Verum
1	63	64	Verum
2	71	66	Verum
3	64	55	Verum
4	73	73	Verum
...	...	...	...
1764	60	54	Placebo
1765	48	46	Placebo
1766	54	53	Placebo
1767	81	76	Placebo
1768	51	46	Placebo

	Messstelle	Konzentration
0	5	0.000867
1	3	0.000490
2	1	0.000589
3	1	0.000950
4	4	0.001152