import numpy as np
np.set_printoptions(legacy='1.21')
import pandas as pd
from scipy import stats
import seaborn as sns
sns.set_theme()

df = pd.DataFrame()
df['Zufall1'] = stats.norm.rvs(size=30)
df['Zufall2'] = stats.norm.rvs(size=30)
df.head()

sns.regplot(df, x='Zufall1', y='Zufall2');

df.cov()

sx = df.Zufall1.std()
sx

0.9622543245896826

sy = df.Zufall2.std()
sy

1.1936976865444315

covar = df.Zufall1.cov(df.Zufall2)
covar

0.06138340710568945

r = covar / (sx*sy)
r

0.05344003902952043

df.corr()

df = pd.read_csv('blutdruckdaten.csv')
df.cov()

df.corr()

df1 = pd.DataFrame()
P = stats.norm(0.005, 0.005)    # ganz kleine Störung
df1['Länge'] = np.arange(30)
df1['Breite'] = 5 - 0.002*df1.Länge + P.rvs(size=30)
df1.head()

sns.regplot(df1, x='Länge', y='Breite');

df1.corr()

m = df1.Länge.cov(df1.Breite) / df1.Länge.var()
m

-0.0021088692212835303

df = pd.read_csv('galton.csv')
df.head()

sns.regplot(df, x='father', y='childHeight');

m = df.father.cov(df.childHeight) / df.father.var()
m

0.44652260468787525

df = pd.read_csv('ratten.csv')
df.head()

df_b = df[df.Gelände=='kontaminiert']
df_u = df[df.Gelände=='unkontaminiert']

df_b.describe()

df_u.describe()

stats.ttest_ind(df_u.Belastung, df_b.Belastung, alternative='less')

TtestResult(statistic=-0.8354714854531734, pvalue=0.20720251637482168, df=18.0)

df_b.corr(numeric_only=True)   #  ohne die Option gibt es einen ValueError

df_u.corr(numeric_only=True)

sns.lmplot(df, x='Alter', y='Belastung', hue='Gelände');

sns.lmplot(df, x='Alter', y='Belastung', col='Gelände');

	Zufall1	Zufall2
0	-1.460736	-2.580128
1	-1.451398	-1.925486
2	1.537288	-0.981048
3	-0.292581	-0.347726
4	0.047495	-0.236847

	Alter	Blutdruck	Größe
Alter	231.131034	348.572414	36.128966
Blutdruck	348.572414	750.271264	69.805057
Größe	36.128966	69.805057	28.617195

	Alter	Blutdruck	Größe
Alter	1.000000	0.837056	0.444235
Blutdruck	0.837056	1.000000	0.476392
Größe	0.444235	0.476392	1.000000

	Länge	Breite
0	0	5.009333
1	1	5.003577
2	2	5.002507
3	3	5.001060
4	4	5.000614

	family	father	mother	midparentHeight	children	childNum	gender	childHeight
0	001	78.5	67.0	75.43	4	1	male	73.2
1	002	75.5	66.5	73.66	4	1	male	73.5
2	002	75.5	66.5	73.66	4	2	male	72.5
3	003	75.0	64.0	72.06	2	1	male	71.0
4	004	75.0	64.0	72.06	5	1	male	70.5

Mathematik für Biologiestudierende II¶

Themen¶

Korrelation¶

Beispiel für zwei unkorrelierte Größen¶

Empirischer Korrelationskoeffizient¶

Beispiel "Zufall"¶

Interpretation des empirischen Korrelationskoeffizienten¶

Berechnung mit `pandas`¶

Beispiel: Blutdruckdaten¶

Beispielgraph mit sehr guter Korrelation¶

Regression zum Mittelwert¶

Regression zum Mittelwert: Interpretation¶

Korrelation ≠ Kausalität¶

Beispiel: Bleibelastung im Gewebe von Ratten¶

	Alter	Belastung	Gelände
0	10	63	unkontaminiert
1	12	67	unkontaminiert
2	6	55	unkontaminiert
3	6	42	unkontaminiert
4	11	73	unkontaminiert

	Alter	Belastung
count	10.000000	10.000000
mean	7.700000	66.500000
std	2.451757	10.384283
min	4.000000	50.000000
25%	6.250000	61.000000
50%	8.000000	66.000000
75%	9.750000	75.250000
max	11.000000	81.000000

	Zufall1	Zufall2
Zufall1	0.925933	0.061383
Zufall2	0.061383	1.424914

	Zufall1	Zufall2
Zufall1	1.00000	0.05344
Zufall2	0.05344	1.00000

	Alter	Belastung
Alter	1.00000	0.82883
Belastung	0.82883	1.00000

Mathematik für Biologiestudierende II¶

Themen¶

Korrelation¶

Beispiel für zwei unkorrelierte Größen¶

Empirischer Korrelationskoeffizient¶

Beispiel "Zufall"¶

Interpretation des empirischen Korrelationskoeffizienten¶

Berechnung mit pandas¶

Beispiel: Blutdruckdaten¶

Beispielgraph mit sehr guter Korrelation¶

Regression zum Mittelwert¶

Regression zum Mittelwert: Interpretation¶

Korrelation ≠ Kausalität¶

Beispiel: Bleibelastung im Gewebe von Ratten¶

Berechnung mit `pandas`¶