Data Science 2
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF & IZS
Sommersemester 2025
Nach Abschluss dieser VL und Übung..
Unterscheidet sich das durchschnittliche Zugverhalten zwischen Buchfinken und Mönchsgrasmücken?
Singen Kohlmeisen in der Stadt durchschnittlich lauter als auf dem Land?
Bildquellen rechts oben: Wikipedia (Buchfink unter (CC BY-SA 2.5 Lizenz) und Mönchsgrasmücke unter CC0 Lizenz)
Bildquelle links unten: Luc Viator-Wikimedia (CC-BY-SA 2.0 Lizenz)
t.test()
t=\frac{\bar{X}-\mu_0}{s_{\bar{X}}}=\frac{\bar{X}-\mu_0}{\frac{s}{\sqrt{n}}}\Rightarrow~~\text{wenn}~\mu_0 = 0: \frac{\bar{X}}{\frac{s}{\sqrt{n}}}
Unterscheidet sich unsere Stichprobe zum Zugverhalten des Buchfinks (BF1) von einer anderen Stichprobe (BF2), für die wir nur den Mittelwert kennen?
Kenngröße | BF1 | BF2 |
---|---|---|
Mittelwert \bar{X} | 1800 km | 1697 km |
Standardabw. s | ±900 km | ? |
Stichprobengröße n | 20 | ? |
Kennwert: | \mu bzw. \bar{X} |
H0: | BF1 = BF2 |
HA: | BF1 \neq BF2 |
Voraussetzung: | Normalverteilung |
Teststatistik: | t |
alpha: | 0.05 |
FG: | n-1 = 19 |
p-Wert: | Vergleich t-Wert mit t_{krit} aus einer t-Verteilung |
Bildquelle: Wikipedia (CC BY-SA 2.5 Lizenz)
ZUSAMMENFASSUNG: → Es gibt keinen signifikanten Unterschied zwischen unserer Stichprobe und der Vergleichsstichprobe (t = 0.51, df = 19, p > 0.5).
t=\frac{(\bar{X}_1-\bar{X}_2) -(\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \Rightarrow~~\text{wenn}~~\mu_1-\mu_2=0:~t = \frac{(\bar{X}_1-\bar{X}_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}
s_p = \text{Standardabweichung der gepoolten Stichprobe:}
s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2 -1)s_2^2}{(n_1-1) + (n_2-1)}} \text{wenn } n \text{ identisch ist: }s_p = \sqrt{\frac{s_1^2 + s_2^2}{2}}
t=\frac{(\bar{X}_1-\bar{X}_2) -(\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
Unterscheidet sich das durchschnittliche Zugverhalten zwischen Buchfinken und Mönchsgrasmücken?
Kenngröße | Buchfink | Mönchsgrasmücke |
---|---|---|
Mittelwert x̅ | 1800 km | 3000 km |
Standardabweichung s | ±900 km | ±1000 km |
Stichprobengröße n | 20 | 30 |
Bildquellen: Wikipedia (Buchfink unter (CC BY-SA 2.5 Lizenz) und Mönchsgrasmücke unter CC0 Lizenz)
Shapiro-Wilk normality test
data: bf
W = 1, p-value = 0.5
Shapiro-Wilk normality test
data: mgm
W = 1, p-value = 0.6
→ Die H0 wird jeweils angenommen, da p > 0.05: beide Stichproben sind normal verteilt.
F test to compare two variances
data: bf and mgm
F = 0.8, num df = 19, denom df = 29, p-value = 0.6
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.363 1.946
sample estimates:
ratio of variances
0.81
→ Die H0 wird angenommen, da p > 0.05: die Varianzen beider Gruppen sind gleich.
Kennwert: | \mu bzw. \bar{X} |
H0: | \mu_{BF} = \mu_{MGM} |
HA: | \mu_{BF} \neq \mu_{MGM} |
Voraussetzung: | Normalität/Varianzhomogenität |
Teststatistik: | t = \frac{(\bar{X}_{BF}-\bar{X}_{MGM})}{s_p \sqrt{\frac{1}{n_{BF}} + \frac{1}{n_{MGM}}}} |
alpha: | 0.05 |
FG: | (n_{BF}-1)+(n_{MGM}-1) = 19+29 = 48 |
p-Wert: | Vergleich t-Wert mit t_{krit} aus einer t-Verteilung |
Zur Erinnerung: t = \frac{(\bar{X}_1-\bar{X}_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\text{ mit }s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2 -1)s_2^2}{(n_1-1) + (n_2-1)}}
Abb. links: Fotoaufnahmen des Lake Powell, USA, am Zusammenfluss mit dem Dirty Devil River (Quelle: https://pubs.usgs.gov/fs/2004/3062/)
t = \frac{\bar{d}-\mu_d}{s_{\bar{d}}} = \frac{\bar{d}-\mu_d}{\frac{s}{\sqrt{n}}}
\text{mit }FG = n-1
Patient | Medikament1 | Medikament2 | Differenz |
---|---|---|---|
1 | 0.7 | 1.9 | -1.2 |
2 | -1.6 | 0.8 | -2.4 |
3 | -0.2 | 1.1 | -1.3 |
4 | -1.2 | 0.1 | -1.3 |
5 | -0.1 | -0.1 | 0.0 |
6 | 3.4 | 4.4 | -1.0 |
7 | 3.7 | 5.5 | -1.8 |
8 | 0.8 | 1.6 | -0.8 |
9 | 0.7 | 4.6 | -3.9 |
10 | 2.0 | 3.4 | -1.4 |
Paired t-test
data: Schlafdaten$Medikament1 and Schlafdaten$Medikament2
t = -5, df = 9, p-value = 0.001
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
-2.258 -0.762
sample estimates:
mean difference
-1.51
t.test(x, mu)
t.test(x, y, var.equal = TRUE)
t.test(x, y, var.equal = TRUE, alternative = “greater”)
t.test(x, y, alternative = “less”)
t.test(x, y, paired = TRUE, var.equal = TRUE)
t.test(x, y, paired = TRUE, alternative = “greater”)
03:00
iris
iris
iris
wilcox.test()
…Great tits in cities sing faster and at a higher pitch compared to their conspecifics dwelling in forests, as reported in this issue by Slabbekoorn and den Boer-Visser [6]. They suggest that the birds changed their songs to make them stand out against the masking traffic noise in urban areas. ..
Bildquelle männliche Kohlmeise: Luc Viator-Wikimedia (CC-BY-SA 2.0 Lizenz)
Vorgehensweise
Fragestellung
Messort | Lautstärke (in dB) | Rang |
---|---|---|
Stadt | 52 | 8.5 |
Stadt | 44 | 5 |
Stadt | 64 | 11 |
Stadt | 53 | 10 |
Stadt | 37 | 4 |
Stadt | 50 | 7 |
Land | 47 | 6 |
Land | 29 | 1 |
Land | 32 | 3 |
Land | 52 | 8.5 |
Land | 31 | 2 |
Rangsummen:
R_{Stadt}=8.5+5+11+10+4+7=45.5
R_{Land}=6+1+3+8.5+2=29.5
U-Werte:
U_{Stadt}=6*5+\frac{6(6+1)}{2}-45.5 = 5.5
U_{Land}=6*5+\frac{5(5+1)}{2}-20.5 = 24.5
\Rightarrow U_{min} = U_{Stadt} = 5.5
pnorm()
ermittelt werden.2-seitiger Test
[1] 4
[1] 0.0823
Warning in wilcox.test.default(x = land, y = stadt): cannot compute exact
p-value with ties
Wilcoxon rank sum test with continuity correction
data: land and stadt
W = 6, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0
Warum die Warnung?
Wilcoxon rank sum test with continuity correction
data: stadt and land
W = 24, p-value = 0.05
alternative hypothesis: true location shift is greater than 0
Die Reihenfolge von x und y zählt für U (bzw. W)!
y
Argument zugewiesen wird!wilcox.test(x, y)
wilcox.test(x, y, alternative = “greater”)
wilcox.test(x, y, paired = TRUE)
wilcox.test(x, y, paired = TRUE, alternative = “less”)
Unterscheiden sich mit Fadenwürmern infizierte und mit Interleucin-33 behandelte Mäuse von nicht behandelten Kontrollen in der Zahl adulter Fadenwürmer im Dünndarm?
→ H_0 kann abgelehnt werden. Es gibt einen signifikanten Unterschied.
Welch Two Sample t-test
data: wurm$interleucin and wurm$kontrolle
t = -0.08, df = 8, p-value = 0.9
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-29.9 27.9
sample estimates:
mean of x mean of y
20 21
→ H_0 kann nicht abgelehnt werden. Es gibt keinen signifikanten Unterschied.
→ H_0 kann weiterhin abgelehnt werden. Es gibt einen signifikanten Unterschied.
Welch Two Sample t-test
data: wurm$interleucin[-9] and wurm$kontrolle[-9]
t = -8, df = 12, p-value = 8e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-17.08 -9.42
sample estimates:
mean of x mean of y
7.5 20.8
→ Jetzt kann H_0 abgelehnt werden.
Nicht-parametrische Tests sind wesentlich weniger sensitiv gegenüber Ausreißern!
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 2