Data Science 2
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF & IZS
Sommersemester 2025
Nach Abschluss dieser VL und Übung werden Sie..
Unterscheiden sich verschiedene Vogelarten in Skandinavien in der mittleren Entfernung ihrer Zugdistanzen?
Bildquellen: Wikipedia (Buchfink und Grünfink unter CC BY-SA 2.5 Lizenz), Mönchsgrasmücke unter CC0 Lizenz)
Merkmal | Kennwert | Parameter |
---|---|---|
Mittelwert | \bar{X} | \mu (mü) |
Varianz | s^2 | \sigma^2 (sigma-qu.) |
Standardabweichung | s | \sigma (sigma) |
Korrelation | r | \rho (rho) |
Anteilswert | h bzw. p | \pi (pi) |
\hat{\sigma}^2 = s^2\frac{n}{n-1} \Rightarrow E(\hat{\sigma}^2)=\sigma^2
\begin{align} \hat{\sigma}^2 &= \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n}\cdot\frac{n}{n-1}\nonumber\\ &=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}\nonumber\\ \end{align}
var()
und die Excel/Calc Funktion =VARIANZ()
berechnen die korrigierte Varianz.=VAR.P()
für die unkorrigierte Varianz.\hat{\sigma}_{\bar{X}}=\sqrt\frac{\hat{\sigma}^2}{n}=\frac{\hat\sigma}{\sqrt{n}}
\hat{\sigma}_{Md}=1.25\sqrt\frac{\hat{\sigma}^2}{n}
\hat{\sigma}_{s}=\sqrt\frac{\hat{\sigma}^2}{2n}
\hat{\sigma}_{\%}=\sqrt\frac{P\cdot Q}{n}
Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer!
Im folgenden gehen wir drei Beispiele für die Konfidenzintervalle des Mittelwerts durch.
(wenn die Populationsvarianz bekannt ist und eine Normalverteilung angenommen werden kann)
KI = z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}} \Rightarrow P \{\bar{X}-z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}<\mu<\bar{X}+z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}\}
Bei KI_{90\%} ist z_{\alpha/2}=1.65, bei KI_{95\%} ist z_{\alpha/2}=1.96, bei KI_{99\%} ist z_{\alpha/2}=2.58
\mu = 120\text{mm}, \sigma = 50\text{mm}
[1] 120
[1] 2.1
[1] -1.96
[1] 1.96
[1] -4.12
[1] 4.12
→ Wir sind zu 95% sicher, dass der wahre Mittelwert im Bereich 115.90 - 124.10 liegt (120 ± 4.10).
KI_{95\%} = t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}} \Rightarrow P \{\bar{X}-t_{(\alpha/2,df)}\cdot\sqrt{\frac{s^2}{n}}\leq \mu \leq \bar{X}+t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}}\} = 0.95 (df = degrees of freedom: n-1)
\mu = 120\text{mm}, \sigma = 50\text{mm}
[1] 132
[1] 19.3
[1] -2.78
[1] 2.78
[1] -53.6
[1] 53.6
→ Wir sind zu 95% sicher, dass der wahre Mittelwert im Bereich 78.30 - 185.50 liegt (131.90 ± 53.60).
FG | 0.5 | 0.2 | 0.1 | 0.05 | 0.025 | 0.01 | 0.005 | 0.002 | 0.001 |
---|---|---|---|---|---|---|---|---|---|
1 | 1.000 | 3.08 | 6.31 | 12.706 | 25.45 | 63.66 | 127.32 | 318.31 | 636.62 |
2 | 0.816 | 1.89 | 2.92 | 4.303 | 6.21 | 9.93 | 14.09 | 22.33 | 31.60 |
3 | 0.765 | 1.64 | 2.35 | 3.182 | 4.18 | 5.84 | 7.45 | 10.21 | 12.92 |
4 | 0.741 | 1.53 | 2.13 | 2.776 | 3.50 | 4.60 | 5.60 | 7.17 | 8.61 |
5 | 0.727 | 1.48 | 2.02 | 2.571 | 3.16 | 4.03 | 4.77 | 5.89 | 6.87 |
10 | 0.700 | 1.37 | 1.81 | 2.228 | 2.63 | 3.17 | 3.58 | 4.14 | 4.59 |
15 | 0.691 | 1.34 | 1.75 | 2.131 | 2.49 | 2.95 | 3.29 | 3.73 | 4.07 |
20 | 0.687 | 1.32 | 1.73 | 2.086 | 2.42 | 2.85 | 3.15 | 3.55 | 3.85 |
30 | 0.683 | 1.31 | 1.70 | 2.042 | 2.36 | 2.75 | 3.03 | 3.38 | 3.65 |
40 | 0.681 | 1.30 | 1.68 | 2.021 | 2.33 | 2.70 | 2.97 | 3.31 | 3.55 |
03:00
Wie groß ist das KI_{95\%} beim Zugverhalten verschiedener Vogelarten?
Bildquellen: Wikipedia (Buchfink und Grünfink unter CC BY-SA 2.5 Lizenz), Mönchsgrasmücke unter CC0 Lizenz)
Statistiken der erhobenen Daten:
Kenngröße | Buchfink | Grünfink | Mönchsgrasmücke |
---|---|---|---|
Mittelwert x̅ | 1800 km | 1950 km | 3000 km |
Standardabweichung s | ±900 km | ±400 km | ±1000 km |
Stichprobengröße n | 20 | 10 | 30 |
t_{(\alpha, df)} | 2.09 | 2.26 | 2.04 |
Da symmetrisches KI, nur Berechnung des oberen Bereichs
# Buchfink:
bf_se <- 900/sqrt(20)
bf_t <- qt(0.975, df = 20-1)
bf_ci <- round(bf_t*bf_se, 1)
paste0(1800-bf_ci, " - ", 1800+bf_ci, " (±", bf_ci, ")")
[1] "1378.8 - 2221.2 (±421.2)"
# Grünfink:
gf_se <- 400/sqrt(10)
gf_t <- qt(0.975, df = 10-1)
gf_ci <- round(gf_t*gf_se, 1)
paste0(1950-gf_ci, "-", 1950+gf_ci, " (±", gf_ci, ")")
[1] "1663.9-2236.1 (±286.1)"
# Mönchsgrasmücke:
mgm_se <- 1000/sqrt(30)
mgm_t <- qt(0.975, df = 30-1)
mgm_ci <- round(mgm_t*mgm_se, 1)
paste0(3000-mgm_ci, "-", 3000+mgm_ci, " (±", mgm_ci, ")")
[1] "2626.6-3373.4 (±373.4)"
Umformung der Formel zur Berechnung des KI des Mittelwerts nach der Stichprobe:
E = z_{\alpha/2}\sqrt\frac{\sigma^2}{n}
\Rightarrow~n=(\frac{z_{\alpha/2}\cdot\sigma}{E})^2
(E ist der maximale Schätzfehler)
Wie groß muss N sein, damit wir zu 99% sicher sind, dass der wahre Mittelwert im Bereich ±25 km (=E) um den Stichprobenmittelwert liegt?
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 2