

Data Science 2
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF & IZS
Sommersemester 2026
![]()
Unterscheiden sich verschiedene Vogelarten in Skandinavien in der mittleren Entfernung ihrer Zugdistanzen?



Bildquellen: Wikipedia (Buchfink und Grünfink unter CC BY-SA 2.5 Lizenz), Mönchsgrasmücke unter CC0 Lizenz)


| Merkmal | Kennwert | Parameter |
|---|---|---|
| Mittelwert | \bar{X} | \mu (mü) |
| Varianz | s^2 | \sigma^2 (sigma-qu.) |
| Standardabweichung | s | \sigma (sigma) |
| Korrelation | r | \rho (rho) |
| Anteilswert | h bzw. p | \pi (pi) |



![]()


\hat{\sigma}^2 = s^2\frac{n}{n-1} \Rightarrow E(\hat{\sigma}^2)=\sigma^2
\begin{align} \hat{\sigma}^2 &= \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n}\cdot\frac{n}{n-1}\nonumber\\ &=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}\nonumber\\ \end{align}
var() und die Excel/Calc Funktion =VARIANZ() berechnen die korrigierte Varianz.=VAR.P() für die unkorrigierte Varianz.

\hat{\sigma}_{\bar{X}}=\sqrt\frac{\hat{\sigma}^2}{n}=\frac{\hat\sigma}{\sqrt{n}}
\hat{\sigma}_{Md}=1.25\sqrt\frac{\hat{\sigma}^2}{n}
\hat{\sigma}_{s}=\sqrt\frac{\hat{\sigma}^2}{2n}
\hat{\sigma}_{\%}=\sqrt\frac{P\cdot Q}{n}


Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer!

Im folgenden gehen wir zwei Beispiele für die Konfidenzintervalle des Mittelwerts durch.
Korrekt:
“Würde man das Experiment sehr oft wiederholen, würden 95% aller so konstruierten Intervalle den wahren Populationsparameter enthalten.”
Falsch (aber intuitiv):
“Der wahre Parameter liegt mit 95% Wahrscheinlichkeit in diesem Intervall.”
Hier ist die intuitive Interpretation tatsächlich zulässig – das Intervall heißt Credible Interval und beschreibt die Wahrscheinlichkeitsverteilung über den Parameter selbst.
In diesem Modul arbeiten wir ausschließlich frequentistisch.
(wenn die Populationsvarianz bekannt ist und eine Normalverteilung angenommen werden kann)
KI = z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}} \Rightarrow P \{\bar{X}-z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}<\mu<\bar{X}+z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}\}
Bei KI_{90\%} ist z_{\alpha/2}=1.65, bei KI_{95\%} ist z_{\alpha/2}=1.96, bei KI_{99\%} ist z_{\alpha/2}=2.58

\mu = 120\text{mm}, \sigma = 50\text{mm}
[1] 120
[1] 2.1
[1] -1.96
[1] 1.96
[1] -4.12
[1] 4.12
→ Der wahre Populationsmittelwert liegt mit 95%-iger Konfidenz im Bereich 115.90 – 124.10 (120 ± 4.10).
KI_{95\%} = t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}} \Rightarrow P \{\bar{X}-t_{(\alpha/2,df)}\cdot\sqrt{\frac{s^2}{n}}\leq \mu \leq \bar{X}+t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}}\} = 0.95 (df = degrees of freedom: n-1)

\mu = 120\text{mm}, \sigma = 50\text{mm}
[1] 132
[1] 19.3
[1] -2.78
[1] 2.78
[1] -53.6
[1] 53.6
→ Der wahre Populationsmittelwert liegt mit 95%-iger Konfidenz im Bereich 78.30 – 185.50 (131.90 ± 53.60).
| FG | 0.5 | 0.2 | 0.1 | 0.05 | 0.025 | 0.01 | 0.005 | 0.002 | 0.001 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.000 | 3.08 | 6.31 | 12.706 | 25.45 | 63.66 | 127.32 | 318.31 | 636.62 |
| 2 | 0.816 | 1.89 | 2.92 | 4.303 | 6.21 | 9.93 | 14.09 | 22.33 | 31.60 |
| 3 | 0.765 | 1.64 | 2.35 | 3.182 | 4.18 | 5.84 | 7.45 | 10.21 | 12.92 |
| 4 | 0.741 | 1.53 | 2.13 | 2.776 | 3.50 | 4.60 | 5.60 | 7.17 | 8.61 |
| 5 | 0.727 | 1.48 | 2.02 | 2.571 | 3.16 | 4.03 | 4.77 | 5.89 | 6.87 |
| 10 | 0.700 | 1.37 | 1.81 | 2.228 | 2.63 | 3.17 | 3.58 | 4.14 | 4.59 |
| 15 | 0.691 | 1.34 | 1.75 | 2.131 | 2.49 | 2.95 | 3.29 | 3.73 | 4.07 |
| 20 | 0.687 | 1.32 | 1.73 | 2.086 | 2.42 | 2.85 | 3.15 | 3.55 | 3.85 |
| 30 | 0.683 | 1.31 | 1.70 | 2.042 | 2.36 | 2.75 | 3.03 | 3.38 | 3.65 |
| 40 | 0.681 | 1.30 | 1.68 | 2.021 | 2.33 | 2.70 | 2.97 | 3.31 | 3.55 |
![]()
Wie groß ist das KI_{95\%} beim Zugverhalten verschiedener Vogelarten?



Bildquellen: Wikipedia (Buchfink und Grünfink unter CC BY-SA 2.5 Lizenz), Mönchsgrasmücke unter CC0 Lizenz)
![]()
Statistiken der erhobenen Daten:
| Kenngröße | Buchfink | Grünfink | Mönchsgrasmücke |
|---|---|---|---|
| Mittelwert x̅ | 1800 km | 1950 km | 3000 km |
| Standardabweichung s | ±900 km | ±400 km | ±1000 km |
| Stichprobengröße n | 20 | 10 | 30 |
| t_{(\alpha, df)} | 2.09 | 2.26 | 2.04 |
Da symmetrisches KI, nur Berechnung des oberen Bereichs
[1] "1378.8 - 2221.2 (±421.2)"
[1] "1663.9-2236.1 (±286.1)"
[1] "2626.6-3373.4 (±373.4)"

Umformung der Formel zur Berechnung des KI des Mittelwerts nach der Stichprobe:
E = z_{\alpha/2}\sqrt\frac{\sigma^2}{n}
\Rightarrow~n=(\frac{z_{\alpha/2}\cdot\sigma}{E})^2
(E ist der maximale Schätzfehler)
Wie groß muss N sein, damit wir zu 99% sicher sind, dass der wahre Mittelwert im Bereich ±25 km (=E) um den Stichprobenmittelwert liegt?
![]()
![]()

![]()
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 2