Data Science 2
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF & IZS
Sommersemester 2025
Nach Abschluss dieser VL und Übung..
Sind Mitarbeiter des Gesundheitswesens, die keine COVID-19 Vorerkrankung hatten, verstärkt geimpft worden?
Unterscheiden sich zwei Tannenhäher- und Eichelhäherarten in ihrer Häufigkeit in verschiedenen Waldtypen?
Bildquellen: Wikipedia (Tannenhäher unter (CC BY-SA 2.0 Lizenz) und Eichelhäher unter CC BY-SA 4.0 Lizenz)
Bildquelle: Ravindran, 2016, PNAS
Frage, die sich meist stellt:
Es gibt drei Varianten die Signifikanz der Unterschiede zwischen beobachteten und erwarteten Häufigkeiten zu beurteilen:
chisq.test()
\chi^2=\sum\frac{(Beobachtungswert_i - Erwartungswert_i)^2}{Erwartungswert_i} \; \text{ und } \; G = 2\sum_{i=1}^{n}B_i\cdot ln\frac{B_i}{E_i}
Augenzahl | Beobachtet | Erwartet |
---|---|---|
1 | 59 | |
2 | 33 | |
3 | 48 | |
4 | 51 | |
5 | 65 | |
6 | 44 | |
Gesamt (N) | 300 |
Augenzahl | Beobachtet | Erwartet (P(X)*N) |
---|---|---|
1 | 59 | 1/6*300 = 50 |
2 | 33 | 1/6*300 = 50 |
3 | 48 | 1/6*300 = 50 |
4 | 51 | 1/6*300 = 50 |
5 | 65 | 1/6*300 = 50 |
6 | 44 | 1/6*300 = 50 |
Gesamt (N) | 300 | 300 |
H0: Es gibt keinen Unterschied zwischen den beobachteten und erwarteten Werten.
\chi^2=\frac{(59-50)^2}{50}+\frac{(33-50)^2}{50}+\frac{(48-50)^2}{50}+\frac{(51-50)^2}{50}+\frac{(65-50)^2}{50}+\frac{(44-50)^2}{50} = 12.72
G = 2(59\cdot ln\frac{59}{50}+33\cdot ln\frac{33}{50}+48\cdot ln\frac{48}{50}+51\cdot ln\frac{51}{50}+65\cdot ln\frac{65}{50}+44\cdot ln\frac{44}{50}) = 13.07
Bei einem Kreuzungsexperiment an Erbsen beobachtete Gregor Mendel folgende Phänotypen:
Augenzahl | Beobachtet |
---|---|
rund-gelbe Erbsen | 79 |
rund-grüne Erbsen | 27 |
runzlig-gelbe Erbsen | 24 |
runzlig-grüne Erbsen | 8 |
Gesamt | 138 |
Bildquelle: Wikipedia - Mariana Ruiz (CC0 Lizenz)
Aufgrund seines genetischen Modells erwartete er eine Verteilung der Nachkommen im Verhältnis 9:3:3:1:
Augenzahl | Beobachtet | Erwartet |
---|---|---|
rund-gelbe Erbsen | 79 | 9/16*138 = 77.625 |
rund-grüne Erbsen | 27 | 3/16*138 = 25.875 |
runzlig-gelbe Erbsen | 24 | 3/16*138 = 25.875 |
runzlig-grüne Erbsen | 8 | 1/16*138 = 8.625 |
Gesamt | 138 | 138 |
Sind Mitarbeiter des Gesundheitswesens, die keine COVID-19 Vorerkrankung hatten, verstärkt geimpft worden?
H0: Es gibt keinen Zusammenhang zwischen der Impfrate und COVID-19 Vorerkrankungen, die Verteilungen in beiden Merkmalen sind unabhängig voneinander.
Artikel: Hall et al., 2021, The Lancet
COVID-19 Vorerkrankung | Nicht Geimpft | Geimpft | Gesamt |
---|---|---|---|
Negativ | 1405 | 13716 | 15121 |
Positiv | 1278 | 6925 | 8203 |
Gesamt | 2683 | 20641 | 23324 |
COVID-19 Vorerkr. | Nicht Geimpft | Geimpft | Gesamt |
---|---|---|---|
Negativ | P(neg. \cap nicht~geimpft) | P(neg. \cap geimpft) | 15121 |
Positiv | P(positiv \cap nicht~geimpft) | P(positiv \cap geimpft) | 8203 |
Gesamt | 2683 | 20641 | 23324 |
COVID-19 Vorerkr. | Nicht Geimpft | Geimpft | Gesamt |
---|---|---|---|
Negativ | \frac{15121}{23324}*\frac{2683}{23324} = 0.0746 | \frac{15121}{23324}*\frac{20641}{23324} = 0.5737 | 15121 |
Positiv | \frac{8203}{23324}*\frac{2683}{23324} = 0.0404 | \frac{8203}{23324}*\frac{20641}{23324} = 0.3112 | 8203 |
Gesamt | 2683 | 20641 | 23324 |
COVID-19 Vorerkr. | Nicht Geimpft | Geimpft | Gesamt |
---|---|---|---|
Negativ | 0.0746*N \approx 1740 | 0.5737*N \approx 13381 | 15121 |
Positiv | 0.0404*N \approx 943 | 0.3112*N \approx 7260 | 8203 |
Gesamt | 2683 | 20641 | 23324 (N) |
Freiheitsgrade hier: (Anzahl Zeilen der Kontingenztafel - 1)*(Anzahl Spalten der Kontingenztafel - 1)
correct = TRUE
)\chi^2_{korrigiert} = \sum\frac{(|B_i-E_i|-0.5)^2}{E_i}
03:00
Die Messungen der Kelchblattbreite im iris
Datensatzes lassen sich in folgende drei Größenklassen einteilen:
df <- iris |>
# Mit cut() können wir eine metrische Variable kategorial machen:
mutate(sw_class = cut(Sepal.Width, breaks = 3) ) |>
group_by(Species, sw_class) |>
# shortuct für summarise(n = n())
count() |>
pivot_wider(names_from = Species, values_from = n,
values_fill = 0)
df$sw_class <- c("< 2.8 cm", "2.8-4 cm", "> 4 cm")
sw_sizeclass <- as.matrix(df[ ,2:4])
rownames(sw_sizeclass) <- df$sw_class
knitr::kable(df, format = "html", col.names = c(
"Größenklasse", "I. setosa", "I. versicolor", "I. virginica")) |>
kableExtra::kable_styling(position = "center", font_size = 20)
Größenklasse | I. setosa | I. versicolor | I. virginica |
---|---|---|---|
< 2.8 cm | 1 | 27 | 19 |
2.8-4 cm | 36 | 23 | 29 |
> 4 cm | 13 | 0 | 2 |
Nun wird ermittelt, ob das Größenmerkmal und die Artzugehörigkeit voneinander abhängen:
Nun wird ermittelt, ob das Größenmerkmal und die Artzugehörigkeit voneinander abhängen:
Nun wird ermittelt, ob das Größenmerkmal und die Artzugehörigkeit voneinander abhängen:
Nun wird ermittelt, ob das Größenmerkmal und die Artzugehörigkeit voneinander abhängen:
Was tun, wenn beim Pearson’s \chi^2-Test oder beim G-Test zu viele der erwarteten Häufigkeiten <5 sind?
Merkmale M1 und M2 | + | - | Summe |
---|---|---|---|
+ | a | b | a + b |
- | c | d | c + d |
Summe | a + c | b + d | a + b + c + d = n |
Die Wahrscheinlichkeit für ein bestimmtes Ergebnis ist gegeben durch
p=\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}
Unterscheiden sich zwei Tannenhäher- und Eichelhäherarten in ihrer Häufigkeit in verschiedenen Waldtypen?
Waldtyp | Tannenhäher | Eichelhäher | Summe |
---|---|---|---|
Nadelwald | 6 | 2 | 8 |
Laubwald | 4 | 8 | 12 |
Summe | 10 | 10 | 20 |
Wir müssen die Wahrscheinlichkeit von Ergebnissen berechnen, die noch extremer sind als dieses. Es gibt zwei davon (bei gleichen Randsummen):
Waldtyp | TH | EH | Summe |
---|---|---|---|
Nadelwald | 7 | 1 | 8 |
Laubwald | 3 | 9 | 12 |
Summe | 10 | 10 | 20 |
Waldtyp | TH | EH | Summe |
---|---|---|---|
Nadelwald | 8 | 0 | 8 |
Laubwald | 2 | 10 | 12 |
Summe | 10 | 10 | 20 |
Diese 3 Wahrscheinlichkeiten müssen nun addiert werden und dann mit 2 multipliziert werden für einen 2-seitigen Test:
fisher.test()
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 2