DS3 - Vom experimentellen Design zur
explorativen Datenanalyse & Data Mining
Saskia Otto
Universität Hamburg, IMF
Wintersemester 2023/2024
Von den Primärdaten (experimentelles Design) zu den Sekundärdaten (Data Mining)
Emutlu et al. (2012): 18O-assisted dynamic metabolomics
for individualized diagnostics and treatment of human
diseases, Croat Med J 53(6): 529–534
Aus Efron & Hastie (2016)
Computer Age Statistical
Inference: Algorithms,
Evidence, and Data Science
Link zum Buch: hier
Die intraspezifische Streuung des Zugverhaltens ist bei Buchfinken kleiner als bei der Mönchsgrasmücke.
Die Varianz \(\sigma^2\) bzw. \(s^2\)
Bildquellen: Wikipedia (Buchfink unter CC BY-SA 2.5 Lizenz) und Mönchsgrasmücke unter CC0 Lizenz)
Die intraspezifische Streuung des Zugverhaltens ist bei Buchfinken kleiner als bei der Mönchsgrasmücke.
Bildquellen: Wikipedia (Buchfink unter CC BY-SA 2.5 Lizenz) und Mönchsgrasmücke unter CC0 Lizenz)
Kenngröße | Buchfink | Mönchsgrasmücke |
---|---|---|
Mittelwert x̅ | 1800 km | 3000 km |
Standardabweichung s | ±900 km | ±1000 km |
Stichprobengröße n | 20 | 30 |
Folgende grundlegende Fragen müssen beantwortet werden:
Entscheidung | \(H_0\) trifft zu | \(H_0\) trifft nicht zu |
---|---|---|
\(H_0\) wird nicht abgelehnt | Richtige Entscheidung; kein Effekt nachgewiesen | \(\beta\)-Fehler; vorhandenen Effekt nicht nachgewiesen |
\(H_0\) wird abgelehnt | \(\alpha\)-Fehler; Effekt nachgewiesen, den es nicht gibt | Richtige Entscheidung; vorhandenen Effekt nachgewiesen |
Alle experimentellen Einheiten sind unabhängig und können zufällig allen Kombinationen von Behandlungsstufen zugeteilt werden.
\[\begin{align*} \text{Ergebnis} &= \text{Dosis} + \text{Fehler}\\ \text{(N - 1)} &= \text{(p - 1)} + \text{(N - p)}\\ \text{(19)} &= \text{(1)} + \text{(18)} \end{align*}\]
Dosis ist kategorial (ANOVA): \[\begin{align*} \text{Ergebnis} &= \text{Dosis} + \text{Fehler}\\ \text{(N - 1)} &= \text{(p - 1)} + (\text{N - p})\\ \text{(19)} &= \text{(3)} + (\text{16}) \end{align*}\]
Dosis ist kontinuierlich (Regression): \[\begin{align*} \text{Ergebnis} &= \text{Dosis} + \text{Fehler}\\ \text{(19)} &= \text{(1)} + (\text{18}) \end{align*}\]
Typische Tabelle einer 1-faktoriellen Varianzanalyse
Df Sum Sq Mean Sq F value Pr(>F)
dosis_fac 3 9713 3238 7.424 0.00247 **
Residuals 16 6978 436
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\[\begin{align*} \text{Ergebnis} &= \text{Dosis} + \text{Fehler}\\ \text{(N - 1)} &= \text{(p - 1)} + \text{(N - p)}\\ \text{(7)} &= \text{(1)} + \text{(6)} \end{align*}\]
Aber wie berechnen wir ein solches gekreuztes Design mit 2 Faktoren?
Qinn (1988) untersuchte die Auswirkungen der Jahreszeit und der Dichte der adulten Tiere auf die Fruchtbarkeit von Napfschnecken (Siphonaria diemenensis).
Beispiel ist aus Kapitel 9.2 in Quinn & Keough (2002): Experimental Design and Data Analysis for Biologists
Wenn eine Wechselwirkung vorliegt,
ist es schwierig, den Haupteffekt und die marginalen Mittelwerte zu prüfen.
\(\Rightarrow\) Zuerst H0 auf keine Interaktion testen: Wenn nicht signifikant, Haupteffekte testen!
\(\Rightarrow\) Falls signifikant, untersuchen Sie jeden Faktor separat innerhalb der Stufen des anderen Faktors (paarweise Vergleiche!)
Wenn Sie Interaktionsterme einbeziehen wollen,
müssen auch die Hauptterme und alle untergeordneten Terme einbezogen werden!!
Y = A + B + C + AB vs. Y = A + C + AB
Hier ein Beispiel mit einfachen Boxplots:
\(\Rightarrow\) Es gibt keine signifikante Interaktion.
\(\Rightarrow\) Es gibt einen sign. Effekt der Jahreszeit und der Dichte auf die Fruchtbarkeit von Napfschnecken (Siphonaria diemenensis).
ANOVA mit Interaktion
Df Sum Sq Mean Sq F value Pr(>F)
season 1 3.250 3.250 17.842 0.000645 ***
density 3 5.284 1.761 9.669 0.000704 ***
season:density 3 0.165 0.055 0.301 0.823955
Residuals 16 2.915 0.182
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 3