Df Sum Sq Mean Sq F value Pr(>F)
dosis_fac 1 6834 6834 167.1 9.38e-12 ***
Residuals 22 900 41
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

DS3 - Vom experimentellen Design zur
explorativen Datenanalyse & Data Mining
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF
Wintersemester 2025/2026

![]()
Das Modul wird als vollständig abgeschlossen betrachtet, sobald beide Komponenten erfolgreich absolviert wurden.
| VL | Datum | Thema | Übung |
|---|---|---|---|
| 1 | 14.11.2025 | Moduleinführung und Wiederholung DS2 | → Übung 1 |
| 2 | 21.11.2025 | 2-faktorielle, gekreuzte Varianzanalyse (ANOVA) | → Übung 2 |
| 3 | 28.11.2025 | Kovarianzanalyse (ANCOVA) | → Übung 3 |
| 4 | 05.12.2025 | Lineare Gemischte Modelle und verschachtelte ANOVA | → Übung 4 |
| 5 | 12.12.2025 | Multiple lineare Regression | |
| 6 | 19.12.2025 | VIDEO: Open Science und R Markdown | |
| - | Weihnachtsferien | ||
| 7 | 09.01.2026 | Resampling-Techniken | → Übung 5 |
| 8 | 16.01.2026 | Unsupervised Learning 1: Clusteranalyse | → Übung 6 |
| 9 | 24.01.2026 | Unsupervised Learning 2: PCA | → Übung 7 |
| 10 | 30.01.2026 | Wiederholung |
| Gruppe | Tag & Zeit | Raum | Dozent*in | Termine |
|---|---|---|---|---|
| A | Mo, 13:30–15:00 | IZS, 115 | Dr. Kim Rohlfing | 17.11./24.11./1.12./8.12./12.1./19.1./26.1. |
| B | Mo, 13:00–14:30 | IPM, E.004 | Dr. Dragan Matevski | 17.11./24.11./1.12./8.12./12.1./19.1./26.1. |
| C | Mi, 10:30–12:00 | IPM, gr. HS | Dr. Dragan Matevski | 19.11./26.11./3.12./10.12./14.1./21.1./28.1. |
| D | Mi, 10:30–12:00 | IZS, 115 | Prof. Dr. Kathrin Otte | 19.11./26.11./3.12./10.12./14.1./21.1./28.1. |
| E | Fr, 13:15–14:45 | IZS, Kosswig-Saal | Dr. Monika Eberhard | 21.11./28.11./5.12./12.12./16.1./23.1./30.1. |
| F | Fr, 13:15–14:45 | IZS, 116 | Dr. Kim Rohlfing | 21.11./28.11./5.12./12.12./16.1./23.1./30.1. |
| BMARSYS | Mo, 14:00–15:30 | IMF, GES, 107 | Dr. Saskia Otto | 17.11./24.11./1.12./8.12./12.1./19.1./26.1. |

Weitere Fragen?
Image by starline on Freepik
Die Explorative Datenanalyse (EDA) und Data Mining sind zwei verschiedene, jedoch miteinander verbundene Konzepte im Bereich der Datenanalyse:
Die Explorative Datenanalyse (EDA) und Data Mining sind zwei verschiedene, jedoch miteinander verbundene Konzepte im Bereich der Datenanalyse:













→ Die Wissenschaft des Lernens spielt eine Schlüsselrolle in den Bereichen Statistik, Data Mining und künstliche Intelligenz und überschneidet sich mit Bereichen der Ingenieurwissenschaften und anderen Disziplinen.

![]()


Bildquelle: Morimoto & Ponton (2021): Virtual reality in biology: could we become virtual naturalists?

Bildquelle: James et al. (2013): Introduction to Statistical Learning

Die Trainingsfehlerrate (MSE_{train}) unterscheidet sich oft erheblich von der Testfehlerrate (MSE_{test}). Insbesondere bei sehr flexiblen Modellen kann die Trainingsfehlerrate die Testfehlerrate drastisch unterschätzen.
Bildquelle: James et al. (2013): Introduction to Statistical Learning

Download-link dieses Cheatsheets: [datacamp.com](https://www.datacamp.com/cheat-sheet/)

Aber fangen wir erstmal wieder mit kleineren Datensätzen aus (eigenen) Datenerhebungen an …

| Fragen, die Sie sich stellen sollten | Fest | Zufällig |
|---|---|---|
| Interessiert an den Unterschieden zwischen den Faktorstufen? | ☑️︎ | |
| Ist der Faktor ein Behandlungseffekt? | ☑️ | |
| Sind die Faktorstufen informativ? | ☑️ | |
| Repräsentieren die Faktorstufen experimentelle Interventionen? | ☑️ | |
| Sind die Faktorstufen speziell ausgewählt? | ☑️ | |
| Kommen alle Stufen des Faktors im Experiment vor? | ☑️ | |
| Kommen die Faktorstufen von der gleichen Population? | ☑️ | |
| Gibt es viele Faktorstufen? | ☑️ | |
| Soll auf andere Faktorstufen, die nicht im Experiment vorkommen, verallgemeinert werden? | ☑️ | |
| Gibt es ein verschachteltes (nested) oder hierarchisches (Sub)sampling? | ☑️ |
Quelle: Lazic (2016) Experimental Design for Laboratory Biologists
Alle experimentellen Einheiten sind unabhängig und können zufällig allen Kombinationen von Behandlungsstufen zugeteilt werden.

\begin{align*} \text{Ergebnis} &= \text{Dosis} + \text{Fehler}\\ \text{(N - 1)} &= \text{(p - 1)} + \text{(N - p)}\\ \text{(7)} &= \text{(1)} + \text{(6)} \end{align*}

![]()
Df Sum Sq Mean Sq F value Pr(>F)
dosis_fac 1 6834 6834 167.1 9.38e-12 ***
Residuals 22 900 41
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
![]()
1-faktorielle ANOVA mit gemittelten Unterprobewerten
Df Sum Sq Mean Sq F value Pr(>F)
dosis_fac 1 2278 2278.1 83.87 9.54e-05 ***
Residuals 6 163 27.2
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

![]()
Summary Measure Analysis’ der DS2 Fallstudie
Vorbereitung @home (s. Handbuch)
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
![]()
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 3