Data Science 1 - Programmieren & Visualisieren
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF
Wintersemester 2024/2025
Important
→ Dies gilt allerdings nur bei linearen Zusammenhängen!
Mal sehen, wie gut Ihr “Bauchgefühl” über die Richtung und Stärke einer Korrelation ist:
Link zur Shiny-App: https://saskiaotto.shinyapps.io/correlation-game/
Negative Korrelation (Beziehung) zwischen der Napfschneckenabundanz und dem Grad der Algenbedeckung → Was könnte die Ursache sein?
→ Eine höhere Napfschneckenzahl ‘verursacht’ eine geringere Algenbedeckung durch Wegfraß.
→ Ein hoher Algenbewuchs ‘verursacht’ eine geringere Napfschneckenzahl durch Konkurrenz um Platz.
Videolink: https://www.youtube.com/watch?v=VMUQSMFGBDo
s^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n}(x_{i} - \bar{x})^2 = \frac{1}{n-1}SS_X
Cov(x,y)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y}) = \frac{1}{n-1}SS_{XY}
Cov(X,Y)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y})
Cov(x,y)_{max} = s_x*s_y
r_{x,y} = \frac{Cov(x,y)}{Cov(x,y)_{max}} = \frac{\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y})}{s_x*s_y}
Bildquelle links: reality Baum von www.pixabay.com(CCO 1.0); Bildquelle rechts: ‘stick man graph’ von J. Nielsen (Masterarbeit: ‘Conversion of Graphs to Polygonal Meshes’, Technische Universität Kopenhagen, www.tchami.com)
Die Kurvenanpassung (auch Ausgleichsrechnung oder Fit) ist eine mathematische Methode, gegebene (Mess-) Daten in möglichst einfacher analytischer Form darzustellen.
Jedes Modell stellt einen Kompromiss zwischen Varianz und Verzerrung dar (sog. ‘Varianz-Verzerrungs-Dilemma’):
Der Anteil, um den sich die Funktion f(x) ändern würde, wenn man einen anderen Testdatensatz nimmt.
Der Fehler, der eingeführt wird, wenn man ein reales und kompliziertes Problem mit einem sehr einfachen Modell lösen möchte.
Oftmals kann man die Kurvenform aus einem Teilbereich der Daten nicht verlässlich ableiten. Dieses Problem tritt häufig bei exponentiellen Kurven im flachen Anfangsbereich auf:
Datenquelle: https://ourworldindata.org/world-population-growth
Bildquelle: Screenshot vom RKI COVID-19-Dashboard(Stand 23.11.2020)
Berechnetes potentielles Wachstum von Sprottenlarven (Länge: 10mm) in Abhängigkeit von der Temperatur in einem 3D Ozeanmodell (Quelle: A. Temming)
Hier wirkt nur ein Faktor auf die abhängige Variable ein. Man spricht auch von Proportionalität bei diesem Typ.
Hier arbeiten zwei Prozesse gegeneinander, d.h. mit unterschiedlichem Vorzeichen.
Die beiden gegeneinander arbeitenden Prozesse sind die Energiezufuhr durch die Nahrung (positives Vorzeichen) und der Energieverbrauch durch den Erhaltungsstoffwechsel.
Das mathematische Werkzeug, dass dahinter steckt:
SS_{Residuen}=\sum e_i^2=\sum((a+b*x_i)-y_i)^2\rightarrow MIN
SS_{Residuen}=\sum e_i^2=\sum((b*x_i)-y_i)^2
Bildung der 1. Ableitung nach b und anschließend Null setzen:
SS_{Residuen}=(b*x_1-y_1)^2+(b*x_2-y_2)^2+.... | Binomialgleichung anwenden
SS_{Residuen}=b^2x_1^2-2bx_1y_1+y_1^2 + b^2x_2^2-2bx_2y_2+y_2^2 +.... | davon die 1. Ableitung
\frac{dSS_{Residuen}}{db}=2bx_1^2-2x_1y_1 + 2bx_2^2-2x_2y_2 +... | wieder als Summen schreiben
\frac{dSS_{Residuen}}{db}=2bx_1^2+2bx_2^2+...-2x_1y_1-2x_2y_2-...
\frac{dSS_{Residuen}}{db}=2b\sum x_i^2 - 2\sum x_iy_i | Null setzen und nach b auflösen
0=2b\sum x_i^2 - 2\sum x_iy_i
2\sum x_iy_i = 2b\sum x_i^2 | durch 2 und Summe x^2 teilen
b=\frac{\sum x_iy_i}{\sum x_i^2} → Formel für die Steigung b mit a = 0
Analog zu Regressionstyp B werden die Parameter mittels partieller Ableitungen und Gleichsetzung mit Null ermittelt. Bei der Bildung einer partiellen Ableitung z.B. nach a wird die andere Variable wie eine Konstante behandelt (und umgekehrt).
\begin{align} b&=\frac{\sum x_i*y_i}{\sum x_i^2}\\ &= \frac{\sum[(x_i-\bar{x})*(y_i-\bar{y})]}{\sum(x_i-\bar{x})^2} \\ &= \frac{SS_{XY}}{SS_{X}} \Rightarrow \frac{Cov_{XY}}{s_{x}^2}\\ \end{align}
→ Da die Regressionslinie durch das Zentrum der Datenwolke geht (also durch den Mittelwert von x und y), braucht diese Formel nur nach a umgeformt werden:
\bar{y} = a+b\bar{x} \Rightarrow a = \bar{y}-b\bar{x}
Die Gesamtstreuung (SS_Y oder SS_{Gesamt}) kann in 2 Komponenten zerlegt werden:
erklärbare Streuung = SS_{Regression} + nicht erklärbare Streuung = SS_{Residuen}
Die statistische Kenngröße R^2 ist ein Maß für den Anteil der Variabilität in y, welcher durch das lineare Modell erklärt werden kann:
R^2 = \frac{SS_{Regression}}{SS_{Gesamt}} = \frac{\sum(\hat{y}_i-\bar{y})^2}{\sum(y_i-\bar{y})^2} 1 \geq R^2 \geq 0
Exponentielles Wachstum oder Verfall kommt in vielen Bereichen der Biologie vor und lässt sich mit der Exponentialfunktion allgemein beschreiben:
Linearisierung: Logarithmus-Transformation auf beiden Seiten
Da der natürliche Logarithmus die inverse Funktion einer Exponentialfunktion ist, ln(e^x) = x, kann eine exponentielle Kurve in eine lineare Beziehung verändert werden, in dem man den natürlichen Logarithmus auf beiden Seiten der Gleichung nimmt.
Ein typisches Beispiel für eine Beziehung, die nicht mit einer linearen Grafik dargestellt werden kann, ist in der Biologie die Beziehung zwischen dem Gewicht (W) eines Tieres (z.B. eines Fisches) und seiner Länge (L).
Für die meisten Arten folgt sie einer 2-Parameter Powerfunktion: W = aL^{b}
Längen und Gewichte für Königslachse von drei Orten in Argentinien (Daten sind im FSA R Paket zur Verfügung gestellt).
Linearisierung: Logarithmus-Transformation auf beiden Seiten
Die Potenzfunktion wird linear, wenn man sie doppelt logarithmiert!
\begin{align} W &= aL^{b} \\ ln(W) &= ln(aL^{b})\\ ln(W) &= ln(a) + b*ln(L)\\ \Rightarrow Y &= a + b*X \end{align}
Bildquelle: Zuur et al., 2007 (Kap. 4)
… dieses Thema wird nochmal in den Modulen Data Science 2, 3 und 4 aufgegriffen und vertieft.
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1