Data Science 1 - Programmieren & Visualisieren
Universität Hamburg, IMF
Invalid Date
Mal sehen, wie gut Ihr “Bauchgefühl” über die Richtung und Stärke einer Korrelation ist:
Negative Korrelation (Beziehung) zwischen der Napfschneckenabundanz und dem Grad der Algenbedeckung → Was könnte die Ursache sein?
→ Eine höhere Napfschneckenzahl ‘verursacht’ eine geringere Algenbedeckung durch Wegfraß.
→ Ein hoher Algenbewuchs ‘verursacht’ eine geringere Napfschneckenzahl durch Konkurrenz um Platz.
Videolink: https://www.youtube.com/watch?v=VMUQSMFGBDo
\[s^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n}(x_{i} - \bar{x})^2 = \frac{1}{n-1}SS_X\]
\[Cov(x,y)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y}) = \frac{1}{n-1}SS_{XY}\]
\[Cov(X,Y)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y})\]
\[ Cov(x,y)_{max} = s_x*s_y\]
\[r_{x,y} = \frac{Cov(x,y)}{Cov(x,y)_{max}} = \frac{\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y})}{s_x*s_y}\]
Bildquelle links: reality Baum von www.pixabay.com(CCO 1.0); Bildquelle rechts: ‘stick man graph’ von J. Nielsen (Masterarbeit: ‘Conversion of Graphs to Polygonal Meshes’, Technische Universität Kopenhagen, www.tchami.com)
Die Kurvenanpassung (auch Ausgleichsrechnung oder Fit) ist eine mathematische Methode, gegebene (Mess-) Daten in möglichst einfacher analytischer Form darzustellen.
Jedes Modell stellt einen Kompromiss zwischen Varianz und Verzerrung dar (sog. ‘Varianz-Verzerrungs-Dilemma’):
Der Anteil, um den sich die Funktion f(x) ändern würde, wenn man einen anderen Testdatensatz nimmt.
Der Fehler, der eingeführt wird, wenn man ein reales und kompliziertes Problem mit einem sehr einfachen Modell lösen möchte.
Oftmals kann man die Kurvenform aus einem Teilbereich der Daten nicht verlässlich ableiten. Dieses Problem tritt häufig bei exponentiellen Kurven im flachen Anfangsbereich auf:
Datenquelle: https://ourworldindata.org/world-population-growth
Bildquelle: Screenshot vom RKI COVID-19-Dashboard(Stand 23.11.2020)
Hier wirkt nur ein Faktor auf die abhängige Variable ein. Man spricht auch von Proportionalität bei diesem Typ.
Hier arbeiten zwei Prozesse gegeneinander, d.h. mit unterschiedlichem Vorzeichen.
Die beiden gegeneinander arbeitenden Prozesse sind die Energiezufuhr durch die Nahrung (positives Vorzeichen) und der Energieverbrauch durch den Erhaltungsstoffwechsel.
Das mathematische Werkzeug, dass dahinter steckt:
\[SS_{Residuen}=\sum e_i^2=\sum((a+b*x_i)-y_i)^2\rightarrow MIN\]
\[SS_{Residuen}=\sum e_i^2=\sum((b*x_i)-y_i)^2\]
Bildung der 1. Ableitung nach b und anschließend Null setzen:
\(SS_{Residuen}=(b*x_1-y_1)^2+(b*x_2-y_2)^2+....\) | Binomialgleichung anwenden
\(SS_{Residuen}=b^2x_1^2-2bx_1y_1+y_1^2 + b^2x_2^2-2bx_2y_2+y_2^2 +....\) | davon die 1. Ableitung
\(\frac{dSS_{Residuen}}{db}=2bx_1^2-2x_1y_1 + 2bx_2^2-2x_2y_2 +...\) | wieder als Summen schreiben
\(\frac{dSS_{Residuen}}{db}=2bx_1^2+2bx_2^2+...-2x_1y_1-2x_2y_2-...\)
\(\frac{dSS_{Residuen}}{db}=2b\sum x_i^2 - 2\sum x_iy_i\) | Null setzen und nach b auflösen
\(0=2b\sum x_i^2 - 2\sum x_iy_i\)
\(2\sum x_iy_i = 2b\sum x_i^2\) | durch 2 und Summe \(x^2\) teilen
\(b=\frac{\sum x_iy_i}{\sum x_i^2}\) → Formel für die Steigung b mit a = 0
Analog zu Regressionstyp B werden die Parameter mittels partieller Ableitungen und Gleichsetzung mit Null ermittelt. Bei der Bildung einer partiellen Ableitung z.B. nach a wird die andere Variable wie eine Konstante behandelt (und umgekehrt).
\[\begin{align} b&=\frac{\sum x_iy_i}{\sum x_i^2}\\ &= \frac{\sum[(x_i-\bar{x})*(y_i-\bar{y})]}{\sum(x_i-\bar{x})^2} \\ &= \frac{SS_{XY}}{SS_{X}} = \frac{cov_{XY}}{s_{x}^2}\\ \end{align}\]
\(a = \bar{y}-b\bar{x}\)
→ Da die Regressionslinie durch das Zentrum der Datenwolke geht (also durch den Mittelwert von x und y), braucht diese Formel nur nach a umgeformt werden:
\(\bar{y} = a -b\bar{x}\)
Die Gesamtstreuung (\(SS_Y\) oder \(SS_{Gesamt}\)) kann in 2 Komponenten zerlegt werden:
erklärbare Streuung = \(SS_{Regression}\) + nicht erklärbare Streuung = \(SS_{Residuen}\)
Die statistische Kenngröße \(R^2\) ist ein Maß für den Anteil der Variabilität in y, welcher durch das lineare Modell erklärt werden kann:
\[R^2 = \frac{SS_{Regression}}{SS_{Gesamt}} = \frac{\sum(\hat{y}_i-\bar{y})^2}{\sum(y_i-\bar{y})^2}\] \[1 \geq R^2 \geq 0\]
Wenn der Effekt einer erklärenden Variable x sich mit steigenden oder fallenden x-Werten verändert, kann ein Modell mit polynomialen Bedingungen die bessere Option sein.
Die quadratische Funktion hat drei Parameter und kann verschiedene Variationen an Parabeln produzieren.
Bildquelle: Brook Taylor, Wikipedia (lizensiert unter CCO 1.0)
Der Begriff linear bezieht sich auf die lineare Kombination von Parametern, nicht die Form der Verteilung, d.h. Parameter dürfen nicht im Exponenten auftreten oder durch/mit einem anderen Parameter dividiert/multipliziert werden.
\[y = a + bx + cx^2\] \[y = a + b(x*w)\] \[y = a + b*log(x)\] \[y = a + b*exp(x)\] \[y = a + b*sin(x)\]
Exponentielles Wachstum oder Verfall kommt in vielen Bereichen der Biologie vor und lässt sich mit der Exponentialfunktion allgemein beschreiben:
Ein typisches Beispiel für eine Beziehung, die nicht mit einer linearen Grafik dargestellt werden kann, ist in der Biologie die Beziehung zwischen dem Gewicht (W) eines Tieres (z.B. eines Fisches) und seiner Länge (L).
Für die meisten Arten folgt sie einer 2-Parameter Powerfunktion: \(W = aL^{b}\)
Längen und Gewichte für Königslachse von drei Orten in Argentinien (Daten sind im FSA R Paket zur Verfügung gestellt).
\[ \begin{align} W &= aL^{b} \\ ln(W) &= ln(aL^{b})\\ ln(W) &= ln(a) + b*ln(L)\\ \Rightarrow Y &= a + b*X \end{align} \]
Bildquelle: Zuur et al., 2007 (Kap. 4)
… dieses Thema wird nochmal in den Modulen Data Science 2, 3 und 4 aufgegriffen und vertieft.
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1