Data Science 2
Saskia Otto
Universität Hamburg, IMF
Sommersemester 2024
Nach Abschluss dieser VL und Übung..
(ohne die Rohdaten zu transformieren):
scale_x_log10()
und scale_y_log10()
log-transformiert die X- und Y-Achse zur Basis 10.coord_trans()
transformiert die Koordinaten des Plots entsprechend der angegebenen Transformation.Hier ein Beispiel des möglichen Zusammenhangs zwischen dem Körpergewicht (in kg) und der Gehirnmasse (in g) von Säugetieren (Datensatz mammals
aus dem Paket ‘MASS’).
scale_...
Hier ein Beispiel des möglichen Zusammenhangs zwischen dem Körpergewicht (in kg) und der Gehirnmasse (in g) von Säugetieren (Datensatz mammals
aus dem Paket ‘MASS’).
coord_trans()
Hier ein Beispiel des möglichen Zusammenhangs zwischen dem Körpergewicht (in kg) und der Gehirnmasse (in g) von Säugetieren (Datensatz mammals
aus dem Paket ‘MASS’).
→ Dies gilt allerdings nur bei linearen bzw. monotonen Zusammenhängen!
s^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n}(y_{i} - \bar{y})^2 = \frac{1}{n-1}SS_Y
Cov(x,y)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y}) = \frac{1}{n-1}SS_{XY}
\frac{Cov(x,y)}{Cov(x,y)_{max}} = \frac{Cov(x,y)}{s_x*s_y}
→ Pearson Produkt-Moment-Korrelationskoeffizient
r_{x,y} = \frac{Cov(x,y)}{Cov(x,y)_{max}} = \frac{\frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i- \bar{x})(y_i- \bar{y})}{s_x*s_y}
r_s = 1-\frac{6\sum D_i^2}{n(n^2-1)}~~~\text{mit n = Anzahl der Rangpaare}
x
und y
sind in diesem Falle einzelne Vektoren.x
bzw. x
und y
übergeben werden (alle Spalten müssen numerisch sein!).
Um zu testen, ob die Beziehung signifikant ist, kann die Funktion cor()
erweitert werden zu cor.test()
:
Pearson's product-moment correlation
data: iris$Sepal.Length and iris$Sepal.Width
t = -1, df = 148, p-value = 0.2
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.2727 0.0435
sample estimates:
cor
-0.118
Spearman's rank correlation rho
data: sl and sw
S = 656283, p-value = 0.04
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.167
Kendall's rank correlation tau
data: sl and sw
z = -1, p-value = 0.2
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
-0.077
cor()
use
→ ‘pairwise.complete.obs’ auswählen, um die paarweisen Werte mit NA zu entfernen.Ohne Einstellung des Arguments 'use'
[1] NA
Das Skalenniveau lässt sich umwandeln, allerdings kann dies immer mit einem Informationsverlust einhergehen.
sqrt()
log()
Bildquelle: Zuur et al., 2007 (Kap. 4)
03:00
Link zur Shiny-App: teaching-stats/transformations/normality/
Link zur Shiny-App: teaching-stats/transformations/variance-homogeneity/
Link zur Shiny-App: teaching-stats/transformations/linearity/
Was ist zu tun?
Eigene Simulationen zu Powertransformationen mithilfe von Shiny Apps durchführen:
Wichtig
Moodle-Quiz VOR der nächsten Übung ausfüllen!
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 2