Data Science 1 - Programmieren & Visualisieren
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF
Wintersemester 2025/2026
Funktion | Beschreibung |
---|---|
plot() |
Generische Funktion mit vielen Methoden (kontextabhängig) |
barplot() |
Säulen- bzw. Balkendiagram |
boxplot() |
Boxplot |
contour() |
Plot mit Höhenlinien |
coplot() |
sog. ‘conditional plot’ |
curve() |
Kurven über einem Intervall für eine Funktion |
hist() |
Histogramm |
image() |
Erstellt kontextabhängige ‘Bildraster’ (auch in 3D) |
mosaicplot() |
Mosaikplot für kategorielle Daten |
pairs() |
Streudiagramm-Matrix für paarweise Gegenüberstellungen |
pie() |
Tortendiagramm |
qqplot() |
QQ-Plot |
?plot
und ?plot.default
werden viele Argumente von Grafikfunktionen genannt und erklärt.par()
.?par
listet wesentlich mehr Argumente, die auch in den high-level Funktionen genutzt werden können.Argument | Beschreibung |
---|---|
adj | Ausrichtung von Text (zentriert,…) |
axes | Achsen sollen (nicht) eingezeichnet werden |
bg | Hintergrundfarbe der Grafik |
bty | Art der Box um die gezeichnete Grafik |
cex | Größe der Schriftzeichen in der Grafik |
col | Farben (der Linien, der Punkte, etc.) |
las | Ausrichtung der Achsenbeschriftung |
lty,lwd | Linientyp (gestrichelt,…) und Linienbreite |
main,sub | Überschrift und Unterschrift |
mfrow | mehrere Grafiken in einem Bild |
pch | Darstellung eines Punktes |
type | Typ der Darstellung (Linien, Punkte, Nichts) |
xlab,ylab | x-/y-Achsenbeschriftung |
xlim,ylim | Größe der Grafik in x-/y-Richtung |
Funktion | Beschreibung |
---|---|
abline() |
Zeichnet eine kontextabhängige Linie |
arrows() |
Zeichnet Pfeile |
axis() |
Zeichnet Achsen (jede Achse einzeln!) |
grid() |
Zeichnet ein Gitternetz |
legend() |
Erstellt eine Legende im Plot |
lines() |
Zeichnet schrittweise Linien |
mtext() |
Schreibt Text in den Rand (s.unten) |
points() |
Zeichnet Punkte |
polygon() |
Zeichnet ausgefüllte Polygone |
rect() |
Zeichnet (vektorwertig) ein Rechteck |
segments() |
Zeichnet (vektorwertig) Linien |
text() |
Schreibt Text in den Plot |
title() |
Beschriftet den Plot |
Screen device (default) - Fenster im Programm
File device - Ausgabeformat als Rasterdatei (JPEG, PNG, TIFF,..) oder Vektordatei (PDF, EPS)
Das Schließen mit dev.off()
ist besonders wichtig, sonst werden alle folgenden Grafiken mit in dem PDF gespeichert und nicht in der Konsole angezeigt!
Weblink: https://exts.ggplot2.tidyverse.org
Fotos von Radomil Binek, Danielle Langlois, und Frank Mayfield (von links nach rechts); Zugriff über Wikipedia(unter CC-BY-SA 3.0 Lizenz).
ggplot()
ggplot(
data = iris,
mapping = aes(
x = Sepal.Length,
y = Petal.Length,
colour = Species)
) +
geom_point() +
geom_smooth(method = "lm") +
scale_colour_manual(values =
c("orange","cyan3", "#68228B")) +
facet_wrap(~Species, nrow = 2) +
coord_flip() +
guides(colour = guide_none()) +
labs(x = "Länge Kelchblatt (cm)",
y = "Länge Kronblatt (cm)")
ggplot(
data = iris,
mapping = aes(
x = Sepal.Length,
y = Petal.Length,
colour = Species)
) +
geom_point() +
geom_smooth(method = "lm") +
scale_colour_manual(values =
c("orange","cyan3", "#68228B")) +
facet_wrap(~Species, nrow = 2) +
coord_flip() +
guides(colour = guide_none()) +
labs(x = "Länge Kelchblatt (cm)",
y = "Länge Kronblatt (cm)") +
theme_dark()
ggsave()
Das letzte angezeigte Diagramm (im ‘screen device’) wird als PDF in 4x4 inch gespeichert (auch Standardeinstellung).
Starte mit dieser Funktion und übergebe einen Datensatz an die Funktion: ggplot(data)
Als nächstes müssen die Datenvariablen den Koordinaten zugeordnet werden damit ein leeres Koordinatensystem dargestellt wird. Dies geschieht in der aes()
Funktion. Weitere visuelle Eigenschaften (sog. aesthetics) sind z.B. Größe, Farbe, Form, etc.
ggplot()
gilt für alle Ebenen.geom_XXX()
Funktion gilt nur für diese Ebene.
geom_XXX()
: Kombiniere ein geometrisches Objekt/Grundelement, welches die Daten repräsentiert, mit den Abbildungseigenschaften, einer Statistik und einer Positionsanpassung, z.B. geom_point()
oder geom_col()
.
Sog. ‘scale’ Funktionen bestimmen wie Datenwerte in visuelle Eigenschaften übersetzt werden (überschreiben die Standardeinstellungen), wie z.B.
scale_fill_manual()
.
facet_XXX()
Funktionen erstellen kleinere Diagramme, die verschiedene Teilmengen der Daten anzeigen; nützlich zur Untersuchung von Interaktionen mit kategorialen Variablen.
Funktionen wie
coord_flip()
bestimmen die Darstellung des XY-Koordinatensystems und somit die Positionierung der Daten.
Mit der guides()
Funktion und weiteren guide_XXX()
Helferfunktionen kann die Anzeige der Achsen und Legende bestimmt werden.
Sog. ‘theme’ Funktionen bestimmen die Anzeige aller Nicht-Datenelemente des Plots. Es können alle Einstellungen mit einem kompletten Thema wie
theme_classic()
überschrieben oder einzelne Einstellungen mit theme()
verändert werden.
Das aktuell angezeigte ggplot Diagramm lässt sich mit ggsave()
speichern: ggsave("plot.png", width = 5, height = 5)
→ speichert den Plot als PDF in 5x5 inch ab.
Was haben wir gerade gelernt?
# ------------------------------ Vorbereitung ----------------------------------
#### Laden von Paketen
library(tidyverse)
# library(readODS)
# -------------------- Import und Datenaufbereitung ----------------------------
#### Import einer Textdatei im CSV-Format (das gaengigste Format)
kabeljau_csv <- read.csv(file = "Wachstum-Futter.csv")
str(kabeljau_csv) # --> output ist ein data frame
#### Import von Calc- und Excel-Dateien (ODS- und XLSX-Format)
# Import einer ODS-Datei mit dem 'readODS' Paket
kabeljau <- readODS::read_ods("DS1_W03_Streudiagramm_Kabeljau.ods",
sheet = "Daten_Visualisierung")
str(kabeljau) # --> output ist ein tibble
# Import einer XLSX-Datei mit z.B. dem 'readxl' Paket
kabeljau_xlsx <- readxl::read_excel("DS1_W03_Streudiagramm_Kabeljau.xlsx",
sheet = "Daten_Visualisierung")
str(kabeljau_xlsx) # --> output ist ein tibble
#### Datensichtung und -transformation
# Anpassen der Spaltennamen
names(kabeljau) <- c("verzehr", "wachstum")
str(kabeljau)
# Wertebereich pruefen
summary(kabeljau)
# ---------------------- Lineare Regression: Berechnung ------------------------
# (-> Swirl-Lektion L03 in DSB-02-Datenexploration mit R)
#### Manuelle Berechnung
# Um Tipparbeit zu sparen, speichern wir die Spalten als einzelne Vektoren
x <- kabeljau$verzehr
y <- kabeljau$wachstum
# Steigungsparameter b berechnen
b <- cov(x = x, y = y)/ var(x) # der shortcut mit der Kovarianz und Varianz
b
# Achsenabschnitt a berechnen
a <- mean(y) - b*mean(x)
a
# Das Bestimmtheitsmass R^2 berechnen
y_obs <- a + b*x # die vorhergesagten Werte
ss_gesamt <- sum( (y - mean(y))^2 ) # Summenquadrate Gesamt
ss_regression <- sum( (y_obs - mean(y))^2 ) # Summenquadrate der Regression
R2 <- round(ss_regression/ss_gesamt, 4)
R2
##### Zum Vergleich die Regression automatisch berechnen mit lm()
# Erstellung des Modells
mod <- lm(formula = wachstum ~ verzehr, data = kabeljau)
mod
# Ausgabe nur der beiden Koeffizienten
coef(mod)
# Ausgabe aller wichtigen Statistiken des Modells, inklusive von R^2
# (mehr dazu in Data Science 2)
summary(mod)
# ------------------- Lineare Regression: Visualisierung ----------------------
#### Visualisierung mit den Basisfunktionen (-> Lektion L02 und L03 in DSB-02)
# Sog. high-level Funktion plot()
plot(x = kabeljau$verzehr, y = kabeljau$wachstum,
pch = 15, cex = 1.2, col = "#004586",
xlab = "Verzehr/Konsum (J/g/Tag", ylab = "Wachstum (J/g/Tag")
# Sog. low-level Funktionen, die Elemente in den angezeigten Plot einfuegen
abline(a = a, b = b)
title(
main = paste0("wachstum = ", round(a, 3), " + ", round(b, 3), "*verzehr"),
sub = paste0("Bestimmtheitsmaß R^2 = ", R2)
) # (paste0() verkettet Zeichen miteinander)
#### Visualisierung mit ggplot2 (-> siehe swirl-Kurs DSB-04)
kabeljau |>
ggplot(aes(x = verzehr, y = wachstum)) + # initiert Plot
geom_point(colour = "#004586", shape = 15, size = 3) +
# Punktelemente hinzufuegen
geom_abline(slope = b, intercept = a) +
# Achsenbeschriftung anpassen und Titel hinzufuegen
labs(x = "Verzehr/Konsum (J/g/Tag", y = "Wachstum (J/g/Tag",
title = str_c("wachstum = ", round(a, 3), " + ", round(b, 3), "*verzehr"),
subtitle = str_c("Bestimmtheitsmaß R^2 = ", R2)) +
# das Layout anpassen
theme_bw()
DS1_VL04a_Demo_LineareRegression_Kabeljau.R
Was haben wir gerade gelernt?
# ------------------------------ Vorbereitung ----------------------------------
#### Laden von Paketen
library(tidyverse) # laedt 9 Pakete
# # (das gleiche wie alle Pakete einzeln zu laden)
# library(dplyr)
# library(forcats)
# library(ggplot2)
# library(lubridate)
# library(purrr)
# library(readr)
# library(stringr)
# library(tibble)
# library(tidyr)
#### Eigene Funktionen
# Variantionskoeffizient
cv <- function(x) {
sd(x)/mean(x)
}
# -------------------- Import und Datenaufbereitung ----------------------------
#### Import von CSV-Dateien
# (-> Swirl-Lektion L01 in DSB-03-Datenaufbereitung oder per Anleitung durchs Tidyversum)
# Import der ODS-Datei, welche in den Zeilen 66-68 noch Text enthaelt
iris <- readODS::read_ods("DS1_W03_Saeulendiagramm_mit_iris.ods")
#### Pruefung des Imports und Datensichtung
# (-> Swirl-Lektion L02 in DSB-03)
# Pruefung des Datentyps --> IMMER DIREKT NACH DEM IMPORT VERWENDEN!
str(iris) # str = structure
# Betrachtung des Inhalts
iris
# View(iris)
# Korrektur des Datentyps und der Zeilen
iris <- iris[1:60, ] |>
mutate(across(Sepal.Length:Petal.Width, as.numeric)) |>
mutate(Species = as.factor(Species))
str(iris)
# Welche Werte kommen in jeder Spalte vor?
lapply(iris, unique)
### Weitere Funktionen zur Sichtung einzelner Aspekte
head(iris) # zeigt erste 6 Zeilen (Kopfzeilen)
tail(iris) # zeigt letzte 6 Zeilen (Endzeilen)
class(iris) # Identifikation der Objektklasse (Vektor, Matrix, dataframe,..)
nrow(iris) # Anzahl Zeilen
ncol(iris) # Anzahl Spalten
dim(iris) # Anzahl aller Dimensionen
names(iris) # Spaltennamen
typeof(iris$Sepal.Length) # Datentyp von Spalte 'Sepal.Length'
typeof(iris$Species) # Datentyp von Spalte 'Species'
# ----------------------- Deskriptive Statistik --------------------------------
#### Berechnung mehrerer Statistiken für jede Spalte im data frame
summary(iris)
#### Berechnung versch. Statistiken der Kronblattlaenge, gruppiert nach Art
# (-> Lektion L01 in DSB-02-Datenexploration mit R)
# (-> Lektion L06-Gruppierte Aggregation in DSB-03)
iris_summary <- iris |>
group_by(Species) |>
summarise(
PL_mean = mean(Petal.Length), # Mittelwert
PL_median = median(Petal.Length), # Median
PL_var = var(Petal.Length), # Varianz
PL_sd = sd(Petal.Length), # Standardabweichung
PL_se = sd(Petal.Length)/sqrt(length(Petal.Length)), # Standardfehler
PL_cv = cv(Petal.Length) # Variationskoeffizient
) |>
# die Artnamen anpassen (hier Gattungsnamen anfuegen) und als Faktor speichern
mutate(Species = factor(paste0("Iris ", Species))) |>
# nun die Reihenfolge der Faktorstufen nach PL_mean sortieren
mutate(Species = fct_reorder(.f = Species, .x = PL_mean, .desc = TRUE))
# Zusammenfassung ansehen
iris_summary
#### Saeulendiagramm erstellen mit dem 'ggplot2' Paket
# (siehe auch swirl-Kurs DSB-04-Datenvisualisierung mit ggplot2)
iris_summary |>
ggplot(aes(x = Species, y = PL_mean)) + # initiert Plot
# die Saeulen hinzufuegen
geom_col(fill = "#004586") +
# die Fehlerbalken hinzufuegen
geom_errorbar((aes(ymin = PL_mean - PL_sd, ymax = PL_mean + PL_sd)),
width = 0.2) +
# Achsenbeschriftung anpassen
ylab("Kronblattlänge (in cm)") +
xlab("Schwertlilienart (Gattung Iris)") +
# das Layout anpassen
theme_bw()
DS1_VL04b_Demo_DeskriptiveStatistik_iris.R
bshydro15 |>
mutate(
fquarter = factor(lubridate::quarter(date_time)),
fwday = factor(lubridate::wday(date_time))
) |>
ggplot(aes(x=fquarter, y=fwday)) +
geom_count() +
scale_size_area(max_size = 7) +
labs(title = "geom_count()",
subtitle = "sog. Count Plot",
x="Jahresquartal", y="Wochentag") +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10))
bshydro15 |>
drop_na() |>
ggplot(aes(x=temp, y=psal)) +
geom_bin2d() +
labs(title = "geom_bin2d()",
subtitle = "sog. Heatmap - 2d bin counts",
x = "Temperatur", y = "Salinität") +
scale_fill_gradient2(
trans = "log",
breaks = c(1, 10, 50, 250),
guide = guide_legend(
title = "Häufigkeit (log)")
) +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10))
iris |>
group_by(Species) |>
summarise(
Mean = mean(Sepal.Length),
SD = sd(Sepal.Length)
) |>
ggplot(aes(x = Species, y = Mean,
fill = Species)) +
geom_col() +
geom_errorbar(aes(ymin = Mean-SD,
ymax = Mean+SD), width = 0.2) +
labs(
title = "geom_col() und geom_errorbar()",
subtitle = "Säulendiagramm mit Fehlerbalken",
x = "Art", y = "mittlere Sepalblattlänge"
) +
guides(fill = "none") +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10))
iris |>
group_by(Species) |>
summarise(
Mean = mean(Sepal.Length),
SD = sd(Sepal.Length)
) |>
ggplot(aes(x = Species, y = Mean)) +
geom_pointrange(aes(ymin = Mean-SD,
ymax = Mean+SD)) +
labs(
title = "geom_pointrange()",
subtitle = "sog. Point-Range-Plot",
x = "Art", y = "mittlere Sepalblattlänge"
) +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10))
CO2 |>
group_by(Type, Treatment) |>
summarise(
Mean = mean(uptake),
SD = sd(uptake)
) |>
ggplot(aes(x = Type, y = Mean,
fill = Treatment)) +
geom_col(position = "dodge") +
geom_errorbar(aes(ymin = Mean-SD,
ymax = Mean+SD), width = 0.2,
position = position_dodge(.9)) +
labs(
title = "geom_col(position='dodge') und \ngeom_errorbar(position = position_dodge())",
subtitle = "Gruppiertes Säulendiagramm mit Fehlerbalken",
x = "Typ", y = "mittlere CO2-Aufnahme",
fill = "Behandlung"
) +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10),
plot.title = element_text(size = 12),
plot.subtitle = element_text(size = 11)
)
data(penguins, package = "palmerpenguins")
# Version 1: den Anteil selbst berechnen
# und dann geom_col() verwenden:
# penguins |>
# group_by(species, island) |>
# summarise(counts = n()) |>
# ggplot(aes(x = factor(1), y = counts,
# fill = species)) +
# geom_col(position = "fill", width = 1) +
# coord_polar(theta = "y") +
# labs(
# title = "geom_col() und coord_polar()",
# subtitle = "Tortendiagramm (pie chart)",
# fill = "Pinguinart"
# ) +
# theme_void()
# Version 2: mit geom_bar()
penguins |>
ggplot(aes(x = factor(1), fill = species)) +
geom_bar(width = 1) +
scale_fill_manual(values = c("#a16a7f", "#9ba16a", "#6a7fa1")) +
coord_polar(theta = "y") +
labs(
title = "geom_bar() und coord_polar()",
subtitle = "Tortendiagramm (pie chart)",
fill = "Pinguinart"
) +
theme_void() +
theme(axis.text = element_blank(),
text = element_text(size = 13))
penguins |>
group_by(species, island) |>
summarise(counts = n()) |>
ggplot(aes(x = island, y = counts,
fill = species)) +
geom_col(position = "fill") +
scale_fill_manual(values =
c("#a16a7f", "#9ba16a", "#6a7fa1")) +
labs(
title = "geom_col(position = 'fill')",
subtitle = "Gestapeltes Säulendiagramm",
x = "Insel", y = "Anteil der Häufigkeit",
fill = "Pinguinart"
) +
theme(text = element_text(size = 13),
axis.text = element_text(size = 10))
huron <- data.frame(year = 1875:1972,
level = as.vector(LakeHuron))
ggplot(huron, aes(year)) +
geom_ribbon(aes(ymin = level - 1,
ymax = level + 1), fill = "grey70") +
geom_line(aes(y = level), colour = "grey65") +
labs(
title = "geom_ribbon()",
subtitle = "Banddiagramm (ribbon chart)",
x = "Jahre", y = "Huronsee \nPegelstand (in Fuß)"
) +
theme(text = element_text(size = 15),
axis.text = element_text(size = 10))
cod |>
ggplot(aes(x = year, y = ssb)) +
geom_area(aes(fill = area)) +
labs(
title = "geom_area()",
subtitle = "(Gestapeltes) Flächendiagramm",
x = "Jahr",
y = "Gesamtgröße Kabeljau-Bestand (in Tonnen)",
fill = "Gebiet"
) +
guides(fill = guide_legend(nrow = 3,
title.position = "bottom")) +
theme(text = element_text(size = 14),
axis.text = element_text(size = 10),
legend.position = "bottom",
legend.justification = "left",
legend.text = element_text(size = 9))
Sie sind jetzt so weit, …
..dass Sie mit der grafischen deskriptiven Statistik starten können! Sie können entweder beide Varianten ausprobieren oder nur ggplot2.
Versuchen Sie einen der beiden Plots mit dem iris
Datensatz in base R bzw. ‘ggplot2’ zu reproduzieren:
Versuchen Sie folgenden Plot mit dem iris
Datensatz in base R zu reproduzieren und diesen als PDF abzuspeichern:
Cheatsheet zum ggplot2 Paket frei verfügbar unter diesem Link.
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz und probieren Sie diese Challenges..
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1