Datenaufbereitung mit tidyverse:
Import/Export und Bereinigung

Data Science 1 - Programmieren & Visualisieren

Saskia Otto

Universität Hamburg, IMF

Wintersemester 2022/2023

Was können Sie bis jetzt?

Aber wie kommen wir …

… von hier…

nach hier?

Die Datenaufbereitung

Die Datenaufbereitung | Was ist das?

  • bezeichnet den Prozess der Bereinigung, Umwandlung und Zuordnung von Daten von einer “rohen” Datenform in ein anderes Format mit der Absicht, sie für Analysen geeigneter und wertvoller zu machen.
  • ist eine wichtige Voraussetzung, um die Qualität der Daten zu gewährleisten und einen Zusammenhang zwischen den Daten herstellen zu können.
  • Datenanalysten verbringen einen großen Teil ihrer Zeit mit der Datenaufbereitung im Vergleich zur eigentlichen Analyse der Daten.
  • Idealerweise werden Daten in R so geladen und umgeformt, dass damit leicht die anschließende Visualisierung und Modellierung erfolgen kann.
  • Im Englischen spricht man auch von ‘Data Wrangling’ oder ‘Data Munging’.

Die Datenaufbereitung | Komponenten

Modifiziert von: R for Data Science von Wickam & Grolemund, 2017 (lizensiert unter CC-BY-NC-ND 3.0 US).

Komponenten im Detail

Import

  • Extraktion der Daten in Rohform aus der Datenquelle.
  • ‚Parsen‘ der Daten in vordefinierte Datenstrukturen (in R meist data frames).

Prüfung/Bereinigung

  • Berichtigung von Informationen.
  • Entfernung von irrelevanten Daten und Ausreißern.
  • Handling fehlender Werte.
  • Anpassung der Daten an ein standardisiertes Muster:
    • Jede Spalte repräsentiert eine Variable.
    • Jede Zeile repräsentiert eine Beobachtung.
  • Maskierung privater oder sensibler Dateneinträge.

Transformation

  • Hinzufügen neuer Variablen.
  • Bildung von Teildatensätzen.
  • Kombination von Datensätzen zur Anreicherung und Verbindung zusammenhängender Informationen.
  • Berechnung zusammenfassender Statistiken.

Der Import (und Export)

Datenquellen

  • Komma-separierte Werte (.csv)
  • Textdateien (.txt)
  • Excel Dateien (.xls / .xlsx)
  • NetCDF (Network Common Data Form)
  • Relationale Datenbanken (MySQL, PostgreSQL, etc.)
  • Webseiten

Hinweis

Meistens werden flache Dateien in R importiert (sprich ohne interne Hierarchien and Beziehungen wie in Datenbanken).

Import aus Calc oder Excel

Basisfunktionen zum Importieren

Beispiel read.table()

→ Liest eine Datei im Tabellenformat ein und erstellt daraus einen data frame:

Übersicht der Basis-Importfunktionen

Import zu data frames

Funktion Details
read.table(file, header = FALSE, sep = "", dec = ".") Importiert Datei im Tabellenformat (Leerzeichen-separiert)
read.csv(file, header = TRUE, sep = ",", dec = ".") Importiert CSV-Datei (Komma-separiert)
read.csv2(file, header = TRUE, sep = ";", dec = ",") Importiert CSV-Datei (Semikolon-separiert, Komma als Dezimalzeichen)
read.delim(file, header = TRUE, sep = "\\t", dec = ".") Importiert Tab-separierte Textdatei
read.delim2(file, header = TRUE, sep = "\\t", dec = ",") Importiert Tab-separierte Textdatei (mit Komma als Dezimalzeichen)

Roadmap für den Import

Beispiel | Import LOKALER CSV-Datei

Fütterungsversuch beim Kabeljau

  • Tabellenblatt in der ODS Datei (aus der Calc Übungswoche 4) → als saubere CSV-Datei abgespeichert.
  • Jetzt Import mit read.csv():
# Datei ist im Arbeitsverzeichnis
cod <- read.csv(file = "Wachstum-Futter.csv") 
# Alternativ: Angabe des Dateipfads
cod <- read.csv(file = "Pfad/zur/Datei/Wachstum-Futter.csv")
  • Überprüfung des Imports mit str(), head()/tail(), View() und summary():
str(cod) # Dimensionen und Datentyp
'data.frame':   11 obs. of  2 variables:
 $ Verzehr : num  1868 140 256 719 1714 ...
 $ Wachstum: num  482.2 -90.5 -40.3 236 512.7 ...
head(cod) # Teilinhalt
  Verzehr Wachstum
1  1868.0    482.2
2   140.3    -90.5
3   255.6    -40.3
4   718.8    236.0
5  1714.4    512.7
6  1149.1    296.6
# View(cod) # kompletter Inhalt
summary(cod) # deskriptive Statistik -> komische Extremwerte?
    Verzehr          Wachstum     
 Min.   : 140.3   Min.   :-90.50  
 1st Qu.: 323.8   1st Qu.:-15.05  
 Median : 718.8   Median :198.00  
 Mean   : 856.2   Mean   :180.02  
 3rd Qu.:1323.5   3rd Qu.:349.80  
 Max.   :1868.0   Max.   :512.70  

Beispiel | Import ENTFERNTER CSV-Datei

Digitalisiertes Fangprotokoll

# Angabe der URL im Dateinamen
fang <- read.csv(file = "https://saskiaotto.github.io/bio-bsc-data-science-1/Fangprotokoll.csv")
str(fang)
'data.frame':   8 obs. of  22 variables:
 $ Schiff              : chr  "Alkor" "Alkor" "Alkor" "Alkor" ...
 $ Reise               : int  551 551 551 551 551 551 551 551
 $ Station             : chr  "43-3" "43-3" "43-3" "43-3" ...
 $ Hol                 : int  9 9 9 9 9 9 9 9
 $ Datum               : chr  "10.03.2021" "10.03.2021" "10.03.2021" "10.03.2021" ...
 $ Startzeit           : chr  "11:36:00" "11:36:00" "11:36:00" "11:36:00" ...
 $ Endzeit             : chr  "12:21:00" "12:21:00" "12:21:00" "12:21:00" ...
 $ Schleppdauer        : int  45 45 45 45 45 45 45 45
 $ Fangbeginn_Breite   : num  54.5 54.5 54.5 54.5 54.5 ...
 $ Fangbeginn_Laenge   : num  11.3 11.3 11.3 11.3 11.3 ...
 $ Hieven_Breite       : num  54.5 54.5 54.5 54.5 54.5 ...
 $ Hieven_Laenge       : num  11.4 11.4 11.4 11.4 11.4 ...
 $ Fanggeraet          : chr  "JFT" "JFT" "JFT" "JFT" ...
 $ Wassertiefe         : int  30 30 30 30 30 30 30 30
 $ Fangtiefe           : num  26.5 26.5 26.5 26.5 26.5 26.5 26.5 26.5
 $ Netzoeffnung        : num  3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5
 $ Grundtau_Boden      : int  0 0 0 0 0 0 0 0
 $ Schleppgeschw       : num  2.6 2.6 2.6 2.6 2.6 2.6 2.6 2.6
 $ Globalstrahlung     : int  380 380 380 380 380 380 380 380
 $ Gesamtgewicht_Hol_kg: num  61.5 61.5 61.5 61.5 61.5 ...
 $ Art                 : chr  "Hering" "Sprotte" "Dorsch" "Wittling" ...
 $ Gesamtzahl          : int  50 6565 3 2 1 149 49 1

Andere Datentypen

Für den Import weiterer Datentypen können folgende Pakete nützlich sein:

Export von Daten

  • Wenn Sie Ihre Daten exportieren wollen, um sie dann mit anderen Programmen zu bearbeiten, verwenden Sie am besten das gleiche Format wie beim Import.

  • Die meisten Importfunktionen haben ein Äquivalent zum Exportieren:

    • write.table(), write.csv(), write.csv2()

Beispiel | Export

Fütterungsversuch beim Kabeljau

cod$Ratio <- cod$Wachstum/cod$Verzehr
cod[1:3, ]
  Verzehr Wachstum      Ratio
1  1868.0    482.2  0.2581370
2   140.3    -90.5 -0.6450463
3   255.6    -40.3 -0.1576682

Nach Veränderung → im gleichen CSV-Format abspeichern und später in z.B. Calc öffnen:

write.csv(x = cod, file = "Wachstum-Futter-Ratio.csv", row.names = FALSE)

Daten als R Objekte speichern und laden

‘data frame(s)’ können als .R oder .Rdata Objekt mit

  • save(dataframe1, dataframe2,.., file = "filename.Rdata") abgespeichert
  • und jederzeit wieder mit load(file = "filename.Rdata") geladen werden.
  • Vorteil:
    • Es können mehrere Objekte in einer Datei abgespeichert werden.
    • Auch Arrays, Listen und Funktionen lassen sich damit speichern!
foo Beispiel
foo <- data.frame(a = 1:5, b = 5:1)
save(foo, file = "foo_export.Rdata")
# Wir löschen foo aus der globalen Umgebung
rm(foo)
foo # Meldung sollte kommen, das Objekt nicht vorhanden ist

load(file = "foo_export.Rdata")
foo # Jetzt sollte der 'foo' data frame wieder da sein

So, dann auf zur Datenprüfung und -bereinigung

… aber dazu müssen wir einige neue R Pakete kennenlernen!

Auf geht’s ins ‘TIDYVERSUM’…

‘Tidy (uni)verse’

Ist eine Sammlung von R Paketen, die die gleiche Philosophie teilen und aufeinander abgestimmt sind:

Modifiziert von: R for Data Science von Wickam & Grolemund, 2017 (lizensiert unter CC-BY-NC-ND 3.0 US).

‘Tidy (uni)verse’ | Installation

Am einfachsten ist die Installation (und das spätere Laden) eines einzigen Paketes, welches weitere Pakete installiert und später lädt, mit:

EINMALIGE Paketinstallation
install.packages("tidyverse")

Warum ‘tidyverse’?

  • Konsistenz, z.B.
    • alle ‘stringr’ Funktionen nehmen eine Zeichenreihenfolge als erstes Argument
    • die meisten Funktionen nehmen den ‘data frame’ als erstes Argument (‘piping’)
  • Es zwingt zu einer sorgfältigen Vorgehensweise
  • Synergien zwischen verschiedenen Paketen und Werkzeugen
  • Implementiert einfache Lösungen zu allgemeinen Problemen
  • Smartere Voreinstellungen
    • z.B. write.csv(row.names = FALSE), readr::write_csv()
  • Funktionen sind oft wesentlich schneller (viele sind mit Rcpp umgesetzt)
  • Zunahme an Paketen die das ‘tidyverse’ Konzept implementieren

Moment … ein kurzer Abstecher zu Paketen

Paket laden (JEDE SITZUNG)

  • Ein Paket muss bei JEDER Sitzung neu geladen werden, um auf die Funktionen zugreifen zu können.
  • Dazu gibt es library() und require().
  • R überprüft dann erstmal, ob dieses Paket auch installiert ist.
  • Der Unterschied zwischen beiden Funktionen liegt nur in dem was passiert, wenn das Paket nicht vorhanden ist:
library(Paketname) # library("Paketname") geht auch
require(Paketname) # require("Paketname")

Der Suchpfad

Wenn ein spezifisches Paket geladen wird, wird es als ‘default’ zum Suchpfad hinzugefügt:

Reihenfolge der Suchumgebungen

  • Um eine Funktion aufrufen zu können, muss R sie erstmal finden. Dafür sucht R als erstes in der globalen Umgebung.
  • Anschließend sucht R im Suchpfad, also der Liste aller geladenen Pakete, und zwar in einer spezifischen Reihenfolge.
  • Wenn R mehrere Funktionen mit dem gleichen Namen findet, verwendet es die Funktion des zuletzt geladenen Pakets.

Modifiziert von: Advanced R von H. Wickam, 2014

Suchpfad anzeigen

Du kannst Dir den Suchpfad explizit anzeigen lassen mit search().

search()
 [1] ".GlobalEnv"        "tools:rstudio"     "package:stats"    
 [4] "package:graphics"  "package:grDevices" "package:utils"    
 [7] "package:datasets"  "package:methods"   "Autoloads"        
[10] "package:base"     

Nach dem Laden von tidyverse werden 8 weitere ‘tidyverse’ Pakete mit geladen (es wird dabei auch ein Konflikt mit Funktionsnamen angezeigt - filter() und lag() existieren in 2 Paketen):

library(tidyverse) 
── Attaching packages ─────────────────────── tidyverse 1.3.2 ──
✔ ggplot2 3.4.0      ✔ purrr   0.3.5 
✔ tibble  3.1.8      ✔ dplyr   1.0.10
✔ tidyr   1.2.1      ✔ stringr 1.4.1 
✔ readr   2.1.3      ✔ forcats 0.5.2 
── Conflicts ────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()

Suchpfad nach dem Laden von ‘tidyverse’

Lasst uns den Suchpfad noch mal anzeigen:

search()
 [1] ".GlobalEnv"        "package:forcats"   "package:stringr"  
 [4] "package:dplyr"     "package:purrr"     "package:readr"    
 [7] "package:tidyr"     "package:tibble"    "package:ggplot2"  
[10] "package:tidyverse" "tools:rstudio"     "package:stats"    
[13] "package:graphics"  "package:grDevices" "package:utils"    
[16] "package:datasets"  "package:methods"   "Autoloads"        
[19] "package:base"     

9 Pakete wurden insgesamt hinzugefügt (direkt nach der globalen Umgebung). Neben dem Paket tidyverse noch die Pakete: forcats, stringr, dplyr, purrr, readr, tidyr, tibble und ggplot2

Wie kann man Pakete aus der Sitzung deaktivieren?

Pakete werden aus dem Suchpfad einfach mit detach() entfernt

detach(packagename)


Oder indem die Box neben dem Paketnamen im ‘Packages’ Fenster entfernt wird:

Information zu Paketen

  • Wenn Sie ?packagename (z.B. ?tidyverse) aufrufen, erhalten Sie weitere Informationen zu den Kernaufgaben des Pakets und den verfügbaren Funktionen. Manchmal gibt es auch Weblinks für weitere Infos.

Hilfreiche Vignetten

  • Aktuellere Pakete haben auch sog. “Vignetten”, welche ein kleines Tutorial darstellen. Diese können aufgerufen werden über vignette("packagename").
  • Manchmal gibt es sogar mehrere Vignetten. Für einen Überblick verwende browseVignettes("packagename").
vignette("dplyr")
browseVignettes("dplyr")

Your turn …

Quiz: Funktionskonflikte

‘dplyr’ wurde NACH ‘stats’ (welches mit jeder Sitzung automatisch von R geladen wird) geladen, daher kommt ‘dplyr’ auch vor ‘stats’ im Suchpfad (Position 4 vs. 12).

Datenbereinigung mit ‘tidyr’

Komponenten im Detail

Import

Datenprüfung/Datenbereinigung

  • Berichtigung von Informationen.
  • Entfernung von irrelevanten Daten und Ausreißern.
  • Handling fehlender Werte.
  • Anpassung der Daten an ein standardisiertes Muster:
    • Jede Spalte repräsentiert eine Variable.
    • Jede Zeile repräsentiert eine Beobachtung.
  • Maskierung privater oder sensibler Dateneinträge.

Transformation

Handling fehlender Werte

3 hilfreiche Funktionen für den Umgang mit NAs

  1. tidyr::drop_na(data, ...): Lässt ganze Reihen, die fehlende Werte enthält, entfallen.

  2. tidyr::fill(data, ..., .direction = c("down", "up")): Füllt fehlende Werte mit den vorherigen (direction = “down”) oder nachfolgenden (direction = “up”) Einträgen auf.

  3. tidyr::replace_na(data, replace = list(), ...): Ersetzt fehlende Werte mit einem spezifischen Wert für jede Spalte.

Anpassung der Daten an ein standardisiertes Muster

Wechsel zwischen dem langen und weiten Format

Pivot-Tabellenmanager in Calc

Funktionen im R Paket tidyr

Das ‘tidyr’ Paket bietet zwei Funktionen für den Wechsel des Formats:

  • Von weit zu lang: pivot_longer() (ehemals gather())
  • Von lang zu weit: pivot_wider() (ehemals spread())

Wechsel weites zu langem Format | 1

pivot_longer() → bewegt Spaltennamen in eine Schlüsselspalte und rafft die Werte der Spalten in eine einzelne Spalte zusammen.

Wechsel weites zu langem Format | 2

Beispiel iris

iris_long <- pivot_longer(
  data = iris, 
  cols = Sepal.Length:Petal.Width, 
  names_to = "Leaf.Param", 
  values_to = "Size"
)
print(iris_long, n = 100)
# A tibble: 600 × 3
    Species Leaf.Param    Size
    <fct>   <chr>        <dbl>
  1 setosa  Sepal.Length   5.1
  2 setosa  Sepal.Width    3.5
  3 setosa  Petal.Length   1.4
  4 setosa  Petal.Width    0.2
  5 setosa  Sepal.Length   4.9
  6 setosa  Sepal.Width    3  
  7 setosa  Petal.Length   1.4
  8 setosa  Petal.Width    0.2
  9 setosa  Sepal.Length   4.7
 10 setosa  Sepal.Width    3.2
 11 setosa  Petal.Length   1.3
 12 setosa  Petal.Width    0.2
 13 setosa  Sepal.Length   4.6
 14 setosa  Sepal.Width    3.1
 15 setosa  Petal.Length   1.5
 16 setosa  Petal.Width    0.2
 17 setosa  Sepal.Length   5  
 18 setosa  Sepal.Width    3.6
 19 setosa  Petal.Length   1.4
 20 setosa  Petal.Width    0.2
 21 setosa  Sepal.Length   5.4
 22 setosa  Sepal.Width    3.9
 23 setosa  Petal.Length   1.7
 24 setosa  Petal.Width    0.4
 25 setosa  Sepal.Length   4.6
 26 setosa  Sepal.Width    3.4
 27 setosa  Petal.Length   1.4
 28 setosa  Petal.Width    0.3
 29 setosa  Sepal.Length   5  
 30 setosa  Sepal.Width    3.4
 31 setosa  Petal.Length   1.5
 32 setosa  Petal.Width    0.2
 33 setosa  Sepal.Length   4.4
 34 setosa  Sepal.Width    2.9
 35 setosa  Petal.Length   1.4
 36 setosa  Petal.Width    0.2
 37 setosa  Sepal.Length   4.9
 38 setosa  Sepal.Width    3.1
 39 setosa  Petal.Length   1.5
 40 setosa  Petal.Width    0.1
 41 setosa  Sepal.Length   5.4
 42 setosa  Sepal.Width    3.7
 43 setosa  Petal.Length   1.5
 44 setosa  Petal.Width    0.2
 45 setosa  Sepal.Length   4.8
 46 setosa  Sepal.Width    3.4
 47 setosa  Petal.Length   1.6
 48 setosa  Petal.Width    0.2
 49 setosa  Sepal.Length   4.8
 50 setosa  Sepal.Width    3  
 51 setosa  Petal.Length   1.4
 52 setosa  Petal.Width    0.1
 53 setosa  Sepal.Length   4.3
 54 setosa  Sepal.Width    3  
 55 setosa  Petal.Length   1.1
 56 setosa  Petal.Width    0.1
 57 setosa  Sepal.Length   5.8
 58 setosa  Sepal.Width    4  
 59 setosa  Petal.Length   1.2
 60 setosa  Petal.Width    0.2
 61 setosa  Sepal.Length   5.7
 62 setosa  Sepal.Width    4.4
 63 setosa  Petal.Length   1.5
 64 setosa  Petal.Width    0.4
 65 setosa  Sepal.Length   5.4
 66 setosa  Sepal.Width    3.9
 67 setosa  Petal.Length   1.3
 68 setosa  Petal.Width    0.4
 69 setosa  Sepal.Length   5.1
 70 setosa  Sepal.Width    3.5
 71 setosa  Petal.Length   1.4
 72 setosa  Petal.Width    0.3
 73 setosa  Sepal.Length   5.7
 74 setosa  Sepal.Width    3.8
 75 setosa  Petal.Length   1.7
 76 setosa  Petal.Width    0.3
 77 setosa  Sepal.Length   5.1
 78 setosa  Sepal.Width    3.8
 79 setosa  Petal.Length   1.5
 80 setosa  Petal.Width    0.3
 81 setosa  Sepal.Length   5.4
 82 setosa  Sepal.Width    3.4
 83 setosa  Petal.Length   1.7
 84 setosa  Petal.Width    0.2
 85 setosa  Sepal.Length   5.1
 86 setosa  Sepal.Width    3.7
 87 setosa  Petal.Length   1.5
 88 setosa  Petal.Width    0.4
 89 setosa  Sepal.Length   4.6
 90 setosa  Sepal.Width    3.6
 91 setosa  Petal.Length   1  
 92 setosa  Petal.Width    0.2
 93 setosa  Sepal.Length   5.1
 94 setosa  Sepal.Width    3.3
 95 setosa  Petal.Length   1.7
 96 setosa  Petal.Width    0.5
 97 setosa  Sepal.Length   4.8
 98 setosa  Sepal.Width    3.4
 99 setosa  Petal.Length   1.9
100 setosa  Petal.Width    0.2
# … with 500 more rows

Uups, unser Datensatz ist jetzt ein tibble geworden????? ➟ Dazu gleich mehr!

Wechsel langes zu weitem Format

pivot_wider() → bewegt einzigartige Werte der Schlüsselspalte in die Spaltennamen und verbreitet die Werte der Spalte auf neue Spalten.

Trennen und verbinden von Spalten bzw. Informationen

Your turn …

Quizze

tibbles

Was sind eigentlich ‘tibbles’?

tibble vs. data frame

  • Das ‘tibble’ Paket ermöglicht eine neue ‘tbl_df’ Klasse, welche striktere Qualitätschecks bereitstellt und sich besser formatieren lässt als die traditionellen ‘data frames’.
  • Alle Funktionen für ‘data frames’ funktionieren auch bei ‘tibbles’.
  • Alle ‘tidyverse’ Pakete generieren automatisch ‘tibbles’.
  • Werden automatisch erstellt
    • beim Import von Daten mittels read_XXX() Funktionen des ‘readr’ Pakets.
    • bei starken Umstrukturierungen von ‘data frames’ mit Funktionen aus einem der ‘tidyverse’ Pakete.
  • Mehr zu ‘tibbles’ gibt es hier: vignette("tibble").

‘tibbles’ erstellen

Umwandeln

Bestehende ‘data frames’ lassen sich mit tibble::as_tibble(your_dataframe) umwandeln.

iris_tbl <- as_tibble(iris)

# Klassenvergleich
class(iris)
[1] "data.frame"
class(iris_tbl)
[1] "tbl_df"     "tbl"        "data.frame"

Wie Sie sehen, iris_tbl erbt auch die ‘data.frame’ Klasse, hat jetzt aber eine zusätzliche ‘tbl’ bzw. ‘tbl_df’ Klasse.

Direkt erstellen

Oder Sie erstellen einen neuen ‘tibble’ aus individuellen Vektoren mit tibble::tibble().

tibble(
  x = 1:5, 
  y = 1, 
  z = x ^ 2 + y
)
# A tibble: 5 × 3
      x     y     z
  <int> <dbl> <dbl>
1     1     1     2
2     2     1     5
3     3     1    10
4     4     1    17
5     5     1    26

Inputs von kürzeren Vektoren werden wieder automatisch recycled!

Drucken von ‘tibbles’

Ein kurzer Überblick

  • Es wird immer der Objekttyp und die Dimensionen angezeigt.
  • Jede Spalte gibt ihren Datentyp mit an.
  • Nur die ersten 10 Zeilen und alle Spalten, die in die Konsole passen, werden angezeigt → einfacheres Handling bei großen Datensätzen.
  • Wenn die Anzeige der Zeilen (n) und Spalten (width) geändert werden sollen, nutzen Sie print() und ändern Sie die Argumente:
print(iris_tbl, n = 2, width = Inf)  # = Inf zeigt alle Spalten
# A tibble: 150 × 5
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
         <dbl>       <dbl>        <dbl>       <dbl> <fct>  
1          5.1         3.5          1.4         0.2 setosa 
2          4.9         3            1.4         0.2 setosa 
# … with 148 more rows

Übungsaufgabe

Zu bearbeitende Swirl-Lektionen

Kurs DS1-03-Datenaufbereitung oder per Anleitung durchs Tidyversum

  • L01-Import und Export von Daten
  • L02-Daten sichten
  • L03-Einführung ins Tidyversum
  • L04-Datenbereinigung mit tidyr

Lernziele

Am Ende dieser Übungseinheit sollten Sie …

  • …Daten in R importieren und auch exportieren können.
  • …den Unterschied zwischen dem Export von CSV- oder TXT-Dateien und den sog. Rdata-Dateien kennen.
  • …die Grundprinzipien der Datenaufbereitung kennen.
  • …wissen, wie die Datenprüfung und -bereinigung in R mithilfe einiger Grund- und ‘tidyverse’-Funktionen erfolgt.

Wie fühlen Sie sich jetzt…?

Total konfus?


Lesetipps

Posit Cheatsheet | 1

Überblick an tidyverse Funktionen zum Datenimport

Cheatsheet zum tidyr Paket frei verfügbar unter diesem Link.

Posit Cheatsheet | 2

Überblick an Funktionen im tidyr Paket

Cheatsheet zum tidyr Paket frei verfügbar unter diesem Link.

DSB Cheatsheet: Basic R functions

Enthält wichtigste Funktionen der Datenaufbereitung

Total gelangweilt?

Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…

Abschlussquiz

Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Creative Commons License
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.