DS3 - Explorative Datenanalyse & Data Mining
Saskia Otto
Universität Hamburg, IMF
Wintersemester 2023/2024
Viele Projekte starten mit ein paar Notizen, etwas Code, einzelnen Manuskriptabschnitten und irgendwann werde diese zusammengefügt…
Ein schlechter Projektentwurf gefährdet die
Reproducibility has the potential to serve as a minimum standard for judging scientific claims when full independent replication of a study is not possible. | Roger D. Peng (2011)
Detaillierte Informationen zu
Ist meist gewährleistet durch die Bereitstellung der Daten selbst.
Detaillierte Informationen zu
Detaillierte Informationen zu
Machen Sie sich klar, …
→ es wird also kompliziert!
Die richtige Wahl des Dateinamens sollte beinhalten
meinabstract.docx
Max’s Dateiname verwendet Leerzeichen und Zeichensetzung.xlsx
Abbildung 1.png
Abb 2.png
JW7d^(2sl/niemalsdiesedateilöschen*.txt
2020-06-26_Abstract-fuer-paper1.docx
max-dateinamen-werden-besser.xlsx
abb01_scatterplot-vortrag-length-vs-weight.png
fig02_histogram-talk-attendance.png
1986-01-28_rohdaten_ctd_alkor.txt
Vermeide
Warum? Einfacher zu
01_import-plaice.r
02_clean-plaice.r
03_explore-sampling.r
helper01_load-counts.r
2020-06-25_alkor287_ctd_01.csv
2020-06-25_alkor287_ctd_02.csv
2020-06-26_alkor287_ctd_03.csv
<-
(NICHT =
) nutzen.For various reasons, it is important, if not essential, to integrate the computations and code used in data analyses, methodological descriptions, simulations, etc. with the documents that describe and rely on them. | Gentleman and Temple Lang (2004)
Grafik von Karthik Ram: rstudio::conf 2019 Vortrag
Grafik von Karthik Ram: rstudio::conf 2019 Vortrag
Link Youtube video: https://youtu.be/f39_oW4RKfI?si=J31dbg1kMjynha0e
create_proj()
, die ein neues Projekt als R-Paket mit einer leicht modifizierten Ordnerstruktur erstellt:Mehr Infos auf der Paket Website: https://github.com/saskiaotto/SCIproj
Wie kann man aus R heraus Ergebnisse in verschiedensten Ausgabeformaten präsentieren?
Quarto ist die nächste Generation von RMarkdown.
Verschiedene Prozesse werden in einer einzigen ‘render’ Funktion gekoppelt:
Basierend auf dem R Markdown Cheatsheet (unter CC-BY-SA Lizenz)
Bei ‘Preview in Viewer Pane’ erscheint die Vorschau für HTML-Dokumente direkt in RStudio.
Das Standardlayout ist allerdings etwas schlicht.
Die Struktur ist fast wie bei R Markdown.
Einfach nur die Dateierweiterung ändern und das Ausgabeformat.
Quelle: Donovan, T., Brown, M., & Katz, J. (2015). Vermont Cooperative Fish and Wildlife Research Unit R Projects: R for Fledglings, https://www.uvm.edu/rsenr/vtcfwru/R/fledglings/08_Markdown.html (unter CC-BY-NC-ND 4.0 Lizenz)
Hilfreiche Dokumente: Cheatsheet und Reference Guide
Website-Link: https://quarto.org/
Download-Link: https://rstudio.github.io/cheatsheets/quarto.pdf
Achtung
Für die PDF-Variante muss LaTeX auf dem Rechner installiert sein (gilt auch für UHHformats und alle anderen Pakete mit PDF Templates)!
Abhängig von Ihrem Betriebssystem gibt es verschiedene Distributionen, die Sie verwenden können (siehe www.latex-project.org), für Mac z.B. MacTeX.
Eine einfache Möglichkeit, LaTeX auf jeder Plattform zu installieren, ist das tinytex R-Paket:
R Markdown- und Quarto-Vorlagen für HTML-, PDF- und Microsoft Word-Ausgabeformate, welche auf das Design der Universität Hamburg zugeschnitten sind:
Mehr Infos auf der Paket Website: https://github.com/uham-bio/UHHformats
→ Die Funktion erstellt ein neues Unterverzeichnis innerhalb des aktuellen Verzeichnisses, das die qmd. Datei und alle zugehörigen Dateien enthält.
Link zur Paket Website: https://github.com/uham-bio/UHHformats
Als Orientierungshilfe und um den Start zu erleichtern, enthalten alle Vorlagen bereits Text, Abbildungen, Tabellen, Formeln und Referenzen!
Mehr Infos auf der Paket Website: https://github.com/uham-bio/UHHformats
Erstellt eine Bookdown-Projektstruktur mit deutschen oder englischen PDF- und Word-Arbeitsvorlagen der Universität Hamburg (UHH), die den Einreichungsstandards der MIN-Fakultät für Bachelor- und Masterarbeiten entsprechen.
Zu Bookdown und dem R Paket siehe: https://bookdown.org/
Mehr Infos auf der Paket Website: https://github.com/uham-bio/UHHthesis
Mehr Infos auf der Paket Website: https://github.com/uham-bio/UHHthesis
Auch hier enthalten alle Vorlagen bereits Text, Abbildungen, Tabellen, Formeln und Referenzen als Starthilfe!
Mehr Infos auf der Paket Website: https://github.com/uham-bio/UHHthesis
Installation von CRAN : install.packages("posterdown")
Installation von GitHub: remotes::install_github("brentthorne/posterdown")
Mehr Infos auf der Paket Website: https://github.com/brentthorne/posterdown
Detaillierte Anleitung (auch zur Vorbereitung) gibt es im Aufgabenblatt Übungswoche10_Aufgabenbeschreibung.pdf (Moodle).
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 3