Data Science 1 - Programmieren & Visualisieren
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF
Wintersemester 2024/2025
DATEN | INFORMATION |
---|---|
einfache, unbearbeitete Fakten | der Output von prozessierten Daten |
kann, muss aber nicht bedeutsam oder aussagekräftig sein | immer bedeutsam bzw. aussagekräftig |
nicht organisiert, strukturiert | organisiert und strukturiert |
schwer zu verstehen | leicht zu verstehen |
werden erst durch ihren Zweckbezug zu eigentlichen Informationen | zweckorientiertes Wissen |
Beispiel: Umfragedaten | Volkszählungs-(Census) Bericht |
Daten beziehen sich auf eine Wertemenge, welche sich meistens in mehrere Variablen und beobachtete Einheiten (den Mitgliedern einer Population) einteilen lässt:
Variablen
Je nach Anzahl der Variablen unterscheiden man folgende Datensatztypen:
Kategoriale und metrische Variablen lassen sich nach ihren Skalenniveaus weiter unterschieden:
Kategorien lassen sich nicht in eine natürliche Reihenfolge bringen:
Kategorien lassen sich in eine Reihenfolge bringen, allerdings gibt es keine interpretierbaren Abstände:
Hier kann nicht nur der Rang der Elemente, sondern auch der Unterschied zwischen den einzelnen Elementen bestimmt werden.
Im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt → besitzt den höchsten Informationsgehalt.
Das Skalenniveau bestimmt, welche Information das Merkmal liefert und welche Datentransformationen und Rechenoperationen erlaubt sind.
Beispiel | Skalenniveau | Datentyp |
---|---|---|
Geschlecht: weiblich - männlich | Nominal | Text |
Geschlecht: 1 (=weiblich) - 2 (=männlich) | Nominal | Zahl |
Altersgruppe: Kind - Erwachsene/r - Senior/in | Ordinal | Text |
Altersgruppe: 0 (=Kind) - 1 (=Erwachsene/r) - 2 (=Senior/in) | Ordinal | Zahl |
Monate: März - April - Juni ; Wochentage: Mo - Mi - Fr | Ordinal | Datum |
Tag - Nacht; Vormittag - Nachmittag | Ordinal | Zeit |
Beispiel | Skalenniveau | Merkmalstyp | Datentyp |
---|---|---|---|
Datum und Uhrzeit der Probenname → beides wird vom Computer in Millisek. seit dem 1. Jan. 1970 ausgedrückt! | Intervall | Diskret | Datum/Uhrzeit |
Temperatur (in Grad Celsius) | Intervall | Kontinuierlich | Zahl |
Alter (in Jahren, Tagen,..); Abundanzdaten | Verhältnis | Diskret | Zahl |
Gewicht (in kg, g,..); Größe (in cm, mm,..) | Verhältnis | Kontinuierlich | Zahl |
Nehmen nur einen Wert auf:
Ein Datenkonstrukt, welches aus einfacheren Datentypen besteht:
Bildquelle: Data Import cheat sheet (lizensiert unter CC-BY-SA)
Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:
Es sind 3 Variablen enthalten:
Welche potentiellen Schwierigkeiten könnte es mit so einer Tabelle geben?
Beispiel Pizzabestellung
Beispiel Pizzabestellung
Gibt eine Vielzahl von Datenbanken die im Internet frei zugänglich sind:
Catalogue of Life
Encyclopedia of Life
OBIS - Ocean Biogeographic Information System
FishBase
AlgaeBase
Mit einem Tabellenkalkulationsprogramm! Dazu mehr in der ersten Einführung zu LibreOffice Calc..
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1