Data Science 1 - Programmieren & Visualisieren
Universität Hamburg, IMF
Invalid Date
DATEN | INFORMATION |
---|---|
einfache, unbearbeitete Fakten | der Output von prozessierte Daten |
kann, muss aber nicht bedeutsam oder aussagekräftig sein | immer bedeutsam bzw. aussagekräftig |
nicht organisiert, strukturiert | organisiert und strukturiert |
schwer zu verstehen | leicht zu verstehen |
werden erst durch ihren Zweckbezug zu eigentlichen Informationen | zweckorientiertes Wissen |
Beispiel: Umfragedaten | Volkszählungs-(Census) Bericht |
Daten beziehen sich auf eine Wertemenge, welche sich meistens in mehrere Variablen und beobachtete Einheiten (den Mitgliedern einer Population) einteilen lässt:
Je nach Anzahl der Variablen unterscheiden man folgende Datensatztypen:
Kategoriale und quantitative Variablen lassen sich nach ihren Skalenniveaus weiter unterschieden:
Kategorien lassen sich nicht in eine natürliche Reihenfolge bringen:
Kategorien lassen sich in eine Reihenfolge bringen, allerdings gibt es keine interpretierbaren Abstände:
Hier kann nicht nur der Rang der Elemente, sondern auch der Unterschied zwischen den einzelnen Elementen bestimmt werden. Merkmale auf dieser Skala sind metrisch.
Auch eine metrische Skala; im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt → besitzt den höchsten Informationsgehalt.
Das Skalenniveau bestimmt, welche Information das Merkmal liefert und welche Datentransformationen und Rechenoperationen erlaubt sind.
Beispiel | Skalenniveau | Datentyp |
---|---|---|
Geschlecht: weiblich - männlich | Nominal | Text |
Geschlecht: 1 (=weiblich) - 2 (=männlich) | Nominal | Zahl |
Altersgruppe: Kind - Erwachsene/r - Senior/in | Ordinal | Text |
Altersgruppe: 0 (=Kind) - 1 (=Erwachsene/r) - 2 (=Senior/in) | Ordinal | Zahl |
Monate: März - April - Juni ; Wochentage: Mo - Mi - Fr | Ordinal | Datum |
Tag - Nacht; Vormittag - Nachmittag | Ordinal | Zeit |
Beispiel | Skalenniveau | Merkmalstyp | Datentyp |
---|---|---|---|
Datum und Uhrzeit der Probenname → beides wird vom Computer in Millisek. seit dem 1. Jan. 1970 ausgedrückt! | Intervall | Diskret | Datum/Uhrzeit |
Temperatur (in Grad Celsius) | Intervall | Kontinuierlich | Zahl |
Alter (in Jahren, Tagen,..); Abundanzdaten | Verhältnis | Diskret | Zahl |
Gewicht (in kg, g,..); Größe (in cm, mm,..) | Verhältnis | Kontinuierlich | Zahl |
Nehmen nur einen Wert auf:
Ein Datenkonstrukt, welches aus einfacheren Datentypen besteht:
Link zur Website: www.fachinformatikerwissen.de
Bildquelle: Data Import cheat sheet (lizensiert unter CC-BY-SA)
Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:
Du solltest 3 sehen:
Welche potentiellen Schwierigkeiten könnte es mit so einer Tabelle geben?
Gibt eine Vielzahl von Datenbanken die im Internet frei zugänglich sind:
Catalogue of Life
Encyclopedia of Life
OBIS - Ocean Biogeographic Information System
FishBase
AlgaeBase
Für weitere Beispiele siehe auch meine Blogseite: https://www.marinedatascience.co/data
Suchen Sie sich eine öffentliche Datenbank aus und fragen diese nach bestimmten Daten ab. Speichern Sie die Datei(en) ab, denn Sie werden sie noch für die Übungsstunde brauchen.
Probieren Sie aus, die Datei(en) mittels einer Software die Ihnen zur Verfügung steht, anzuschauen.
Mit einem Tabellenkalkulationsprogramm! Dazu mehr in der ersten Einführung zu LibreOffice Calc..
Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1