

Data Science 1 - Programmieren & Visualisieren
Saskia Otto & Monika Eberhard
Universität Hamburg, IMF
Wintersemester 2025/2026
![]()


| DATEN | INFORMATION |
|---|---|
| einfache, unbearbeitete Fakten | der Output von prozessierten Daten |
| kann, muss aber nicht bedeutsam oder aussagekräftig sein | immer bedeutsam bzw. aussagekräftig |
| nicht organisiert, strukturiert | organisiert und strukturiert |
| schwer zu verstehen | leicht zu verstehen |
| werden erst durch ihren Zweckbezug zu eigentlichen Informationen | zweckorientiertes Wissen |
| Beispiel: Umfragedaten | Volkszählungs-(Census) Bericht |
Daten beziehen sich auf eine Wertemenge, welche sich meistens in mehrere Variablen und beobachtete Einheiten (den Mitgliedern einer Population) einteilen lässt:

Variablen
Je nach Anzahl der Variablen unterscheiden man folgende Datensatztypen:





Kategoriale und metrische Variablen lassen sich nach ihren Skalenniveaus weiter unterschieden:
Kategorien lassen sich nicht in eine natürliche Reihenfolge bringen:

Kategorien lassen sich in eine Reihenfolge bringen, allerdings gibt es keine interpretierbaren Abstände:

Hier kann nicht nur der Rang der Elemente, sondern auch der Unterschied zwischen den einzelnen Elementen bestimmt werden.

Im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt → besitzt den höchsten Informationsgehalt.

Das Skalenniveau bestimmt, welche Information das Merkmal liefert und welche Datentransformationen und Rechenoperationen erlaubt sind.
| Beispiel | Skalenniveau | Datentyp |
|---|---|---|
| Geschlecht: weiblich - männlich | Nominal | Text |
| Geschlecht: 1 (=weiblich) - 2 (=männlich) | Nominal | Zahl |
| Altersgruppe: Kind - Erwachsene/r - Senior/in | Ordinal | Text |
| Altersgruppe: 0 (=Kind) - 1 (=Erwachsene/r) - 2 (=Senior/in) | Ordinal | Zahl |
| Monate: März - April - Juni ; Wochentage: Mo - Mi - Fr | Ordinal | Datum |
| Tag - Nacht; Vormittag - Nachmittag | Ordinal | Zeit |
| Beispiel | Skalenniveau | Merkmalstyp | Datentyp |
|---|---|---|---|
| Datum und Uhrzeit der Probenname → beides wird vom Computer in Millisek. seit dem 1. Jan. 1970 ausgedrückt! | Intervall | Diskret | Datum/Uhrzeit |
| Temperatur (in Grad Celsius) | Intervall | Kontinuierlich | Zahl |
| Alter (in Jahren, Tagen,..); Abundanzdaten | Verhältnis | Diskret | Zahl |
| Gewicht (in kg, g,..); Größe (in cm, mm,..) | Verhältnis | Kontinuierlich | Zahl |
Nehmen nur einen Wert auf:
Ein Datenkonstrukt, welches aus einfacheren Datentypen besteht:
![]()
02:00
![]()



Bildquelle: Data Import cheat sheet (lizensiert unter CC-BY-SA)
![]()
Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:

Es sind 3 Variablen enthalten:

Welche potentiellen Schwierigkeiten könnte es mit so einer Tabelle geben?


Beispiel Pizzabestellung
Beispiel Pizzabestellung
Gibt eine Vielzahl von Datenbanken die im Internet frei zugänglich sind:
Catalogue of Life
Encyclopedia of Life
OBIS - Ocean Biogeographic Information System
FishBase
AlgaeBase
Mit einem Tabellenkalkulationsprogramm! Dazu mehr in der ersten Einführung zu LibreOffice Calc..




Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…
![]()
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Kurswebseite: Data Science 1