Einführung in Daten und Datenmanagement

Data Science 1 - Programmieren & Visualisieren

Saskia Otto

Universität Hamburg, IMF

Wintersemester 2023/2024

Lernziele

Am Ende dieser VL- und Übungseinheit werden Sie

  • die verschiedenen Datentypen und Skalenniveaus kennen.
  • strukturierte von unstrukturierten Daten unterscheiden können.
  • Daten in einem Tabellenkalkulationsprogramm wie LibreOffice Calc (oder MS Excel) direkt eintragen können.
  • Tabellen in Calc umformatieren, sortieren und filtern können.
  • Datensätze in verschiedenen Dateiformaten in Calc öffnen bzw. importieren können.
  • Datensätze mit ihren unterschiedlichen Variablentypen interpretieren können.

Daten

Von den Daten zur Entscheidung

Daten vs. Information

DATEN INFORMATION
einfache, unbearbeitete Fakten der Output von prozessierten Daten
kann, muss aber nicht bedeutsam oder aussagekräftig sein immer bedeutsam bzw. aussagekräftig
nicht organisiert, strukturiert organisiert und strukturiert
schwer zu verstehen leicht zu verstehen
werden erst durch ihren Zweckbezug zu eigentlichen Informationen zweckorientiertes Wissen
Beispiel: Umfragedaten Volkszählungs-(Census) Bericht

Daten und Variablen

Daten beziehen sich auf eine Wertemenge, welche sich meistens in mehrere Variablen und beobachtete Einheiten (den Mitgliedern einer Population) einteilen lässt:

Variablen

  • Eine statistische Variable ist ein Merkmal.
  • Der Wert einer Variablen ist die Merkmalsausprägung und wird einer Beobachtungs- oder Untersuchungseinheit zugeordnet.

Datensatztypen | Anzahl von Variablen

Je nach Anzahl der Variablen unterscheiden man folgende Datensatztypen:

1: univariat

  • 1-dimensional (X)
  • Jede Untersuchungseinheit erzeugt nur 1 Datenpunkt für diese eine Variable.
  • Mehr als Verteilungen lassen sich nicht untersuchen.

2: bivariat

  • 2-dimensional (X und Y)
  • Jede Untersuchungseinheit erzeugt 2 Datenpunkte: je 1 pro Variable.
  • Vorteil: Gruppenunterschiede oder Beziehungen lassen sich jetzt untersuchen.

>2: multivariat

  • multi-dimensional (X, Y, Z, ..)
  • Jede Untersuchungseinheit erzeugt p Datenpunkte: je 1 pro p Variablen.
  • Vorteil: komplexe Unterschiede oder Beziehungen lassen sich untersuchen.
  • Nachteil: >4 Variablen sind schwer zu visualisieren

Qualitative vs. quantitative Variablen

Qualitative (kategoriale) Variablen

  • Die Werte sind überschneidungsfreie Kategorien oder Gruppen:
    A | B | C
  • Quantitative Variablen mit nur wenigen Ausprägungen können auch als kategorial betrachtet werden.

Quantitative (metrische) Variablen

  • Die Werte sind Zahlen, die üblicherweise Anzahlen oder Messwerte darstellen.
  • Unterscheidung nach mathematischen Attributen:
    • diskret: Variable nimmt nur endlich viele oder abzählbar unendlich viele Werte an (ganze Zahlen).
    • stetig/kontinuierlich: Variable nimmt unendlich viele Werte an (reelle Zahl) und hat eine stetige Verteilungsfunktion.

Skalenniveau

Kategoriale und metrische Variablen lassen sich nach ihren Skalenniveaus weiter unterschieden:

Nominalskaliert

Kategorien lassen sich nicht in eine natürliche Reihenfolge bringen:

  • 2 Gruppen (binär): 0/1, lebend/tot
  • mehr als 2 Gruppen: Baum/Busch/Gras

Ordinalskaliert

Kategorien lassen sich in eine Reihenfolge bringen, allerdings gibt es keine interpretierbaren Abstände:

  • klein<medium<groß
  • ja>vielleicht>nein

Intervallskaliert

Hier kann nicht nur der Rang der Elemente, sondern auch der Unterschied zwischen den einzelnen Elementen bestimmt werden. Merkmale auf dieser Skala sind metrisch.

  • Zeitskala
  • Temperatur (in Grad Celsius)

Verhältnisskal.

Auch eine metrische Skala; im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt → besitzt den höchsten Informationsgehalt.

  • Alter (in Jahren)
  • Temperatur (in Kelvin)

Das Skalenniveau bestimmt, welche Information das Merkmal liefert und welche Datentransformationen und Rechenoperationen erlaubt sind.

In der Praxis …

  • .. werden beim Untersuchen eines einzelnen Sachverhalts häufig sowohl kategoriale als auch quantitative Daten erfasst.
  • ..werden allerdings nur die Bezeichnungen nominal und ordinal für kategoriale Daten sowie stetig und diskret für verhältnisskalierte Zähldaten verwendet (im Englischen entsprechend ‘nominal’, ordinal’, ‘continuous’ und ‘discrete’)!

Beispiele | Kategoriale Variablen

Beispiel Skalenniveau Datentyp
Geschlecht: weiblich - männlich Nominal Text
Geschlecht: 1 (=weiblich) - 2 (=männlich) Nominal Zahl
Altersgruppe: Kind - Erwachsene/r - Senior/in Ordinal Text
Altersgruppe: 0 (=Kind) - 1 (=Erwachsene/r) - 2 (=Senior/in) Ordinal Zahl
Monate: März - April - Juni ; Wochentage: Mo - Mi - Fr Ordinal Datum
Tag - Nacht; Vormittag - Nachmittag Ordinal Zeit

Beispiele | Quantitative Variablen

Beispiel Skalenniveau Merkmalstyp Datentyp
Datum und Uhrzeit der Probenname → beides wird vom Computer in Millisek. seit dem 1. Jan. 1970 ausgedrückt! Intervall Diskret Datum/Uhrzeit
Temperatur (in Grad Celsius) Intervall Kontinuierlich Zahl
Alter (in Jahren, Tagen,..); Abundanzdaten Verhältnis Diskret Zahl
Gewicht (in kg, g,..); Größe (in cm, mm,..) Verhältnis Kontinuierlich Zahl

Umwandlung des Skalenniveau

Datentypen in der Informatik | 2 Typen

Elementare (primitive) Datentypen

Nehmen nur einen Wert auf:

  • Boolean (logische Werte) - BOOL, BOOLEAN, LOGICAL
  • Zeichen (einzelnes Zeichen) - CHAR, CHARACTER
  • Zahlen
    • Ganze Zahlen - BYTE, INT, INTEGER, LONG, LONG INT,..
    • Natürliche Zahlen
    • Festkommazahlen - DEC, DECIMAL, NUMERIC,..
    • Gleitkommazahlen - DOUBLE, DOUBLE PRECISION, FLOAT,..

Zusammengesetzte
Datentypen

Ein Datenkonstrukt, welches aus einfacheren Datentypen besteht:

  • Zeichenketten
  • Reihung (Tupel)
  • Verbund, Klassen

Your turn …

Quiz: Hydrografie der Ostsee | Tabelle

Quiz: Hydrografie der Ostsee | Fragen

Datenmanagement

Datendigitalisierung

  • Nicht immer sind die Daten gleich in digitaler Form vorhanden.
  • Oft werden in der Biologie Messdaten noch auf Papier erfasst und müssen später digitalisiert werden.

Struktur digitaler Daten

Dateiformate digitaler Daten

Semi-strukturierte Daten

& Tabellenkalkulationsprogramme

  • ..ist eine Software für die interaktive Eingabe und Verarbeitung von numerischen und alphanumerischen Daten in Form einer Tabelle.
  • ..erlaubt zusätzlich die grafische Darstellung der Ergebnisse in verschiedenen Anzeigeformen.

Tabellenkalkulationsprogramm

Anwendung

  • Digitalisierung von Daten.
  • Betrachtung von Daten.
  • Datenumstrukturierung.
  • Einfache Berechnungen und numerische Zusammenfassungen.
  • Grafische Darstellung der Daten zur Datenexploration.
  • Export von Daten für die Nutzung in anderen Programmen (z.B. R).

Bekannte Programme

  • Microsoft Excel
  • LibreOffice Calc (werden wir verwenden)
  • Numbers (macOS)
  • Geocalc
  • StarOffice StarCalc
  • Lotus 1-2-3

Ideale Datenstruktur

Was bedeutet ‘tidy data’?

  • Eine Art, Daten tabellarisch zu organisieren.
  • Bietet eine konsistente Datenstruktur über verschiedene Programme hinweg.
  • Ist einfach zu aggregieren, visualisieren und modellieren.

Bildquelle: Data Import cheat sheet (lizensiert unter CC-BY-SA)

Beispiel 1: typische Kreuztabelle

Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:

Typische Kreuztabelle | Lösung

Es sind 3 Variablen enthalten:

  • Die nominale Variable Art.
  • Eine (versteckte) nominale Variable mit den Gruppen Gefangen und Nicht Gefangen.
  • Die eigentliche Anzahl in diesen 2 Gruppen als diskrete Variable.

Beispiel 2: hydrographischer Datensatz

Welche potentiellen Schwierigkeiten könnte es mit so einer Tabelle geben?

  • Wo sollten Koordinaten der Stationen hinzugefügt werden? In einer weiteren Tabelle?
  • Wo sollte das Datum hinzugefügt werden? Über den Stationsnamen?
  • Was sollte mit den anderen Parametern, Salinität und Sauerstoff, passieren? In extra Dateien?
  • Es ist unklar, welche Werte die Temperaturen repräsentieren!

Hydrographischer Datensatz | Lösung

Umstrukturierung zu einer langen Tabelle

Unterschied zwischen langem und weitem Format

  • Das ‘lange’ Datenformat wird als ‘tidy’ erachtet, weil
    • jede Beobachtung (hier: Temperaturmessung) in einer eigenen Reihe ist.
    • jede Variable seine eigene Spalte hat → Station und Temperatur sind getrennt!
  • ABER: einige Funktionen brauchen Daten im weiten Format → in dem Fall muss die Datentabelle angepasst werden.

Datenbanken

Strukturierte Daten & Datenbanken

Was genau ist eine Datenbank? | 1

Rolle bei Websites

Beispiel Pizzabestellung

Was genau ist eine Datenbank? | 2

Tabellenstruktur

Beispiel Pizzabestellung

Öffentliche Datenbanken in der Biologie

Gibt eine Vielzahl von Datenbanken die im Internet frei zugänglich sind:

Wie schaut man sich nun solche Dateien an…?



Mit einem Tabellenkalkulationsprogramm! Dazu mehr in der ersten Einführung zu LibreOffice Calc..

Übungsaufgabe

Übungsskript Woche 1

Das Übungsskript und alle weiteren Dateien stehen im Moodle-Kurs als ZIP-Dateien zur Verfügung!

Wie fühlen Sie sich jetzt…?

Total konfus?


Total gelangweilt?

Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…

Abschlussquiz

Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Creative Commons License
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.