Einführung in Daten und Datenmanagement

Data Science 1 - Programmieren & Visualisieren

Saskia Otto

Universität Hamburg, IMF

Invalid Date

Daten

Was sind eigentlich Daten?

  • Plural von Datum: bezeichnet Fakten, Zeitpunkte oder kalendarische Zeitangaben
  • Pluralwort für Beobachtungen, Messungen u. ä. gewonnenen Zahlenwerte

Von den Daten zur Entscheidung

Daten vs. Information

DATEN INFORMATION
einfache, unbearbeitete Fakten der Output von prozessierte Daten
kann, muss aber nicht bedeutsam oder aussagekräftig sein immer bedeutsam bzw. aussagekräftig
nicht organisiert, strukturiert organisiert und strukturiert
schwer zu verstehen leicht zu verstehen
werden erst durch ihren Zweckbezug zu eigentlichen Informationen zweckorientiertes Wissen
Beispiel: Umfragedaten Volkszählungs-(Census) Bericht

Daten und Variablen

Daten beziehen sich auf eine Wertemenge, welche sich meistens in mehrere Variablen und beobachtete Einheiten (den Mitgliedern einer Population) einteilen lässt:

Variablen

  • Eine statistische Variable ist ein Merkmal.
  • Der Wert einer Variablen ist die Merkmalsausprägung und wird einer Beobachtungs- oder Untersuchungseinheit zugeordnet.

Datensatztypen | Anzahl von Variablen

Je nach Anzahl der Variablen unterscheiden man folgende Datensatztypen:

1: univariat

  • 1-dimensional (X)
  • Jede Untersuchungseinheit erzeugt nur 1 Datenpunkt für diese eine Variable.
  • Mehr als Verteilungen lassen sich nicht untersuchen.

2: bivariat

  • 2-dimensional (X und Y)
  • Jede Untersuchungseinheit erzeugt 2 Datenpunkte: je 1 pro Variable.
  • Vorteil: Gruppenunterschiede oder Beziehungen lassen sich jetzt untersuchen.

>2: multivariat

  • multi-dimensional (X, Y, Z, ..)
  • Jede Untersuchungseinheit erzeugt p Datenpunkte: je 1 pro p Variablen.
  • Vorteil: komplexe Unterschiede oder Beziehungen lassen sich untersuchen.
  • Nachteil: >4 Variablen sind schwer zu visualisieren

Kategoriale vs. quantitative Variablen

Kategoriale (qualitative) Variablen

  • Die Werte sind überschneidungsfreie Kategorien oder Gruppen:
    A | B | C
  • Quantitative Variablen mit nur wenigen Ausprägungen können auch als kategorial betrachtet werden.

Quantitative (metrische) Variablen

  • Die Werte sind Zahlen, die üblicherweise Anzahlen oder Messwerte darstellen.
  • Unterscheidung nach mathematischen Attributen:
    • diskret: Variable nimmt nur endlich viele oder abzählbar unendlich viele Werte an (ganze Zahlen).
    • stetig/kontinuierlich: Variable nimmt unendlich viele Werte an (reelle Zahl) und hat eine stetige Verteilungsfunktion.

Skalenniveau

Kategoriale und quantitative Variablen lassen sich nach ihren Skalenniveaus weiter unterschieden:

Nominalskaliert

Kategorien lassen sich nicht in eine natürliche Reihenfolge bringen:

  • 2 Gruppen (binär): 0/1, lebend/tot
  • mehr als 2 Gruppen: Baum/Busch/Gras

Ordinalskaliert

Kategorien lassen sich in eine Reihenfolge bringen, allerdings gibt es keine interpretierbaren Abstände:

  • klein<medium<groß
  • ja>vielleicht>nein

Intervallskaliert

Hier kann nicht nur der Rang der Elemente, sondern auch der Unterschied zwischen den einzelnen Elementen bestimmt werden. Merkmale auf dieser Skala sind metrisch.

  • Zeitskala
  • Temperatur (in Grad Celsius)

Verhältnisskal.

Auch eine metrische Skala; im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt → besitzt den höchsten Informationsgehalt.

  • Alter (in Jahren)
  • Temperatur (in Grad Kelvin)

Das Skalenniveau bestimmt, welche Information das Merkmal liefert und welche Datentransformationen und Rechenoperationen erlaubt sind.

In der Praxis …

  • .. werden beim Untersuchen eines einzelnen Sachverhalts häufig sowohl kategoriale als auch quantitative Daten erfasst.
  • ..werden allerdings nur die Bezeichnungen nominal und ordinal für kategoriale Daten sowie stetig und diskret für verhältnisskalierte Zähldaten verwendet (im Englischen entsprechend ‘nominal’, ordinal’, ‘continuous’ und ‘discrete’)!

Beispiele | Kategoriale Variablen

Beispiel Skalenniveau Datentyp
Geschlecht: weiblich - männlich Nominal Text
Geschlecht: 1 (=weiblich) - 2 (=männlich) Nominal Zahl
Altersgruppe: Kind - Erwachsene/r - Senior/in Ordinal Text
Altersgruppe: 0 (=Kind) - 1 (=Erwachsene/r) - 2 (=Senior/in) Ordinal Zahl
Monate: März - April - Juni ; Wochentage: Mo - Mi - Fr Ordinal Datum
Tag - Nacht; Vormittag - Nachmittag Ordinal Zeit

Beispiele | Quantitative Variablen

Beispiel Skalenniveau Merkmalstyp Datentyp
Datum und Uhrzeit der Probenname → beides wird vom Computer in Millisek. seit dem 1. Jan. 1970 ausgedrückt! Intervall Diskret Datum/Uhrzeit
Temperatur (in Grad Celsius) Intervall Kontinuierlich Zahl
Alter (in Jahren, Tagen,..); Abundanzdaten Verhältnis Diskret Zahl
Gewicht (in kg, g,..); Größe (in cm, mm,..) Verhältnis Kontinuierlich Zahl

Umwandlung des Skalenniveau

Datentypen in der Informatik

  • Allgemein: Zusammenfassung von Objektmengen mit den darauf definierten Operationen.
  • Spezifisch bei Programmiersprachen: Zusammenfassung konkreter Wertebereiche und darauf definierter Operationen zu einer Einheit. Unterscheidet grob 2 Typen:

Datentypen in der Informatik | 2 Typen

Elementare (primitive) Datentypen

Nehmen nur einen Wert auf:

  • Boolean (logische Werte) - BOOL, BOOLEAN, LOGICAL
  • Zeichen (einzelnes Zeichen) - CHAR, CHARACTER
  • Zahlen
    • Ganze Zahlen - BYTE, INT, INTEGER, LONG, LONG INT,..
    • Natürliche Zahlen
    • Festkommazahlen - DEC, DECIMAL, NUMERIC,..
    • Gleitkommazahlen - DOUBLE, DOUBLE PRECISION, FLOAT,..

Zusammengesetzte
Datentypen

Ein Datenkonstrukt, welches aus einfacheren Datentypen besteht:

  • Zeichenketten
  • Reihung (Tupel)
  • Verbund, Klassen

Your turn …

Quiz: Hydrografie der Ostsee | Tabelle

Quiz: Hydrografie der Ostsee | Fragen


Datenmanagement

Datendigitalisierung

  • Nicht immer sind die Daten gleich in digitaler Form vorhanden.
  • Oft werden in der Biologie Messdaten noch auf Papier erfasst und müssen später digitalisiert werden.

Struktur digitaler Daten

Dateiformate digitaler Daten

Dateiformate digitaler Daten | Details

Semi-strukturierte Daten

& Tabellenkalkulationsprogramme

Ein Tabellenkalkulations-
programm ..

  • ..ist eine Software für die interaktive Eingabe und Verarbeitung von numerischen und alphanumerischen Daten in Form einer Tabelle.
  • ..erlaubt zusätzlich die grafische Darstellung der Ergebnisse in verschiedenen Anzeigeformen.

Tabellenkalkulationsprogramm

Anwendung

  • Digitalisierung von Daten.
  • Betrachtung von Daten.
  • Datenumstrukturierung.
  • Einfache Berechnungen und numerische Zusammenfassungen.
  • Grafische Darstellung der Daten zur Datenexploration.
  • Export von Daten für die Nutzung in anderen Programmen (z.B. R).

Bekannte Programme

  • Microsoft Excel
  • LibreOffice Calc (werden wir verwenden)
  • Numbers (macOS)
  • Geocalc
  • StarOffice StarCalc
  • Lotus 1-2-3

Ideale Datenstruktur

Was bedeutet ‘tidy data’?

  • Eine Art, Daten tabellarisch zu organisieren.
  • Bietet eine konsistente Datenstruktur über verschiedene Programme hinweg.
  • Ist einfach zu aggregieren, visualisieren und modellieren.

Bildquelle: Data Import cheat sheet (lizensiert unter CC-BY-SA)

Beispiel 1: typische Kreuztabelle

Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:

Typische Kreuztabelle | Lösung

Du solltest 3 sehen:

  • Die nominale Variable Art.
  • Eine (versteckte) nominale Variable mit den Gruppen Gefangen und Nicht Gefangen.
  • Die eigentliche Anzahl in diesen 2 Gruppen als diskrete Variable.

Beispiel 2: hydrographischer Datensatz

Welche potentiellen Schwierigkeiten könnte es mit so einer Tabelle geben?

  • Wo sollten die Koordinaten der Stationen hinzugefügt werden? In einer extra Tabelle?
  • Wo sollte das Datum hinzugefügt werden? Über den Stationsnamen?
  • Was sollte mit den anderen Parametern, Salinität und Sauerstoff, passieren? In extra Dateien?
  • Es ist unklar, welche Werte die Temperaturen repräsentieren!

Hydrographischer Datensatz | Lösung

Umstrukturierung zu einer langen Tabelle

Unterschied zwischen langem und weitem Format

  • Das ‘lange’ Datenformat wird als ‘tidy’ erachtet, weil
    • jede Beobachtung (hier: Temperaturmessung) in einer eigenen Reihe ist.
    • jede Variable seine eigene Spalte hat → Station und Temperatur sind getrennt!
  • ABER: einige Funktionen brauchen Daten im weiten Format → in dem Fall muss die Datentabelle angepasst werden.

Datenbanken

Strukturierte Daten & Datenbanken

Was genau ist eine Datenbank? | 1

Rolle bei Websites

Beispiel Pizzabestellung

Was genau ist eine Datenbank? | 2

Tabellenstruktur

Beispiel Pizzabestellung

Was genau ist eine Datenbank? | 3

Eine Datenbank …

  • ist eine Datensammlung,
  • ist nach den natürlichen Zusammenhängen strukturiert,
  • hat eine Datenbankverwaltung und ein Datenbankmanagementsystem (DBMS),
  • erlaubt den Zugriff mehrerer Benutzer gleichzeitig.

Das DBMS ermöglicht …

  • das Anlegen von Datenbanken,
  • die Speicherung, Änderung und Löschen von Daten,
  • das Abfragen der Datenbank,
  • die Verwaltung von Benutzern, Zugriffen und Zugriffsrechten.

Datenbankmodelle

  • Relationale Datenbanken (sehr verbreitet)
  • Hierarchische Datenbanken (z.B. Bücherkataloge) → nur noch selten
  • Netzwerkdatenbanken
  • Spaltenorientierte Datenbanken
  • Dokumentorientierte Datenbanken
  • Objektorientierte Datenbanken
  • Objektrelationale Datenbanken
  • NoSQL-Datenbanken

Hinweis

Mit der Datenbanksprache SQL (Structured Query Language - strukturierte Abfragesprache) kann man bei relationalen Datenbanksystemen auf die Daten zugreifen.

Öffentliche Datenbanken in der Biologie

Gibt eine Vielzahl von Datenbanken die im Internet frei zugänglich sind:

Öffentliche Datenbanken in der Meeresbiologie

Für weitere Beispiele siehe auch meine Blogseite: https://www.marinedatascience.co/data

Your turn …(later)

Eigene Datenbankabfrage

Aufgabe

Suchen Sie sich eine öffentliche Datenbank aus und fragen diese nach bestimmten Daten ab. Speichern Sie die Datei(en) ab, denn Sie werden sie noch für die Übungsstunde brauchen.

Probieren Sie aus, die Datei(en) mittels einer Software die Ihnen zur Verfügung steht, anzuschauen.

Tipp

Der Texteditor ist meist ein guter Freund und Helfer!

Fragen Sie sich:

  • Zu welchem Dateitypen gehören die Dateien?
  • Sind die Daten ‘tidy’?
  • Sind die Daten eher im langen oder weiten Format?
  • Wie viele Variablen und wie viele Beobachtungen enthält der Datensatz?
  • Welchem Typ gehören die Variablen an (nominal, ordinal,..)?

Wie schaut man sich nun solche Dateien an…?



Mit einem Tabellenkalkulationsprogramm! Dazu mehr in der ersten Einführung zu LibreOffice Calc..

Übungsaufgabe

Übungsskript

Moodle

Das Übungsskript und Calc Handbuch wie auch alle weiteren Dateien stehen im Moodle-Kurs zur Verfügung!

Lernziele

Am Ende dieser Übungseinheit sollten Sie …

  • …Daten im Tabellenkalkulationsprogramm LibreOffice Calc direkt eintragen können.
  • …Tabellen in Calc umformatieren, sortieren und filtern können.
  • Datensätze in verschiedenen Dateiformaten in Calc öffnen bzw. importieren können.
  • … Datensätze mit ihren unterschiedlichen Variablentypen interpretieren können.

Wie fühlen Sie sich jetzt…?

Total konfus?


Total gelangweilt?

Dann testen Sie doch Ihr Wissen in folgendem Abschlussquiz…

Abschlussquiz

Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Creative Commons License
Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.