Data Science and Scientific Workflows

Inhalt

Die in wissenschaftlichen Projekten erzeugte Datenmenge nimmt rasant zu. Teilweise ist der Anstieg darin begründet, dass neue datenbasierte Auswertemethoden, eine bessere und genauere Analyse wissenschaftlicher Daten erlauben. Darüber hinaus ergeben sich aus der Verknüpfung von Daten neue Erkenntnisse. Dies setzt eine systematische Organisation von Daten voraus. Die hierfür erforderlichen Kenntnisse der Datenwissenschaften und Informatik werden gleichermaßen für Computersimulationen und experimentelle Untersuchungen benötigt. Die Aufbereitung/Klassifizierung (z.B. elektronisches Laborbuch) und Strukturierung von Daten ist ein notwendiger Schritt zu deren Wiederverwendung. Die Vorlesung stellt Grundlagen und Softwaretools für entsprechende Scientific Workflows vor:  Python und Bibliotheken, Jupyter notebook, Shell-Skripte und Dokumentation mit git-basierten Werkzeugen. Weiterhin wird ein Überblick über Datenbanksysteme in der Materialforschung und das FAIR Datenprinzip (Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit) gegeben.

 

Ziel:

Die Studierenden können

  • elektronisch Daten organisieren und dokumentieren
  • mit Datenformaten umgehen: einfache, hierarchische
  • mit Softwareverwaltungstools (git, gitlab) umgehen
  • wissenschaftlichen Arbeitsablauf (worksflows) umfassend protokollieren und die Nachvollziehbarkeit sicherstellen
  • python basierte Bibliotheken zur Datenverarbeitung und Auswertung verwenden

 

Einzelne Vorlesungsinhalt:

  1. Einführung: Notwendigkeit der Datenwissenschaften und Informatikgrundlagen
  2. Programmieren und Programmierparadigmen anhand von Python
  3. Software- und Datenverwaltung: lokale und zentrale Verwaltung (git, gitlab)
  4. Automatisierung von Aufgaben: von Skripten zu Workflow (mit vielen Beispielen aus Simulation und Experiment)                                                                                     
  5. Datenverarbeitung       
  6. Elektronisches Laborbuch              
  7. Anforderung an Datenmanagement in öffentlich geförderten Projekten

 

Übung:

Der Vorlesungsstoff wird in den Übungen vertieft (Übung 1SWS)

 

Prüfungsmodus:

  • Bearbeitung eines Projekts: Projektthemen aus den Bereichen 
    • Werkstoffsimulation und Workflow
    • Datenorganisation und Analyse: aus Experiment oder SImulation
    • Vorstellung des Projekts in einem 15 minütigen Vortrag + Fragen 
  • Prüfungsvorleistung: Erfolgreicher Beginn der Projektarbeit
VortragsspracheDeutsch
Literaturhinweise

Literatur:

  • Handbuch Data Science, Hanser Verlag
  • Effective Computation in Physics, Scopatz & Huff, O’Reilly 2015
  • Python Data Science Handbook, J. VanderPlas, O’Reilly 2016.