Arbeit mit Forschungsdaten


1. Was versteht man unter Forschungsdaten?

In einer Ausschreibung definiert die DFG Forschungsdaten als „digitale und elektronisch speicherbare Daten […], die im Zuge eines wissenschaftlichen Vorhabens z.B. durch Quellenforschungen, Experimente, Messungen, Erhebungen oder Befragungen entstehen.“

Auch in der Romanistik treten Forschungsdaten auf. Art und Format der Daten sind dabei ebenso vielfältig, wie die zugrunde liegenden Forschungsprojekte, woraus ein breites Spektrum an Forschungsdaten resultiert:

  • linguistische Korpora
  • elektronische Textausgaben
  • Bibliographien
  • Quell- und Programmcode
  • Gesprächstranskriptionen
  • Digitalisate
  • Filmmaterial
  • fachdidaktische Erhebungen
  • etc.

2. Vorteile eines nachhaltigen Umgangs mit Forschungsdaten

Ein nachhaltiger Umgang mit Forschungsdaten bietet viele Vorteile sowohl für die Fachcommunity als auch für die Forschenden selbst:

a) Sicherung der Daten
Forschungsdatenmanagement kann die eigene Forschungsarbeit nicht nur langfristig vor Störungen, Computerdefekten o. ä. geschützt werden. Es ermöglicht darüber hinaus, etwaige methodische, technische oder juristische Fallstricke frühzeitig zu erkennen und zu vermeiden.

b) Nachvollziehbarkeit des Forschungsprozesses
Als Produkt des Forschungsprozesses dokumentieren Forschungsdaten das jeweilige wissenschaftliche Vorgehen. Sie verbessern die Nachvollziehbarkeit und Überprüfbarkeit des Forschungsverlaufs, sowohl für die Forschenden selbst als auch für die Wissenschaftscommunity.

c) Sichtbarkeit der wissenschaftlichen Leistung
Durch einen transparenten Umgang können Forschungsdaten als publikationsäquivalente wissenschaftliche Leistung wahrgenommen werden. Damit bereichern Forschungsdaten nicht nur die eigene Publikationsliste, sondern tragen auch zur Vernetzung unter den Forschenden bei.

d) Möglichkeit der Nachnutzung und Weiterverarbeitung
Forschungsdaten, die mit Blick auf Nachhaltigkeit erhoben und gespeichert werden, können als Ausgangspunkt für weiterführende Forschungsvorhaben dienen und somit zur Grundlage neuer Forschungsprojekte werden.

Nicht zufällig schreiben daher nahezu alle Forschungsförderorganisationen in ihren jeweiligen Richtlinien ein wissenschaftlich adäquates und nachhaltiges Konzept zum Forschungsdatenmanagement als Voraussetzung für die Gewährung von Drittmitteln vor.


3. Allgemeine Hinweise zum Forschungsdatenmanagement

Für einen wissenschaftlich adäquaten Umgang mit Forschungsdaten empfiehlt sich das Befolgen von sechs aufeinanderfolgenden Arbeitsschritten, die sich schematisch in Form eines wissenschaftlichen Zyklus abbilden lassen.

Wichtig ist, dass bereits im Vorfeld geklärt wird, welche Art von Daten erzeugt wird und was im Zuge des Forschungsvorhabens damit geschieht. Dies liegt nicht nur im Interesse wissenschaftlicher Nachvollziehbarkeit, sondern ist auch eine Vorgabe nahezu aller Forschungsförderorganisationen. So verlangt beispielsweise die DFG in ihren „Leitlinien zum Umgang mit Forschungsdaten“, dass „Forschungsdaten in der eigenen Einrichtung oder in einer fachlich einschlägigen, überregionalen Infrastruktur für mindestens 10 Jahre archiviert werden müssen“.

Hilfreich für einen transparenten Umgang mit Forschungsdaten ist ein sogenannter Datenmanagementplan, der unter anderem beschreibt, welche Arten von Daten während der Forschungsarbeit entstehen, wie sie verarbeitet und wo sie zu welchem Zeitpunkt gesichert werden. Zur Erstellung solcher Pläne existieren mittlerweile einschlägige Leitfäden, Vorlagen, Webtools und Literatur. Eine Auswahl finden Sie hier.


4. Erstellen von Forschungsdaten

Forschungsdaten lassen sich anhand ihrer Herkunft in zwei Kategorien unterteilen: Einerseits können Forschungsdaten digitalen Ursprungs sein. Dies ist beispielsweise der Fall, wenn Gespräche digital aufgezeichnet, Texte an Computern verfasst oder Darstellungen mit entsprechender Software erstellt werden. Andererseits können Forschungsdaten durch Digitalisierung entstehen, also durch die Transformation physisch vorliegender Objekte und Werke in elektronisch speicherbare Form.

Um eine reibungslose Verarbeitung zu gewährleisten, ist der Rückgriff auf frei zugängliche und anerkannte Standards und Formate unabdingbar. Einige Institutionen haben dazu entsprechende Empfehlungen vorgelegt:

Allerdings ist zu betonen, dass die Auswahl der Standards und Tools stets von der zugrunde liegenden Forschungsfrage abhängt.


5. Dokumentieren von Forschungsdaten

Die Dokumentation ist ein wichtiger Aspekt des Forschungsdatenmanagements. Sie bildet die Grundlage, um sicherzustellen, dass der Forschungsprozess und dessen Ergebnisse auch nach Ende des Forschungsvorhabens nachzuvollziehen sind.

Zu diesem Zweck ist es sinnvoll, Forschungsdaten mit sogenannten „Metadaten“ zu versehen, also mit Daten, die formale, inhaltliche, administrative und technische Informationen über Forschungsdaten beinhalten. Metadaten können nicht nur als Basis für spezifische Untersuchungsmethoden dienen, sondern auch die Verzeichnung der Forschungsdaten in entsprechenden Nachweisinstrumenten erleichtern und so deren Auffindbarkeit verbessern.

Aus technischer Perspektive können Metadaten auf zwei Arten auf die dazugehörigen Daten bezogen werden. Einerseits können die Metadaten in jene Dateien selbst eingefügt werden, in denen die Daten vorliegen. Andererseits können die Metadaten in einer oder mehreren zusätzlichen Dateien abgelegt werden.

Auch für Metadaten existieren einschlägige Standards. Nähere Informationen hierzu sind im Abschnitt „4. Erstellen von Forschungsdaten“ zu finden.


6. Nutzen/Analysieren von Forschungsdaten

Die Art der Nutzung bzw. der Analyse von Forschungsdaten unterscheidet sich je nach Disziplin und Forschungsfrage und muss jeweils am eigenen Forschungsvorhaben ausgerichtet werden. Da Forschungsdaten in der Regel digital vorliegen, bieten Sie, über traditionelle (beispielsweise hermeneutische) Arbeitstechniken hinaus, die Möglichkeit zur Untersuchung mit Hilfe computergestützter Methoden, wie sie unter anderem in den Digital Humanities zum Einsatz kommen.

Das Spektrum von Methoden und Tools ist dabei vielfältig und wird stets erweitert. Der folgende Überblick beschränkt sich am Beispiel einschlägiger Fachliteratur auf die am häufigsten genutzten Arbeitstechniken:

  • Archer, Jodie /Jockers, Matthew Lee: The bestseller code. Anatomy of the blockbuster novel. New York: St. Martin's Press, 2016.
  • Bock, Sina/Du, Keli/Huber, Michael/Pernes, Stefan: Der Einsatz quantitativer Textanalyse in den Geisteswissenschaften: Bericht über den Stand der Forschung. In: DARIAH-DE Working Papers, 18 (2016) (urn:nbn:de:gbv:7-dariah-2016-4-0).
  • Jannidis, Fotis: 6. Methoden der computergestützten Textanalyse. In: Nünning, Ansgar/Nünning, Vera (Hgg.): Methoden der literatur- und kulturwissenschaftlichen Textanalyse: Ansätze - Grundlagen - Modellanalysen. Stuttgart: Metzler, 2010, S. 109–132.
  • Jannidis, Fotis/Kohle, Hubertus/Rehbein, Malte: Digital Humanities. Eine Einführung. Stuttgart: Metzler, 2017.
  • Schöch, Christof: Ein digitales Textformat für die Literaturwissenschaften. Die Richtlinien der Text Encoding Initiative und ihr Nutzen für Textedition und Textanalyse. In: Romanische Studien, S. 325-364 (2016), http://www.romanischestudien.de/index.php/rst/article/view/58/599.

7. Speichern von Forschungsdaten

Unter den zur Speicherung geisteswissenschaftlicher Forschungsdaten geeigneten Systemen lassen sich generell zwei Kategorien unterscheiden:

Einerseits existieren sogenannte „Repositorien“, deren Dienstleistungen sich im Wesentlichen auf die langfristige Sicherung von Forschungsdaten beschränken. Hierzu gehören lokale Repositorien, wie sie etwa von Hochschulen oder Rechenzentren betrieben werden und Systeme, die auch von anderen Wissenschaftlerinnen und Wissenschaftlern genutzt werden können. Für romanistische Forschungsdaten eignen sich unter anderem die nachfolgenden Repositorien:

Die Speicherung spezifisch bildungswissenschaftlicher Forschungsdaten ist über den „Verbund Forschungsdaten Bildung“ möglich. Über den folgenden Link können Sie mit dem Verbund in Kontakt treten:

Darüber hinaus können Forschungsdaten auch im Rahmen sogenannter „Virtueller Forschungsumgebungen“ gesichert werden. In der Regel bieten Virtuelle Forschungsumgebungen neben der Speicherung der Daten weitere Funktionen, wie beispielsweise einschlägiges Informationsmaterial oder Arbeitsumgebungen zur Analyse der Daten.

Zu den für die Romanistik relevanten Virtuellen Forschungsumgebungen zählen:

  • Für linguistische Forschungsdaten:                        CLARIN-D
  • Für literaturwissenschaftliche Forschungsdaten:   DARIAH/Textgrid

Ein umfassendes Verzeichnis von Systemen zur Archivierung von Forschungsdaten aus unterschiedlichen Nationen und Disziplinen finden Sie unter:


8. Teilen/Archivieren von Forschungsdaten

Um die Nachweissituation der eigenen Forschungsdaten zu verbessern, ist eine dauerhafte Adressierbarkeit der Daten von zentraler Bedeutung. Herkömmliche Hyperlinks im Internet (URLs) sind für diesen Zweck ungeeignet, da diese nach technischen Anpassungen oder Serverumzügen in der Regel nicht mehr funktionieren. Zur Vermeidung dieses Problems empfiehlt sich die Verwendung von sogenannten „Persistenten Identifikatoren“.

Persistente Identifikatoren verweisen auf einen von einer nationalen oder internationalen Organisation verwalteten und gepflegten Verzeichnisdienst (einen sogenannten „Resolver“), der Nutzerinnen und Nutzer zum aktuellen Sicherungsort der Daten weiterleitet. Auf diese Weise kann eine dauerhafte Erreichbarkeit und Zitierbarkeit von Forschungsdaten gewährleistet werden, unabhängig von Veränderungen des Standorts des Servers oder von dessen Dateistruktur.

Häufig genutzte Systeme für Persistente Identifikatoren sind:

  • Digital Object Identifier“ (DOI): Vergabe unter anderem über die Technische Informationsbibliothek Hannover und die Niedersächsische Staats- und Universitätsbibliothek Göttingen
  • Uniform Resource Name“ (URN): Vergabe über die Deutsche Nationalbibliothek
  • Handle“: Vergabe über die „Corporation for National Research Initiatives (CNRI)“

Um die Modalitäten der Nutzung bzw. Nachnutzung von Forschungsdaten präzise festlegen zu können, bietet sich der Rückgriff auf anerkannte Lizenzmodelle an. In den Geisteswissenschaften etabliert sind Lizenzen der gemeinnützigen Organisation „Creative Commons“, die Nutzerinnen und Nutzern je nach Lizenz unterschiedlich weitreichende Nutzungsrechte einräumen. Eine Übersicht über die Lizenzmodelle von Creative Commons ist hier zu finden.

In der Wissenschaft weit verbreitet ist die Annahme, dass man ohne Ausnahme alle im Forschungsvorhaben entstandenen Daten veröffentlichen müsse. Diese Auffassung ist nicht zuletzt angesichts der rechtlichen Gegebenheiten zumindest einzuschränken. Zwar sollten Forschungsdaten mit Blick auf wissenschaftliche Transparenz, Nachvollziehbarkeit und um eine wissenschaftliche Nachnutzung zu erlauben, wenn möglich, anderen Forschenden verfügbar gemacht werden. Insbesondere sofern Personendaten involviert sind oder es Grund zur Annahme gibt, dass urheber- bzw. persönlichkeitsrechtliche Ansprüche bestehen, sind Möglichkeiten und Grenzen einer Veröffentlichung der Daten bereits im Vorfeld juristisch zu prüfen.

Um die Nachweissituation der eigenen Forschungsdaten zu verbessern, empfiehlt sich die Meldung der Daten mit Hilfe des vom FID in Kooperation mit romanistik.de entwickelten Meldesystems für Forschungsdaten.