FID-Romanistik: Sichern und Publizieren von romanistischen Forschungsdaten

Speicherung und Langzeitarchivierung
Persistente Identifikatoren
Auswahl der Daten zur Veröffentlichung
Lizenzmodelle zur Regelung der Datennutzung
Sichtbarmachung der Forschungsleistung

Speicherung und Langzeitarchivierung

Um Forschungsdaten zu sichern, müssen sie an einer geeigneten Stelle abgespeichert werden. Zu unterscheiden sind dabei die Sicherung der Daten für den Zeitraum eines Forschungsvorhabens und eine langfristige Archivierung der Daten.

Für die dauerhafte Archivierung gibt es diverse Repositorien. Einige sind dabei mit virtuellen Forschungsumgebungen verknüpft, andere existieren unabhängig und speichern extern erzeugte Daten. Für romanistische Forschungsdaten eignen sich unter anderem die nachfolgenden Repositorien:

CLARIN-D-Zentren (für Sprachdaten)
DARIAH-DE Repository | Leitfaden für die Nutzung
TextGrid Repository | Video-Tutorial
Zenodo | Leitfaden für die Nutzung | Video-Tutorial
Institutionelle Repositorien der eigenen Hochschule oder Forschungseinrichtung

Die Archivierung spezifisch bildungswissenschaftlicher Forschungsdaten ist über den Verbund Forschungsdaten Bildung möglich.

Mit dem Repository Finder können Sie gezielt nach Repositorien suchen, die den FAIR-Prinzipien entsprechen. Sollten Sie hierbei nicht fündig werden, bietet re3data ein umfassendes Verzeichnis von Systemen zur Archivierung von Forschungsdaten aus unterschiedlichen Nationen und Disziplinen.

Eine übersichtliche Handreichung zu Repositorien stellt etwa das Thüringer Kompetenznetzwerk Forschungsdatenmanagement zur Verfügung (PDF).

Archivierung meint in diesem Zusammenhang die Speicherung von Daten über längere Zeiträume. Ein anderer Begriff dafür ist „Bitstream Preservation“. Sie gewährleistet die Unveränderlichkeit der Reihenfolge von Bits, den Einsen und Nullen, aus denen die Daten bestehen, und garantiert damit ihren (physischen) Erhalt auch bei Technologiewechsel auf Anbieterseite.

Darüber hinaus muss für eine Langzeitarchivierung im engeren Sinne eine technische Nachnutzbarkeit gegeben sein: Auch wenn die Umgebung veraltet, mit der die Daten ursprünglich erzeugt und analysiert wurden, müssen die Daten mit neuerer Technologie weiterhin gelesen bzw. wiedergegeben werden können („Logical Preservation"). Daher empfiehlt es sich, möglichst offene Dateiformate zu verwenden bzw. vor der Archivierung die eigenen Daten (evtl. zusätzlich) in solche Dateiformate zu konvertieren, die nicht auf spezielle Software kommerzieller Anbieter angewiesen sind. Beispiele für empfohlene Dateiformate bieten beispielsweise DARIAH-DE oder die Landesinitiative Langzeitverfügbarkeit NRW.

Eventuell selbst entwickelte Tools und Oberflächen sollten nach Projektende möglichst zur Verfügung gestellt und gepflegt werden. Deren langfristige Wartung wird von Repositorien allerdings in der Regel nicht angeboten, sondern muss selbst oder mit der Hilfe eines Datenzentrums geleistet werden. Bei der Entwicklung eigener Forschungsumgebungen oder Tools empfiehlt es sich, bereits frühzeitig die Möglichkeiten einer langfristigen Nutzbarkeit der Instrumente zu bedenken.

Um die inhaltichliche Nachvollziehbarkeit der Daten zu gewährleisten, sollte in den zugehörigen Metadaten zudem immer angegeben werden, mit welchen Tools und zu welchem Zweck sie erstellt bzw. analysiert wurden. („Semantic Preservation“). Weitere Informationen für die Voraussetzung der langfristigen Speicherung von Forschungsdaten finden Sie bspw. auf der Plattform forschungsdaten.info.

Nach oben

Persistente Identifikatoren

Um die Nachweissituation der eigenen Forschungsdaten zu verbessern, ist eine dauerhafte Adressierbarkeit der Daten von zentraler Bedeutung. Herkömmliche Hyperlinks im Internet (URLs) sind für diesen Zweck ungeeignet, da diese nach technischen Anpassungen oder Serverumzügen in der Regel nicht mehr funktionieren. Zur Vermeidung dieses Problems empfiehlt sich die Verwendung von sogenannten Persistenten Identifikatoren.

Persistente Identifikatoren (kurz: PIDs) verweisen auf einen von einer nationalen oder internationalen Organisation verwalteten und gepflegten Verzeichnisdienst (einen sogenannten „Resolver“), der Nutzerinnen und Nutzer zum aktuellen Sicherungsort der Daten weiterleitet. Auf diese Weise kann eine dauerhafte Erreichbarkeit und Zitierbarkeit von Forschungsdaten gewährleistet werden, unabhängig von Veränderungen des Standorts des Servers oder von dessen Dateistruktur.

Häufig genutzte Systeme für die persistente Identifikation digitaler Objekte sind:

Digital Object Identifier (DOI): Vergabe unter anderem über die Technische Informationsbibliothek Hannover und die Niedersächsische Staats- und Universitätsbibliothek Göttingen
Uniform Resource Name (URN): Vergabe über die Deutsche Nationalbibliothek
Handle: Vergabe über die „Corporation for National Research Initiatives (CNRI)“

In der Regel vergeben Repositorien automatisch einen Persistenten Identifikator für dort gespeicherte Datensätze.

Das ORCID Logo

Daneben etabliert sich zunehmend der sogenannte „Open Researcher and Contributor Identifier“, kurz ORCID iD. Hierbei handelt es sich um eine sechzehnstellige Ziffernfolge, die einzelne Forschende eindeutig identifiziert und bereits von vielen Förderinstitutionen genutzt bzw. gefordert wird. Die Einrichtung eines Nutzungsprofils auf orcid.org ist kostenlos und ermöglicht es Wissenschaftler:innen unter anderem, ihre Publikationen sowie institutionelle Zugehörigkeiten anzugeben und selbstständig zu verwalten. Weitere Informationen (TIB)

Weiterführende Hinweise zu PIDs finden Sie auch auf forschungsdaten.info.

Nach oben

Auswahl der Daten zur Veröffentlichung

Mit der Generierung der Forschungsdaten stellt sich die Frage nach Art und Umfang ihrer Publikation.

Entgegen einer verbreiteten Annahme müssen nicht alle im Forschungsvorhaben entstandenen Daten publiziert werden. Die Auswahl richtet sich nach rechtlichen und pragmatischen Gesichtspunkten. Insbesondere sofern Personendaten involviert sind oder es Grund zur Annahme gibt, dass urheber- bzw. persönlichkeitsrechtliche Ansprüche bestehen, sind Möglichkeiten und Grenzen einer Veröffentlichung der Daten bereits im Vorfeld juristisch zu prüfen. Andererseits beschränkt sich die Auswahl auf diejenigen Daten, welche die wissenschaftliche Transparenz und Nachvollziehbarkeit der Forschungsergebnisse gewährleisten. Sinnvoll ist es, darüber hinaus unter der Einräumung bestimmter Nutzungsrechte Daten zur Verfügung zu stellen, die eine wissenschaftliche Nachnutzung erlauben. Ob die Veröffentlichung von Exzerpten, Bibliographien oder einzelnen Notizen für die Fachcommunity einen Mehrwert darstellt, kann von Fall zu Fall variieren.

Nach oben

Lizenzmodelle zur Regelung der Datennutzung

Die Modalitäten der Nutzung bzw. Nachnutzung von Forschungsdaten können durch den Rückgriff auf anerkannte Lizenzmodelle präzise festgelegt werden.

In den Geisteswissenschaften sind Lizenzen der gemeinnützigen Organisation Creative Commons etabliert, die Nutzerinnen und Nutzern je nach Lizenz unterschiedlich weitreichende Nutzungsrechte einräumen. Auf der Seite von Creative Commons finden Sie eine Übersicht über die Lizenzmodelle. Eine übersichtliche Grafik der TU Darmstadt veranschaulicht die Möglichkeiten der einzelnen Lizenzen:

(Grafik der TU Darmstadt unter der Lizenz CC BY-SA.)

Weitere Informationen
- Einen Überblick mit Empfehlungen zur Verwendung von Creative-Commons-Lizenzen im Hinblick auf Open Science hat Creative Commons UK zusammengestellt: Fact Sheet on Creative Commons & Open Science (2017), DOI: 10.5281/zenodo.840651.
  
  Offene Lizenzen, die speziell auf publizierte Daten zugeschnitten sind, stellt die Initiative Open Data Commons zur Verfügung.
  
  Informationen zur Lizenzvergabe im Kontext von Forschungsdaten bietet die Plattform forschungsdaten.info.
  
  Für eine umfassendere Beschäftigung mit der Lizenzierung von Forschungsdaten konsultieren Sie bitte das Portal forschungslizenzen.de.
  
  Artikel zu freien Lizenzen im Romanistik-Blog des FID.

Nach oben

Sichtbarmachung der Forschungsleistung

Um die Nachweissituation der eigenen Forschungsdaten und ihre Sichtbarkeit für andere Wissenschaftlerinnen und Wissenschaftler zu verbessern, empfiehlt sich die Meldung der Daten mit Hilfe des vom FID in Kooperation mit romanistik.de entwickelten Meldesystems für Forschungsdaten.

Nach oben

Sichern und Publizieren von Forschungsdaten

Lizenzmodelle zur Regelung der Datennutzung

Weitere Informationen