Empfehlungen zur digitalen Arbeitsweise bei Publikationen (2013)
Digitale Publikationen
Allen Akademie-Projekten wird eine frei zugängliche digitale Publikation empfohlen. Neuprojekte sollten den goldenen Weg des Open Access anstreben, d.h. eine digitale Erstveröffentlichung. Laufende Projekte gehen möglichst den grünen Weg: Sie archivieren ihre digitalen Inhalte auf Open-Access-Dokumentenservern, sei es zeitgleich zur Druckpublikation oder nachträglich mit Moving Wall-Frist. Internetpublikationen basieren auf strukturierten Volltexten. E-Books sind als abgeleitete digitale Publikationsform zusätzlich denkbar. Digitale Publikationen haben einen eigenen Zitiercharakter. Für die Zitierbarkeit sollen die Persistenz einer Ressource und der Verknüpfung zu ihr gewährleistet sein.
Retrodigitalisierung
Für die Retrodigitalsierung wird das Scannen mit einer Auflösung von 300 dpi und einer Farbtiefe von 24 Bit/RGB bei Farbe bzw. 8 Bit/Graustufen empfohlen. Der digitale Master sollte im unkomprimierten TIFF Format[1] oder im verlustfrei komprimierten JPEG 2000 Format[2] gespeichert werden. Derivate für die Publikation im Internet können im JPEG[3] oder PNG[4] Format erstellt werden. Soweit möglich sollten zusätzlich Volltexte der Daten gewonnen werden, entweder durch OCR[5] oder durch Abschreiben/Transkription. Die Volltexte sollten in XML mit der Unicode Kodierung gespeichert werden.
Langzeitarchivierung
Die Arbeiten, die die BAdW-Mitarbeiter für die Langzeitarchivierung vorsehen, sollten in nicht-proprietären Dateiformaten abgespeichert werden, damit die Daten dauerhaft lesbar bleiben. Besonders zu empfehlen sind XML-Formate wie die TEI-Kodierung der Text Encoding Initiative für die Geisteswissenschaften, die Formate der Open Office/Libre Office Pakete oder Plain Text. Auch die Microsoft Office Open XML Formate[6] sind geeignet. Als Kodierung hat sich Unicode etabliert. Daten aus relationalen Datenbanken sollten soweit möglich regelmäßig in das XML-Format exportiert werden, alternativ in das CSV-Format[7]. Wichtig ist auch ein Export der Abfragelogiken sowie eine Dokumentation der Anwendungsfälle des gesamten Systems.
Die textidentische Repräsentation der letzten Fassung der Publikationen, die aus den Kommissionen an die Verlage zum Druck gegeben werden, wird von der Forschungsdokumentation im PDF-Format in einem Langzeitarchiv bei der Bayerischen Staatsbibliothek (BSB) gespeichert. Dateinamen bestehen aus dem Projektkürzel, einem Stichwort zum Inhalt der Datei sowie dem Erstellungsdatum (z.B. mlw_fasc40-1_20111006.pdf)[8].
Metadaten
Die Forschungsdokumentation liefert regelmäßig eine Excel-Datei mit Metadaten zu den PDF-Publikationsfassungen an die BSB, die Titel, Autor, Verlag, Auflage, Erscheinungsjahr, ISBN sowie Katalogschlüssel und Archiv-ID erfasst. Zusätzliche Metadaten können in den Metadatenfeldern innerhalb der PDF-Dateien abgelegt werden. Bei der Retrodigitalisierung sollten Metadaten in XML erfasst werden; gängige Formate sind hier je nach Inhalt METS[9], MODS[10] (für gedruckte Textwerke), TEI (für Handschriften und gedruckte Textwerke), LIDO[11] (für bildhafte und dreidimensionale Objekte), EAD[12] oder SAFTXML[13] (für Archivmaterialien).
Diese Empfehlungen wurden unter Bezugnahme auf die DFG-Praxisregeln Digitalisierung (Februar 2013), die Leipziger Empfehlungen der AG Elektronisches Publizieren der Akademienunion (September 2009), die Münchener Empfehlungen der AG Digitalisierung (Juni 2010), den Leitfadem zum Projektabschluss und zur Forschungsdokumentation der BAdW (Mai 2012), die Empfehlungen der BAdW zum Einsatz von Datenbanken (Oktober 2012) und die Richtlinien zur Open Access Publikationsweise (Mai 2013) der BAdW erstellt.
IT-Referat, 8. Oktober 2013
[1] Tagged Image File Format, zur Speicherung von Bilddaten
[2] Grafikformat, das sich neben TIFF besonders zur verlustfrei komprimierten Speicherung von Bildern für die Langzeitarchivierung eignet
[3] Bildformat, das von der Joint Photographic Experts Group entwickelt wurde
[4] Portable Network Graphics: Grafikformat zur verlustfreien Kompression
[5] Optical Character Recognition – optische Zeichenerkennung
[6] ab MS Office 2007 mit den Dateiendungen .docx, .xlsx und .pptx
[7] Comma Separated Values, Textformat für strukturierte Daten
[8] Für genauere Informationen und eine Auflistung der Projektkürzel siehe den Leitfadem zum Projektabschluss und zur Forschungsdokumentation der BAdW unter intern.badw.de/dokumentation/ablaufplan.docx
[9] Metadata Encoding and Transfer Schema: XML-Format zur Beschreibung digitaler Sammlungen von Objekten mit Metadaten
[10] Metadata Object Description Language: XML-Format für bibliographische Metadaten
[11] Lightweight Information Describing Objects: XML-Austauschformat für Museen
[12] Encoded Archival Description: dokumentarischer XML-Standard zur Beschreibung von Findhilfen
[13] Akronym für Standard-Austauschformat für archivische Findmittel