72 Digital Humanities J a h r b u c h 2 0 2 2 Thesaurus in Sicht, die dem Verlag gehören. Das unterstreicht noch einmal, die strategische Bedeutung, die dieser Antrag für das Ziel der „Offenen Wissenschaft“ der BAdW hat. Neue Anwendungsfelder für lateinische Wörterbuchdaten Wie auch bei anderen geisteswissenschaftlichen Projekten, die dazu übergehen ihre Werke nicht nur digital zur Lektüre, son- dern auch in Datenform anzubieten, stößt die Bereitstellung digitaler Daten durch den Thesaurus ein Tor zu neuen Möglich- keiten auf. In Datenform vorgelegt, wird der Thesaurus auch für die Computerlinguistik und Künstliche-Intelligenz-Forschung interessant. Insbesondere letztere ist stets an qualitativ hoch- wertigen Trainingsdaten interessiert. Um das Potential zu eruieren, das die Thesaurus-Daten in dieser Hinsicht haben, wurde in Zusammenarbeit des Referats für Di- gital Humanities und einer Mitarbeiterin des TLL eine explora- tive Studie durchgeführt, bei der die Sprachmaschine BERT mit ausgewählten Thesaurus-Daten gefüttert wird. Die Ergebnis- se sind vielversprechend, so dass wir erwarten, dass durch die freie Bereitstellung der Thesaurus-Daten mittel- bis langfristig neue intellektuelle Wertschöpfungsketten in interdisziplinären Anwendungsfeldern erschlossen werden. I N F O U N T E R : pu b l i k at io n e n . b a d w . de / de / t h e s au r u s / le m mat a Heureka HTML: Ein komfortabler Abschied von TEI-XML Ein wesentliches Hemmnis bei der Erstellung digitaler Editio- nen besteht darin, dass es keine Software gibt, mit der Geistes- wissenschaftler einfach loslegen können, so wie das bei einer klassischen Druckedition mit jeder beliebigen Textverarbeitung möglich ist. Daraus folgt: Wer eine digitale Edition erstellen will, muss sich die dafür nötigen Werkzeuge entwickeln – oder ent- wickeln lassen. Dies dürfte auch einer der Gründe sein, warum sich digitale Editionen noch nicht durchgesetzt haben und im- mer noch Druckeditionen produziert werden, die dann später aufwändig rück-digitalisiert werden müssen. Diese Situation ist umso verwunderlicher, als es ja angeb- lich mit TEI-XML (https://tei-c.org/) ein Standarddatenformat für digitale Texte gibt, das schon seit über 20 Jahren existiert und weiterentwickelt wird. Warum gibt es dann keine Software, die auch jemand ohne Programmierkenntnisse selbst installie- ren und nutzen kann, um eine digitale Edition zu erstellen? Der Grund dürfte wohl darin liegen, dass die Text-Encoding-Initiative das Thema Werkzeugentwicklung vernachlässigt hat, mit der Folge, dass ein so unhandlicher Standard entstanden ist, dass es praktisch unmöglich ist, Software-Werkzeuge zu entwickeln, die diesen Standard in seiner Gänze verarbeiten können. Nun kann man zwar auf Basis von TEI Substandards bilden. TEI-XML kennt dafür sogar einen eigenen Mechanismus. Aber diese Sub- Standards sind untereinander – anders als man vermuten wür- de – nicht interoperabel. Damit ist aber fraglich, welche Vortei- le die Nutzung von TEI-XML für die Codierung von Text-Daten noch haben kann. Das gilt umso mehr, als die Nutzung von TEI-XML mit einigen gravierenden Nachteilen verbunden ist. Durch seine lange Ent- wicklungsgeschichte bietet TEI-XML für ein- und dasselbe Codie- rungs-Problem meist nicht nur eine, sondern mehrere Lösungen an. Überraschend häufig entsprechen die in der TEI-XML-Doku- mentation empfohlenen Lösungen zudem eher schlechteren als besten Codierungspraktiken. Wenn die so bedingte Umständ- lichkeit bei der Erstellung von TEI-XML wenigstens dadurch be- lohnt würde, dass es dann für die Nutzer einfacher wird, von den so codierten digitalen Daten Gebrauch zu machen. Aber das ist mitnichten der Fall, denn für die Nachnutzer macht TEI-XML die Sache aus denselben Gründen ebenfalls kompliziert. Wir spre- chen hier aus eigener Erfahrung, denn wir kennen beide Pers- pektiven. Unserer Ansicht nach bildet TEI-XML daher eher ein Hemmnis als eine Hilfe bei der Verbreitung guter Codierungs- praktiken in den Digital Humanities. Das Referat für Digital Humanities Forschung & Entwick- lung hat daher begonnen, mit Heureka eine Alternative auf Ba- sis von HTML zu entwickeln, die eine ebenso tiefe semantische Annotierung ermöglicht, aber leichter zu erlernen und hand- zuhaben ist. In zwei Editionsprojekten, Schelling in München ‒ Hybride Nachlass-Edition und Otloh von St. Emmeran ‒ Au- tor und Kopist, bewährt es sich bereits. Eine technische Betreu- ung ist zwar immer noch erforderlich. Der Aufwand dafür fällt aber wesentlich geringer aus – nicht zuletzt deshalb, weil die andernfalls für eine Online-Edition erforderliche Transformati- on der Daten von TEI-XML nach HTML wegfällt, wenn die Edi- tion gleich in HTML codiert wird. Da es für HTML viel mehr frei verfügbare Werkzeuge gibt als für XML, war es zudem möglich, eine Editions-Arbeitsstrecke ausschließlich aus Open-Source- Software aufzubauen. Der Entwicklungsaufwand hat sich mit diesen beiden Projekten bereits gelohnt. Wir werden den Weg weiterverfolgen. Der nächste Schritt besteht darin, diese Lösung zu dokumentieren und publik zu machen. .dhmuc-Präsentation zur Motivation von Heureka-HTM L: t1p.de/c mtv8