Converted from a Word document
Der Workshop setzt sich das Ziel, die Möglichkeiten, Aufgaben und Herausforderungen bei der Wiederverwendung von historischen Korpora zu identifizieren und zu diskutieren. Insbesondere sollen dabei deren Architektur, Dokumentation, Veröffentlichung und Speicherung betrachtet werden. So wollen wir versuchen, Methoden und Strategien für das interdisziplinäre Forschungsparadigma der Digital Humanities zu entwickeln und diese in den Fragestellungen der Konferenz der DHd 2016 zu verorten. Der Fokus wird auf die spezifischen und fächerübergreifenden Anforderungen historischer Texte in Bezug auf deren Aufbereitung und Speicherung in Repositorien zum Zweck der Wiederverwendung gelegt. Damit richtet sich der Workshop gleichermaßen an Korpusersteller, Entwickler und Betreiber von Repositorien und deren Nutzer.
Historische Texte bilden den Forschungsgegenstand verschiedener geisteswissenschaftlicher Fächer wie der Linguistik, der Geschichtswissenschaft, der Literaturwissenschaft und vieler weiterer. Jede Disziplin hat dabei ihre eigenen Forschungsfragen und Arbeitsweisen, die sich in beispielsweise den genutzten Formaten und Annotationsweisen zeigen, wie beispielsweise die TEI Guidelines und deren TEI-XML-Format (TEI Consortium 2015) für digitale Editionen oder das Stand-Off-Format PAULA (Dipper et al. 2005) für linguistische Korpora. Dennoch gibt es Ähnlichkeiten bei der Textauswahl und -aufbereitung, die eine gemeinsame Nutzung der vorhandenen Daten sinnvoll erscheinen lassen. In vielen Fällen wird zwischen den digitalisierten historischen Texten – den Primärdaten – und den hinzugefügten Interpretationen in Form von Metadaten und Annotationen unterschieden. Diese Begriffe – Primärdatum, Annotation, Metadatum – werden sowohl fachübergreifend aber auch innerhalb einer Disziplin oft sehr unterschiedlich genutzt.
Zur Diskussion über Primärdatum, Transkriptionen, Normalisierungen siehe bspw. Claridge 2008, Himmelmann 2012, Kramer 2014; über Metadaten siehe bspw. Odebrecht 2015, Haynes 2004; über Annotationen siehe bspw. Lüdeling 2011, Kübler & Zinsmeister 2015).
Ein Beispiel für eine ähnliche Textauswahl sind historische Zeitungen, auf deren Grundlage ganz unterschiedliche Fragestellungen adressiert werden (für einen kleinen Überblick siehe bspw. Burr et al. 2015). Die korpusbasierten Aufbereitungsarten reichen bei diesem Register beispielsweise von digitalen Editionen (z.B. „Duisburg-Leipzig Korpus romanischer Sprachen“
Elisabeth Burr Korpus romanischer Zeitungssprachen.
http://home.uni-leipzig.de/burr/CorpusLing/Korpusanalyse/default.htm [letzter Zugriff: 10.September 2015].
Bennett, Paul; Durrell, Martin; Ensslin, Astrid; Scheible, Silke; Whitt, Richard; GerManC (Version 1.0), University of Manchester.
http://www.llc.manchester.ac.uk/research/projects/germanc/ &
http://hdl.handle.net/11022/0000-0000-2D1B-1 [letzter Zugriff: 10.September 2015].
Demske, Ulrike; Mercurius (Version 1.1), Universität Potsdam.
http://www.uni-potsdam.de/guvdds/projekte/abgproj.html &
http://hdl.handle.net/11022/0000-0000-467D-6 [letzter Zugriff: 10.September 2015].
Baillot & Seifert (2013). Briefe und Texte aus dem intellektuellen Berlin um 1800.
http://tei.ibi.hu-berlin.de/berliner-intellektuelle/ [letzter Zugriff: 22.Dezember 2015].
Ágel, Vilmos; Hennig, Mathilde; KAJUK (Version 1.1), Justus-Liebig-Universität Gießen.
http://www.uni-giessen.de/kajuk/index.htm &
http://hdl.handle.net/11022/0000-0000-2102-8 [letzter Zugriff: 10.September 2015].
Die Beantwortung der jeweiligen Forschungsfrage stützt sich dann häufig auf Interpretationen in Form von Annotationen in einem Korpus, deren Formen sich disziplinübergreifend ähneln können. Dennoch existieren vielfältige manuell zu erstellende oder automatisch generierbare Annotationsarten wie zum Beispiel Named-Entity-Recognition, Referenzierung auf Personendatenbanken (wie z.B. die Gemeinsame Normdatei
„Die Gemeinsame Normdatei (GND) ist eine Normdatei für Personen, Körperschaften, Konferenzen, Geografika, Sachschlagwörter und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Webanwendungen genutzt wird.“
http://www.dnb.de/gnd [letzter Zugriff: 10.September 2015]
Tool zum automatischen Annotieren von syntaktischen Dependenzen.
http://www.maltparser.org/ [letzter Zugriff: 10.September 2015].
Damit diese heterogenen historischen Korpora von unterschiedlichen Disziplinen genutzt und wiederverwendet werden können, müssen sie über eine gemeinsame Plattform zugreifbar sein. Diese Plattform muss das Durchsuchen der Daten, sowie der Metadaten, ggf. das Evaluieren sowie das Anreichern mit weiteren Annotationen und erneute Hochladen der Daten ermöglichen. Idealerweise können Repositorien diese Funktion übernehmen. Sie funktionieren dann wie eine Art Marktplatz, auf dem historische Korpora fachübergreifend ausgetauscht und mit Informationen angereichert werden können.
Der Workshop nimmt diesen Startpunkt, dessen Voraussetzungen und Konsequenzen zum Thema und begreift ihn als einen Teilbeitrag zu einem Fragenkomplex der DHd-Konferenz:
„Was sind die Daten der Geisteswissenschaften? Wie müssen die Daten der Geisteswissenschaften (digitalisierte bzw. digitale Texte, Bilder, Musik, Audio, Filme / Videos etc.) aufgearbeitet und vorgehalten werden, um sie über die Fächer hinweg nicht nur für unterschiedliche, sondern auch derzeit noch unbekannte Fragestellungen nutzen zu können?“Call for Papers http://www.dhd2016.de/node/9 [letzter Zugriff: 12.September 2015].
Der Workshop versucht für historische Korpora zu ergründen, wie und welche Wiederverwendungsszenarien unter welchen Voraussetzungen möglich sind und was der aktuelle Stand der Forschung ist. Dabei ist es enorm wichtig, dieses Thema vielschichtig und aus mehreren Perspektiven zu beleuchten. Fallstudien für die Wiederverwendung historischer Daten können exemplarisch Erfahrungen, Herausforderungen und Aufgaben thematisieren. Anhand von Korpusarchitekturen, die die Wiederverwendung unterstützen, können wichtige Konzepte und Modelle diskutiert und verglichen werden. Die Beschreibung von konkreten Technologien für die Umsetzung eines Repositoriums erlaubt es, die theoretischen Datenmodelle auf ihre Praxistauglichkeit zu untersuchen. Die Nutzer dieser Technologien tragen durch ihre Erfahrungen über die potentiellen Vorteile der Wiedernutzung und die Bereiche in denen sie Sinn machen maßgeblich zur Diskussion bei.
Damit stellen sich folgende Fragen in Bezug auf die historischen Korpora, deren Aufbereitung, die Repositorien bzw. Technologien und deren Nutzung:
● Können dieselben Primärdaten unter verschiedenen Forschungsfragen unterschiedlich genutzt werden?
● Welche Gemeinsamkeiten, welche Unterschiede weisen die Korpora hinsichtlich ihrer umfangreichen Aufbereitung historischer Texte auf.
● In wie weit fördern/erschweren die Annotationen als theoretische Konzepte und Interpretationen eine Wiederverwendung?
● Welche Arten von Annotationen und Analysen können wie wiederwendet werden?
● Welche Arten der Wiederverwendung können sich ergeben?
● Wie unterschiedlich bewerten Disziplinen die Qualität eines Korpus?
● Welche interdisziplinären Nutzer- und Nutzungsszenarien ergeben sich?
● Welche Anforderungen ergeben sich hinsichtlich der Korpusarchitektur inklusive Annotationsarten und Format?
● Welche Speicherformate eignen sich für die Wiederverwendung von Forschungsdaten?
● Wie können Lizenzen den Austausch und die Wiederverwendung fördern?
● Was sind die relevanten Metadaten über ein Korpus?
● Welche Art von Zugriff auf die Korpora ist notwendig, um eine Wiederverwendung zu erleichtern? Wie müssen Repositorien beschaffen sein?
● Welche Vor- und Nachteile besitzen disziplinspezifische/interdisziplinäre oder/und formatabhängige oder -unabhängige Repositorien?
Eine Diskussion und mögliche Beantwortung dieser Fragen wollen wir durch einen fächerübergreifenden Austausch von Entwicklern, Korpuserstellern und Nutzern im Rahmen des Workshops ermöglichen.
Der Workshop soll bestehend aus zwei impulsgebenden Keynotes und sechs Vorträgen an einem Tag vor der DHd-Konferenz stattfinden. Eine Keynote wird das Thema des interdisziplinären Zugangs und der Wiederverwendung zu historischen Daten allgemein thematisieren und problematisieren (Lüdeling und Dreyer, Projektleiter des LAUDATIO-Repositoriums für historische Texte
http://www.laudatio-repository.org/laudatio/ [letzter Zugriff 14.September.2015].
http://dariah.eu/about/organisation/board-of-directors/laurent-romary.html [letzter Zugriff 14.September 2015].