Die datengeleitete Ermittlung des gemeinsamen sprachlichen Inventars der Geisteswissenschaften

Meißner, Cordula
Universität Leipzig, Deutschland
cordula.meissner@uni-leipzig.de

Wallner, Franziska
Universität Leipzig, Deutschland
f.wallner@rz.uni-leipzig.de

Inhalt

1. Hintergrund

Sprache ist in der Wissenschaft nicht nur ein Instrument, um Sachverhalte zu vermitteln, sondern spielt für das wissenschaftliche Denken eine konstitutive Rolle. Dies gilt insbesondere für die geisteswissenschaftlichen Disziplinen, da hier selbst die Gegenstände der Forschung größtenteils sprachlich verfasst sind (vgl. Kretzenbacher 2010). Die nicht-terminologische, disziplinenübergreifend verwendete Wissenschaftssprache spiegelt dabei in besonderem Maße die in Sprache niedergelegten Erkenntnisprozesse wider und ist somit von wesentlicher wissenschaftsmethodologischer Bedeutung. Zu ihr gehören beispielsweise Ausdrucksmittel des Voraussetzens, des Begründens, des Folgerns, des Einschränkens, des Übertragens und Vergleichens. Für diesen Bereich, der unter dem Begriff der allgemeinen oder auch alltäglichen Wissenschaftssprache zusammengefasst wird (Schepping 1976; Ehlich 1999), steht eine systematische lexikographische Erschließung und Beschreibung jedoch bislang noch aus. Der einzige vorliegende Ansatz zu einer lexikografischen Erfassung der allgemeinen Wissenschaftssprache nimmt das gesamte Spektrum akademischer Fächer in den Blick und erlaubt so eine nur geringe Beschreibungsdetailliertheit (Erk 1972, 1975, 1982, 1985).

Das Projekt GeSIG (Das gemeinsame sprachliche Inventar der Geisteswissenschaften) setzt sich daher zum Ziel, erstmals das Inventar der allgemeinen Wissenschaftssprache der Geisteswissenschaften auf empirischer Grundlage zu bestimmen und damit den Grundstein für seine umfassende Erschließung zu legen. Ein auf diese Weise bestimmtes Inventar stellt eine wertvolle Grundlage für die Dokumentation und Erforschung der Sprache der Geisteswissenschaften dar und bietet die Ausgangsbasis für die Reflexion spezifisch geisteswissenschaftlicher Erkenntnisprozesse. Das Projekt ist als Pilotprojekt angelegt und soll Vorarbeiten liefern für den Aufbau einer umfassenden elektronischen lexikographischen Ressource dieses Sprachbereichs.

2. Vorgehen

Das Inventar der allgemeinen Wissenschaftssprache der Geisteswissenschaften wird datengeleitet ermittelt. Die Datenbasis bilden Korpora verschiedener geisteswissenschaftlicher Fachbereiche. Zur Operationalisierung der „Geisteswissenschaften“ wird dabei die Umfangsbestimmung des Wissenschaftsrates (2010) zugrunde gelegt, der sich an die Systematik des statistischen Bundesamtes anlehnt und Fächergruppen wie Philosophie, Sprach- und Literaturwissenschaften, Geschichtswissenschaften, Regionalstudien, religionsbezogene Wissenschaften, die bekenntnisgebundenen Theologien, die Ethnologien sowie die Medien-, Kunst-, Theater- und Musikwissenschaften umfasst (vgl. Statistisches Bundesamt 2013). Die zugehörigen Disziplinen sind in 19 Gruppen zusammengefasst, die für die Bildung von Teilkorpora herangezogen werden. Dabei werden für jeden Bereich mindestens 10 Dissertationen und mindestens 1 Mio. Token erhoben. Die Analysegrundlage bilden somit Teilkorpora in einem Gesamtumfang von ca. 19 Mio. Token.

Um einen systematischen Zugriff auf den Wortschatzbestand der allgemeinen Wissenschaftssprache der Geisteswissenschaften zu ermöglichen, werden aktuelle korpusmethodologische Werkzeuge und Erschließungsverfahren eingesetzt. Die Sprachdaten werden zunächst für die korpuslinguistische Analyse bereinigt. Um eine systematische Auswertung auf Lemmaebene und im Hinblick auf Wortarten durchzuführen, werden sie anschließend mit Hilfe des TreeTaggers (Schmid 1995) nach Wortarten annotiert sowie lemmatisiert. Dabei liegen die Richtlinien des STTS zugrunde (Schiller et al. 1999). Zusätzlich erfolgen weitere Nachbearbeitungsschritte zur Desambiguierung automatisch ermittelter Homonyme sowie zur Lemmatisierung der Partikelverben und unvollständiger Wortformen.

Auf der Grundlage der so aufbereiteten Teilkorpora wird der allgemeinwissenschaftliche Wortschatz der Geisteswissenschaften ermittelt. Dieser wird operationalisiert durch das disziplinübergreifende Vorkommen von Lemmata. Hierzu wird für jedes Teilkorpus eine Lemmaliste erstellt und eine Schnittmenge aus diesen 19 Listen gebildet.

3. Ergebnisse

Das allgemeinwissenschaftliche sprachliche Inventar der Geisteswissenschaften setzt sich aus den Lemmata zusammen, die in allen Teilkorpora vorkommen. Es umfasst damit jene sprachlichen Mittel, die der Form nach in geisteswissenschaftlichen Disziplinen übergreifend gebraucht werden. Die quantitative Auswertung zeigt jedoch deutliche Frequenzunterschiede für einzelne Lemmata in bestimmten Disziplinen. Dies deutet darauf hin, dass einige der übergreifend gebrauchten Lexeme in den geisteswissenschaftlichen Disziplinen einen unterschiedlichen Stellenwert haben und möglicherweise fachterminologisch geprägt sind.

Die Frequenzwerte weisen zudem darauf hin, dass einzelne Fachbereiche hinsichtlich der gebrauchten sprachlichen Mittel einander näher stehen und größere Überschneidungsmengen bilden, als andere. Nimmt man diese frequenzindizierten Ähnlichkeiten als Ausgangspunkt, ergeben sich alternative Möglichkeiten der Fachbereichsgruppierung, welche sich letztendlich auch auf Umfang und Ausprägung des zu ermittelnden gemeinsamen Inventars der Geisteswissenschaften auswirken.

Der Vortrag stellt die Ergebnisse unterschiedlicher Erschließungs- und Auswertungsverfahren gegenüber und diskutiert diese im Hinblick auf das Konzept einer allgemeinen Wissenschaftssprache der Geisteswissenschaften und ihrer lexikografischen Erfassung.

Appendix A

Bibliographie
  1. Ehlich, Konrad (1999): "Alltägliche Wissenschaftssprache", in: Informationen Deutsch als Fremdsprache 26: 3-24.
  2. Erk, Heinrich (1972): Zur Lexik wissenschaftlicher Fachtexte. Verben, Frequenz und Verwendungsweise (= Schriften der Arbeitsstelle für wissenschaftliche Didaktik des Goethe-Instituts 4). München: Hueber.
  3. Erk, Heinrich (1975): Zur Lexik wissenschaftlicher Fachtexte. Verben, Frequenz und Verwendungsweise (= Schriften der Arbeitsstelle für wissenschaftliche Didaktik des Goethe-Instituts 4). München: M. Hueber.
  4. Erk, Heinrich (1982): Zur Lexik wissenschaftlicher Fachtexte. Verben, Frequenz und Verwendungsweise (= Schriften der Arbeitsstelle für wissenschaftliche Didaktik des Goethe-Instituts 4). München: M. Hueber.
  5. Erk, Heinrich (1985): Wortfamilien in wissenschaftlichen Texten. Ein Häufigkeitsindex (= Schriften der Arbeitsstelle für wissenschaftliche Didaktik des Goethe-Instituts 9). München: M. Hueber.
  6. Kretzenbacher, Heinz (2010): "Fach- und Wissenschaftssprachen in den Geistes- und Sozialwissenschaften", in: Krumm, Hans-Jürgen / Fandrych, Christian / Hufeisen, Britta / Riemer, Claudia (eds.): Deutsch als Fremd- und Zweitsprache (= Handbücher zur Sprach- und Kommunikationswissenschaft 35.1). Berlin, New York: de Gruyter 493-501.
  7. Schepping, Heinz (1976): "Bemerkungen zur Didaktik der Fachsprache im Bereich des Deutschen als Fremdsprache", in: Rall, Dietrich / Schepping, Heinz / Schleyer, Walter (eds.): Didaktik der Fachsprache. Beiträge zu einer Arbeitstagung der RWTH Aachen vom 30.9. bis 4.10.1974. Bonn-Bad Godesberg: DAAD 13-34.
  8. Schmid, Helmut (1995): "Improvements In Part-of-Speech Tagging With An Application To German", in: Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland ftp://ftp.ims.uni-stuttgart.de/pub/corpora/tree-tagger2.pdf [letzter Zugriff 02. Oktober 2015].
  9. Schiller, Anne / Teufel, Simone / Stöckert, Christine / Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Technischer Bericht. Universitäten Stuttgart & Tübingen.