ReN
English Version

Datenaufbereitung

Die Aufbereitung der Korpustexte umfasst die Transkription und die Annotation mit Wortart, Morphologie und Lemma. Für beide Schritte wurden im Projekt Richtlinien ausgearbeitet, die bei Bedarf weiterentwickelt werden. Jede veröffentlichte Korpusversion enthält die zum Zeitpunkt der Publikation aktuellen Richtlinien (vgl. z.B. die Version 2016-08-23).

Die aktuellen Versionen der Richtlinien finden sich hier:

Transkription

Die Texte des ‚Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650)‘ werden als Volltexte bzw. bis zu einem Umfang von ca. 20.000 Wortformen aufgenommen. Sie werden buchstabengetreu transkribiert. Abbreviaturen werden kenntlich gemacht, der Zeilen-, Spalten-, Seiten- und Blattanfang wird jeweils markiert und Interpunktionszeichen sowie die Groß- und Kleinschreibung orientieren sich an der jeweils vorliegenden Handschrift bzw. dem jeweils vorliegenden Druck.

Im Anschluss an die Transkription erfolgen für die grammatische Annotation notwendige Vorarbeiten. Hierzu zählen die Bestimmung von Satzgrenzen sowie die Normalisierung der Getrennt- und Zusammenschreibung (Präeditierung).

Die Transkriptionen lassen sich in ANNIS einsehen und sind über die Textliste (document browser) erreichbar (vgl. die Anleitung zur ANNIS-Oberflächen). Das Laden der Transkriptionen kann je nach Text sehr lange dauern. Dies ist ein bekanntest Problem, an dessen Lösung gearbeitet wird.

Annotation

Die grammatische Annotation im Projekt besteht aus einer PoS-Annotation (Wortarten) und einer flexionsmorphologischen Annotation. Beides erfolgt halbautomatisch, d. h., dass die Ergebnisse eines automatischen Taggers manuell korrigiert werden.

Das der Annotation zugrundegelegte Tagset orientiert sich zum Zwecke paralleler Suchabfragen in den anderen Referenzkorpora (Altdeutsch, Mittelhochdeutsch und Frühneuhochdeutsch) an dem Tagset für historische Sprachstufen des Deutschen (kurz: HiTS, Dipper et al. 2013), das auf STTS (Stuttgart-Tübingen-Tagset) basiert.

Die Daten im Projekt ‚Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650)‘ werden außerdem lemmatisiert. Die Lemmatisierung erfolgt computergestützt auf der Grundlage einer am Projektstandort Münster digitalisierten Lemmaliste.

Die manuelle Korrektur der Annotation wird mit dem in Bochum entwickelten Tool CorA (Bollmann et al. 2014) durchgeführt.