Ausbau der normativen Datenbasis für die obersorbische Rechtschreibkontrolle (Phase II)
Seit 2009 arbeiteten Informatiker frei- bzw. nebenberuflich und zunächst auf eigene Initiative an einem obersorbischen Rechtschreibmodul für Microsoft Office sowie Open/LibreOffice. Die Basis bildeten der im Obersorbisch-deutschen Wörterbuch von Paul Völkel kodifizierte obersorbische Wortschatz und ein neu entwickelter morphologischer Generator. 2016 wurde der Datenbestand von Sprachwissenschaftlern des Sorbischen Instituts einer zielgerichteten Revision unterzogen und korrigiert. Damit lag Ende 2016 eine vollständig qualitätsgeprüfte Version des morphologischen Generators als Grundlage für die obersorbische Rechtschreibkontrolle vor. Bereits 2017/18 wurde die Datenbasis der Rechtschreibkontrolle erweitert um den Wortschatz, der in den Äquivalenten des Deutsch-obersorbischen Wörterbuchs neuer Lexik (DOWNL, 2009) und in den im im Rahmen des Projekts II.1.2. vorbereiteten Terminologiesammlungen verzeichnet und nicht vom Wörterbuch von Völkel abgedeckt ist (Version 2).
Mit diesem Vorhaben soll eine letzte umfangreiche Erweiterung der Datenbasis erfolgen, mit der ein hoher Grad an Aktualität und Vollständigkeit erreicht wird. Weitere Erweiterungen können in Zukunft im Rahmen des Schrifttums-Monitorings (s. II.1.3.) erbracht werden. Vorgesehen ist die Einbeziehung folgender Datenbestände:
(a) Erschließung der bisher nicht für die automatische Rechtschreibprüfung verfügbaren Lexik aus dem Deutsch-obersorbischen Wörterbuch (DOW, 1989/1991): Das im Institut für sorbische Volksforschung erarbeitete DOW enthält in erheblichem Maße obersorbischen Wortschatz, der weder in älteren noch in neueren obersorbischen Wörterbüchern verzeichnet ist (auf Stichproben basierende Schätzung: ca. 15–20 000 neue Lexeme). Erst die Zusammenführung der Lexik aus beiden Wörterbüchern (Völkel und DOW) gibt, in Verbindung mit dem bereits integrierten DOWNL, ein annähernd vollständiges Bild des zeitgenössischen obersorbischen Lexikons, soweit es sich in Wörterbüchern niederschlägt.
(b) Die Datenbasis berücksichtigt bisher Eigennamen nur lückenhaft, was vor allem deshalb problematisch ist, da diese Flexionsformen und systematische Ableitungen bilden. In Anlehnung an das 2017 bearbeitete Eigennamenmodul der niedersorbischen Rechtschreibkontrolle soll dieser Bestand systematisch erweitert werden, insbesondere im Bereich der Personennamen, aber auch hinsichtlich geografischer Namen. Das gesammelte Material wird in einer Datenbank obersorbischer Eigennamen gesammelt.
Projektbearbeitung: Sonja Wölke (Leitung) ,
Richard Bigl, Bernhard Baier (extern)
Ergebnisse:
- Februar/Mai 2020: Integrierung neuer Lexik aus"Rěčny kućik" und der "Datenbank obersorbischer Exonyme"