Entwicklung und Verbesserung von Modellen zur Automatischen Spracherkennung für Nieder- und Obersorbisch

Der zunehmende Einsatz von sprachgestützter Mensch-Maschine-Interaktion als Kennzeichen der heutigen globalen Informationsgesellschaft erfordert die Verarbeitung gesprochener Sprache in technischen Systemen. Die automatische Spracherkennung, das technologische Äquivalent zur menschlichen Sprachwahrnehmung, kann inzwischen in einer Reihe alltäglicher Anwendungen als etabliert betrachtet werden, sei es in Kommandosystemen – wie der Steuerung von Komfortfunktionen in Fahrzeugen oder der Namenswahl bei Mobiltelefonen – über telefonische Auskunftssysteme, Diktier- und Transkriptionssysteme bis hin zu Systemen zur Informationsabfrage via Sprachassistenten.

Die sorbischen Sprachen als Minderheiten- oder Kleinsprachen finden in der Umsetzung solcher Systeme und Anwendungen in der Regel keine Berücksichtigung. Die notwendige Forschung, erforderliche Daten und Methoden der Umsetzung müssen also in Eigenregie erfolgen, will man mit den technischen Entwicklungen Schritt halten und sorbische Kommunikation und Austausch auch in digitalen Sprachräumen ermöglichen.

2020 entstand in Kooperation mit dem Fraunhofer-Institut für Keramische Technologien und Systeme IKTS Dresden, der BTU Cottbus und der Stiftung für das sorbische Volk mit „smart lamp“ ein prototypisches Kommandosystem für das Obersorbische, welches seit 2021 systematisch verbessert wird.

2023 begann das Sorbische Institut zunächst mit der Umsetzung eines vergleichbaren Prototyps für das Niedersorbische im Rahmen einer als Nebenprojekt konzipierten Pilotphase. Im laufenden Jahr 2024 erfolgt in einer Vorbereitungsphase die Fertigstellung dieses prototypischen Sprachmodells. Perspektivisch sollen die Modelle beider sorbischer Sprachen angereichert und qualitativ weiterentwickelt werden und der Anwendungsumfang erweitert werden.

Zusätzlich zur Entwicklung wird in einem Modul zur Unterstützung des obersorbischen Parallel-Vorhabens die Digitalisierung des sorbischen Schrifttums und der Aufbau eines Textkorpus aus hochwertigen Korpustexten vorangetrieben. Hintergrund dessen ist die große Bedeutung von Korpustexten für die Entwicklung eines statistischen Sprachmodells. Gerade für das Obersorbische liegen aber im Unterschied zum Niedersorbischen bisher nur relativ wenig geeignete Korpustexte vor. Dieses Projektmodul dient u. a. dazu, diesen Mangel schrittweise zu beseitigen. Dazu wird ein gut abgrenzbarer Teil des historischen os. Schrifttums (Texte katholischer Provenienz wegen ihrer Nähe zur heutigen obersorbischen Umgangssprache) einer hochwertigen Volltextdigitalisierung unterzogen.

Projektleitung: Astrid Schmiedel
Projektbeteiligte: Jan Meschkank , Fabian Kaulfürst, Lechosław Jocz (extern)

Förderer

Logo von

Das Vorhaben wird gefördert durch die Stiftung für das sorbische Volk, die jährlich auf der Grundlage der beschlossenen Haushalte des Deutschen Bundestages, des Landtages Brandenburg und des Sächsischen Landtages Zuwendungen aus Steuermitteln erhält.