Einer neuen Studie zufolge hat künstliche Intelligenz (KI) Probleme, bayerische Dialekte zu verstehen. Ein gemeinsames Forschungsprojekt des Bayerischen Rundfunks (BR) mit der Münchner Ludwig-Maximilians-Universität (LMU) hat demnach ergeben, dass Spracherkennungssysteme nach wie vor große Schwierigkeiten damit haben, Dialektsendungen ins Hochdeutsche zu transkribieren.
Getestet wurden drei Dialektgruppen: Fränkisch (Unterfränkisch, Mittelfränkisch, Oberfränkisch), Bairisch (Oberbairisch, Niederbairisch, Oberpfälzisch) und Schwäbisch. Diese wurden mit Audioaufnahmen auf Hochdeutsch verglichen. Der Auftrag an die KI lautete, ein Transkript in Hochdeutsch zu erstellen.
Sinn des im Dialekt gesprochenen Satzes ging häufig verloren
Im Ergebnis machten die Spracherkennungssoftwares bei den Radioaufnahmen in den Dialekten deutlich mehr Fehler als bei der Transkription von Audios auf Hochdeutsch. Häufig ging dabei laut der Studie der Sinn des im Dialekt gesprochenen Satzes verloren. Demnach betrafen die Unterschiede zwischen Dialekt und Standarddeutsch auch Wortschatz, Morphologie und Syntax. Damit die Spracherkennungs-Modelle ihre Aufgaben künftig besser meisterten, müssten sie entsprechend trainiert werden.