Einsatz für Vielfalt

https://commons.wikimedia.org/wiki/File:JB_2022_sprachen.png

Die Sprachtechnologie, die zunehmend unser Leben bestimmt, produziert Ausschlüsse. Um mehr Wissensgerechtigkeit zu schaffen, hat Wikimedia Deutschland 2022 zusammen mit 52 Partner*innen aus Wissenschaft und Zivilgesellschaft den strategischen Plan »Ein digitales Europa, das alle Sprachen gleichbehandelt« ausgearbeitet.

»Europa ist linguistisch sehr divers, es existieren allein 24 Amtssprachen, dazu kommen Dutzende Regional- oder Minderheitensprachen«, zählt Maria Heuschkel, Projektmanagerin Softwareentwicklung bei Wikimedia Deutschland, auf. Das ist eine begrüßenswerte Vielfalt – »nur sind diese Sprachen im digitalen Raum höchst unterschiedlich repräsentiert.«

Praktisch bemerkbar mache sich diese Schieflage zum Beispiel, wenn es um Übersetzungs-Apps, automatisierte Rechtschreibprüfung, Sprachassistenten wie Siri, Google Assistant und Alexa oder um eine künstliche Intelligenz wie ChatGPT gehe. »Solche Programme funktionieren gut für Sprachen wie Englisch, Deutsch, Französisch oder Spanisch. Aber schon für Finnisch oder Rumänisch, um bei den offiziellen Sprachen zu bleiben, liefern sie weniger gute Ergebnisse«, so Heuschkel. Ganz zu schweigen von Baskisch oder Walisisch. Die daraus resultierende Gefahr sei, dass kleinere Sprachcommunitys perspektivisch den Anschluss im Netz verlieren könnten. »In letzter Konsequenz wird das Aussterben bestimmter Sprachen beschleunigt«, stellt Heuschkel fest.

Mehr Open-Source-Materialien

Um dieser Entwicklung entgegenzuwirken, hat Wikimedia Deutschland sich mit 52 Partner*innen aus den Bereichen Wissenschaft, Zivilgesellschaft und Industrie zu einem Konsortium zusammengeschlossen, um einen strategischen Plan für die Europäische Kommission für ein digitales Europa, das alle Sprachen gleichbehandelt, zu entwerfen. Beteiligt ist unter anderem auch das deutsche Forschungszentrum für künstliche Intelligenz (DFKI), mit dem WMDE bereits an mehreren Projekten gearbeitet hat.

»Es ging zunächst einmal darum, die verschiedenen Problemfelder zu identifizieren«, erklärt Heuschkel das Vorgehen des Konsortiums, das insgesamt 47 Berichte vorgelegt hat. Darunter ist auch ein Report von Wikimedia. »Es gibt in vielen Sprachen nicht genügend Trainingsdaten für Sprachmodelle wie Textkorpus, Audio- oder Videodateien, die online frei verfügbar wären«, so Heuschkel. Zudem fehle es oft an Quellen, mit denen Editierende – gerade aus unterrepräsentierten Sprach-Communitys – in ihren Wikipedien die notwendigen Belege setzen könnten. Ein Ansatz müsse entsprechend sein, mehr Open-Source-Materialien zu schaffen.

Perspektive Abstract Wikipedia

Gerade, wenn es sich um vergleichsweise kleine Communitys handelt, sind die Kapazitäten der Ehrenamtlichen indes begrenzt. Daten könnten aber auch automatisiert generiert werden, so Heuschkel – etwa über die freie Wissensdatenbank Wikidata. Die Projektmanagerin verweist zudem auf das
im Aufbau befindliche Projekt Abstract Wikipedia – das zielt darauf ab, eine sprachunabhängige Version von Wikipedia unter Verwendung seiner strukturierten Daten zu erstellen. Es ist ein ideales Tool für kleine Communitys, die nicht über die Ressourcen verfügen, eine Wikipedia in ihrer Sprache aufzubauen und zu verwalten – und ein möglicher weiterer Schritt zu mehr Sprachgerechtigkeit in Europa.

Weiterführende Links