D

Datenberg

Daten sind ein immer wichtigerer Erfolgsfaktor für viele Bereiche, von Online-Plattformen über die Industrie bis zum vernetzten Zuhause. Unternehmen und Regierungen sammeln immer mehr Beobachtungen über die Welt und füttern mit ihnen eine Vielzahl von Modellen, die neue Einsichten generieren sollen. Mit der steigenden Bedeutung von Daten wächst die Relevanz einer guten Datenpolitik.

  • Open Data
  • Datenpolitik

Interview

Abstract Wikipedia: Über ein multilinguales Projekt im Wikiversum

  • Denny Vrandečić

Ein Interview mit Denny Vrandečić

Mit Abstract Wikipedia entsteht ein neues, multilinguales Projekt im Wikiversum. Benutzer*innen sollen Wikipedia-Artikel sprachunabhängig erstellen und pflegen können. Das würde es allen ermöglichen, die Artikel in ihrer Landessprache zu lesen. Warum ist dieses Vorhaben so relevant?

Denny Vrandečić: Für die deutsche Community scheint das im ersten Moment nicht so wichtig zu sein, denn die deutsche Wikipedia ist sehr groß. Aber das Interessante ist: Die englische Wikipedia ist deutlich größer als die deutsche Wikipedia, jedoch kommt die Hälfte der deutschen Wikipedia gar nicht in der englischen vor. Es gibt also wenig inhaltliche Überschneidung. Gerade für die kleineren Wikipedien ist es natürlich schwer, eine umfassende Enzyklopädie anzubieten, weil sie schlichtweg nicht genug Beitragende haben. Das grundlegende Problem ist, dass wir derzeit versuchen, über 300 Sprachen zu unterstützen. Es gibt 20 Millionen Themen, die Wikipedia Artikel haben. Wenn wir diese tatsächlich in alle Sprachen übersetzen wollen würden, müssten wir sechs Milliarden Artikel schreiben. Derzeit haben wir aber gerade mal 50 Millionen Artikel.

Wie hilft Abstract Wikipedia da konkret?

Das Ziel ist, die sprachliche Dimension und die inhaltliche Dimension unabhängig voneinander zu erzeugen und zu verwalten. Die notwendige Arbeit, um die Inhalte zu schaffen und in der Zukunft auch zu warten, wird so um den Faktor 300 gesenkt. Das ist dann wieder eine Größenordnung, die wir als Wikipedia-Communitys durchaus erreichen können. Die Inhalte, die in den Wikipedien vorhanden sind, sollen so dargestellt werden, dass sie wieder in beliebig viele Sprachen übersetzt werden können. Diese so erstellten Texte stehen dann den Wikipedien zur Verfügung, wenn die Communitys das wollen. Das soll nichts ersetzen, sondern Lücken füllen, die derzeit bestehen. 

Warum reicht eine einfache Übersetzung nicht aus?

Gerade in den Sprachen, in denen Übersetzungsprogramme tatsächlich gebraucht werden, sind sie oft am schlechtesten. Das liegt daran, dass der Korpus, mit dem diese Programme trainiert werden, aus Texten in den häufig gesprochenen Sprachen besteht. Besonders bei Themen wie Gesundheit und der Covid-19-Pandemie, wo akkurate Informationen sehr wichtig sind, sind diese Übersetzungen schwierig. Da möchten wir unterstützen. Statt Übersetzungen verwenden wir Funktionen. Dafür stellen wir ein neues Wikimedia-Projekt vor, das Wikifunctions heißen wird. In diesem Projekt wollen wir dann Funktionen erstellen, die Texte in natürlicher Sprache generieren. 

Was ermöglichen solche Funktionen genau? 

Letztlich sind das Programme, die in verschiedenen Programmiersprachen geschrieben sein können und von einem Computer ausgeführt werden. Diese Programme werden wir in einem neuen Wiki vorhalten. Auch die großen Tech-Firmen bieten immer mehr Schnittstellen an, die uns Funktionen verwenden lassen. Wenn man Google Assistant, Siri oder Alexa nutzt, gibt es eine wachsende Anzahl an Fragen, die man stellen kann. Das sind auch Funktionen, aber sie werden von den Unternehmen angeboten. Es gibt ein Team in San Francisco oder Seattle, das diese Funktion erstellt und zur Verfügung stellt. Und damit sind wir ja genau in der gleichen Situation, in der wir vor 15 oder 20 Jahren noch mit Enzyklopädien waren. Eine Enzyklopädie ist eben das, was eine Firma anbietet. 

Was macht Wikifunctions da anders?

Wir wollen, dass sich jeder am Wissen beteiligen und Funktionen erstellen kann. Nur weil Siri einen bestimmten Skill hat, kann man ihn nicht in anderen Kontexten verwenden. Wir wollen mit Wikifunctions erreichen, dass die Funktionen breit verfügbar sind und von allen in jedem beliebigen Kontext verwendet werden können. Alle sollen sich daran beteiligen können, neue Funktionen zu erschaffen. Damit es mehr gibt als das, was die Leute bei Amazon oder Google oder Apple interessant finden. Um Inhalte in der abstrakten Wikipedia beizutragen, braucht man auch keine Fähigkeiten im Programmieren. Das ist uns sehr wichtig. 

Welche Rolle spielen Wikidata und die lexikografischen Daten?

Die sind ein wichtiger Bestandteil. Da wir abstrakte Sprache in Texte verwandeln, brauchen wir eine große Anzahl an lexikografischen Daten. Wir müssen wissen: Was ist der Plural von „Stadt“, wie macht man den, wie beugt man den in den Sätzen? All dieses Wissen steht ja jetzt schon in den lexikografischen Erweiterungen von Wikidata. Darauf müssen wir zugreifen können, das heißt, wir werden bestehende Projekte verwenden, um zusammen dann Inhalte in mehr Sprachen abbilden zu können. 

Funktioniert Sprache in allen Kulturen so, dass sich Texte aus Funktionen erstellen lassen? 

Tatsächlich war das in der Linguistik lange eine offene Frage. Die meisten Linguistinnen und Linguisten sind heute aber der Meinung, dass wir von jeder Sprache in eine beliebige andere Sprache übersetzen können. Es gibt diesen Mythos von den Inuit und ihren vierzig Wörtern für Schnee. Selbst wenn das stimmen sollte und es für all diese Schneearten eigene Wörter gibt, können diese in anderen Worten auch beschrieben werden. Und so etwas würde dann in einer Funktion wieder gehen. 

Können von diesem Projekt auch die Communitys aus nicht westlichen Kulturen profitieren? Besteht nicht die Gefahr, dass man nur die westlichen Gesellschaften erreicht? 

Wir wollen Menschen aus bislang weniger dokumentierten Kulturen die Möglichkeit geben, selbst Inhalte zu erstellen. Ich selbst habe in der kroatischen Wikipedia angefangen und wollte eigentlich über das Dorf meiner Mutter schreiben. Aber dann habe ich festgestellt, dass die kroatische Wikipedia noch keinen Artikel über Nigeria oder China hatte – und mich gefragt: Kann ich als Enzyklopädist unter diesen Voraussetzungen einen Text über ein Dorf mit 156 Einwohnerinnen und Einwohnern verfassen? Durch die abstrakte Wikipedia erlauben wir es den Menschen, über genau die Themen zu schreiben, zu denen sie einen einzigartigen Zugang und einzigartige Quellen haben. So kann jede und jeder eine einzigartige Perspektive beitragen. Und wir können tatsächlich das Wissen der Welt bereichern. 

Weitere Infos:

Denny Vrandečić

Vrandečić befasst sich mit Wissensdatenbanken, Data Mining, massiver webbasierter Kollaboration und dem Semantischen Web. Von 2012 bis 2013 war er Projektleiter für Wikidata bei Wikimedia Deutschland. Er ist Ko-Entwickler der Semantic MediaWiki (SMW), die auch die Inspiration für Wikidata war, und einer der Gründer und Administratoren in der kroatischen Wikipedia.

Große Erkenntnisse – große Illusionen?

  • Aline Blankertz

Welche Strategien wir für eine gemeinwohlorientierte Datenpolitik brauchen

Ein Essay von Aline Blankertz

Daten sind ein immer wichtigerer Input- und Erfolgsfaktor für viele Bereiche, von Online-Plattformen über die Industrie bis zum vernetzten Zuhause. Unternehmen und Regierungen sammeln immer mehr solcher Beobachtungen über die Welt und füttern mit ihnen eine Vielzahl von Modellen, die neue Einsichten generieren sollen. Mit der steigenden Bedeutung von Daten wächst die Relevanz einer guten Datenpolitik, die die Rahmenbedingungen für eine gesellschaftlich wünschenswerte Datenerhebung und -nutzung setzt.

Um mit Daten das Gemeinwohl zu befördern, gehören zwei Elemente ganz oben auf die Agenda: Erstens ist eine breitere Öffnung von Daten so auszugestalten, dass sie nicht nur als Wirtschaftsgut genutzt werden, sondern auch, um mehr Transparenz über gesellschaftlich wichtige Prozesse zu schaffen. Zweitens bedarf es systematischer Absicherung vor Missbrauch von Daten, insbesondere in Form von Profilbildung.

Daten im Interesse des Gemeinwohls öffnen

Daten liegen zu einem großen Teil in der Kontrolle von einigen wenigen Unternehmen, die aus ihnen Wert schöpfen können. Bei Daten in öffentlicher Hand ist hingegen oft fraglich, ob Behörden sie überhaupt in ausreichendem Maße nutzen. Datenstrategien auf der ganzen Welt zielen deswegen darauf ab, nicht nur mehr Daten zu sammeln, sondern auch bestehende Daten breiter zugänglich zu machen. Hierfür gibt es eine Vielzahl an Instrumenten. Darunter der kartellrechtliche Zugang zu besonders wettbewerbsrelevanten Daten, die Öffnung von Verwaltungsdaten sowie die stärkere Ermächtigung von Individuen, personenbezogene Daten zu teilen, z. B. durch ein gestärktes Recht auf Datenportabilität und Datenspenden.

Als Ziel eines breiteren Zugangs zu Daten nennen Regierungen meist wirtschaftliches Wachstum, beispielsweise durch mehr Daten für Start-ups, oder zum Trainieren von Maschinenlernprogrammen*. Das ist zwar legitim, doch Datenpolitik primär als Wirtschaftspolitik zu verstehen, heißt, das gesellschaftliche Potenzial von Daten zu verkennen.

Daten für mehr Licht im Dunkel von gesellschaftlich relevanten Entscheidungen

Zugang zu Daten kann mehr Transparenz in Bereichen schaffen, die sonst eher unter Ausschluss der Öffentlichkeit ablaufen: Seien es (wenn auch rein menschlich gefällte) Personalentscheidungen in öffentlichen oder privaten Organisationen oder Klickdaten von großen Plattformen. In diesen und vielen weiteren Fällen ist mehr Transparenz wertvoll für eine demokratische Kontrolle gesellschaftlich relevanter Abläufe. Diskriminierende Entscheidungen in der Personalführung aufzudecken, kann nicht nur zu mehr wirtschaftlicher Effizienz, sondern vor allem auch zu mehr Gerechtigkeit führen. Wie die Seitengestaltung von Online-Plattformen deren Nutzende lenkt, ist nicht nur aus wettbewerblicher, sondern auch aus demokratischer Perspektive relevant, insbesondere im Zusammenhang mit politischen Inhalten.

A_pile_of_straw_after_extracting_grains

Lizenzhinweis

A_pile_of_straw_after_extracting_grains

Für mehr Transparenz müssen nicht – und sollten auch nicht allen alle Daten verfügbar sein. Oft reichen geschickt aggregierte, verschlüsselte oder solche Daten aus, die nur für bestimmte Zielgruppen wie autorisierte Forschende oder zivilgesellschaftliche Organisationen zugänglich sind, um eine Kontrollfunktion auszuüben. Doch unabhängig davon, wer die Daten nutzt, ist es wichtig, die damit verbundenen Risiken gering zu halten.

Datenbasierten Missbrauch verhindern

Bei jeder Sammlung, Nutzung und Öffnung von Daten gibt es gesellschaftliche Risiken, meist für diejenigen, von denen die Daten handeln. Die europäische Datenschutzgrundverordnung – die viele, aber nicht alle dieser Risiken abdeckt –, schützt dementsprechend nicht die Daten, sondern die Datensubjekte. Sie können anhand schlecht geschützter Daten identifiziert, diskriminiert oder ihrer Privatsphäre beraubt werden. Solcher Missbrauch ist sogar unabsichtlich möglich – beispielsweise, wenn ein Algorithmus menschliche Diskriminierung in Trainingsdaten fortschreibt. Bei jeder Datenverwendung bedarf es einer Analyse der möglichen Risiken sowie Maßnahmen, um die Daten dagegen abzusichern.

Missbrauch kann auch vorliegen, wenn der gesellschaftliche Schaden von bestimmten Daten ihren Nutzen überwiegt. Das wird bei dem Datennutzungsmodell deutlich, mit dem sich viele Online-Plattformen finanzieren: Die umfassende Verfolgung von Individuen über Webseiten, Apps und Geräte hinweg sowie die darauf aufbauende Profilbildung hat hohe gesellschaftliche Kosten zur Folge – in Form der verletzten Privatsphäre. Darauf nehmen die Plattformen keine Rücksicht, wenn sie diese Profildaten nutzen, um Werbung passgenauer zuzuschneiden und sich den so geschaffenen Wert als Gewinn anzueignen.

Dementsprechend sollte Datenpolitik diese Risiken systematisch eindämmen, während sie neben wirtschaftlichem Wachstum auch Transparenz über gesellschaftliche Prozesse ermöglicht. Dann können Daten einen echten Mehrwert für die Gesellschaft schaffen.

*Maschinelles Lernen:

Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen ein statistisches Modell auf, das auf Trainingsdaten beruht.

[Quelle: Wikipedia]

Aline Blankertz

Aline Blankertz leitet das Projekt „Datenökonomie“ der Stiftung Neue Verantwortung, das ökonomische, technische und gesellschaftliche Fragestellungen untersucht, um innovative datenpolitische Handlungsempfehlungen zu entwickeln. Vor der Stiftung Neue Verantwortung leitete sie bei der wirtschaftswissenschaftlichen Beratung Oxera Analysen zur Plattformökonomie, Datenschutz, Algorithmen.