Von Datenqualität und Wikidata
Was bedeutet für dich “gute Datenqualität”, was bedeutet es für Wikidata?
In den vergangenen Jahren hat Wikidata immer mehr an Bedeutung gewonnen als die Quelle für maschinenlesbare Grundlagendaten. Zum Beispiel, wenn es um Hauptstädte geht, um die Lebensdaten berühmter Persönlichkeiten, das Veröffentlichungsdatum eines Films – aber auch um Beziehungen zwischen Konzepten, etwa: „Das Einhorn ist eine mythische Kreatur”. Viele Organisationen nutzen Daten aus Wikidata, um ihren Nutzerinnen und Nutzern Informationen und Wissen zu vermitteln und ihre Produkte zu verbessern.
Mit dieser wachsenden Bedeutung steigt auch die Verantwortung, korrekte und verlässliche Daten zur Verfügung zu stellen. Datenqualität in Wikidata hat viele Aspekte. Besonders wichtig sind Genauigkeit (sind die Daten frei von Fehlern?), Objektivität (sind die Daten unvoreingenommen?), Reputation (haben die Daten vertrauenswürdige Referenzen?) und Konsistenz (sind die Daten konsistent modelliert?). Nur wenn diese Kriterien erfüllt sind, kann Wikidata eine gute Datenquelle für Wikipedia und andere Projekte innerhalb und außerhalb des Wikimedia-Kosmos sein.
Was unterscheidet Wikidata von anderen Wissensdatenbanken wenn es um Qualität geht?
Im Gegensatz zu anderen Wissensdatenbanken versuchen wir bei Wikidata die Welt mit ihrer Komplexität genauer abzubilden.
„Die Qualitätsarbeit in Wikidata ist vor allem deshalb so spannend weil es ein offenes Projekt ist, an dem sich alle beteiligen können und das sehr flexibel ist.“
Lydia Pintscher
In Wikidata ist es zum Beispiel möglich, verschiedene Sichtweisen nebeneinander zu stellen – natürlich mit Referenzen. Das ermöglicht es zum Beispiel, verschiedene Seiten eines Disputs festzuhalten und sichtbar zu machen, statt so zu tun, als würde es diesen Disput nicht geben. Oder, wie es leider oft geschieht, nur eine Sichtweise zuzulassen – je nachdem, wen man sich mit den Daten gewogen machen möchte. Außerdem ist es möglich, in Wikidata überholte, aber nach wie vor weit verbreitete Daten zu speichern und sie als veraltet zu markieren – um zu vermeiden, dass sie weiter als korrekt angesehen werden.
Was wird unternommen, um die Qualität der Daten zu verbessern?
Momentan arbeiten wir zum Beispiel an einem tool namens Query Builder. Das ist ein Werkzeug, das es uns unter anderem erleichtert, Daten zu finden, an denen noch gearbeitet werden muss. Editierende können damit etwa eine Liste von Menschen erstellen, die angeblich verstorben sind, bevor sie geboren wurden – oder sich eine Karte aller Städte in Deutschland anzeigen lassen, um eventuell Städte zu identifizieren, deren Koordinaten fälschlicherweise außerhalb von Deutschland liegen. Ein anderes Werkzeug, das wir entwickelt haben und das von den Editierenden weitläufig genutzt wird, sind die Constraint Checks.
Damit lassen sich Regeln für die Daten in Wikidata definieren. Alle Daten werden dann gegen diese Regeln getestet und eventuell gefundene Regelverletzungen werden den Editierenden angezeigt, damit sie sie beheben oder als Ausnahme markieren können. So sollten etwa Ehepartnerinnen und -partner von Menschen auch wieder Menschen sein. Wobei es natürlich Fälle wie den einer Frau gibt, die den Eiffelturm geheiratet hat! Aber das wäre dann eben die zu kennzeichnende Ausnahme.
„Wenn man heute dem digitalen persönlichen Assistenten auf dem Smartphone eine Wissensfrage stellt, ist es nicht unwahrscheinlich, dass die Antwort auf Daten in Wikidata beruht.“
Lydia Pintscher
Wie kann die Community sich einbringen?
Die Qualitätsarbeit in Wikidata ist vor allem deshalb so spannend weil es ein offenes Projekt ist, an dem sich alle beteiligen können und das sehr flexibel ist. Diese Offenheit ist auf den ersten Blick eine Schwäche. Jede und jeder kann ja kommen und ungeprüft eintragen, was sie oder er will. Aber gleichzeitig ist sie auch eine große Stärke. Denn genau so bietet Wikidata allen die Möglichkeit, gute Daten einzubringen, oder einen Fehler zu berichtigen. Die Kunst besteht darin, die Offenheit des Projektes zu erhalten und gleichzeitig Fehler und Vandalismus zu vermeiden. Die Editierenden, mein Team und ich arbeiten jeden Tag daran, die besten Lösungen dafür zu finden.
Wie profitiert die Welt außerhalb von Wikidata von besserer Datenqualität?
Die Daten in Wikidata werden natürlich nicht nur zum Selbstzweck gesammelt und gepflegt. Wir alle tun das, um eine gute Datengrundlage für Wikipedia, die anderen Wikimedia-Projekte sowie viele andere Unternehmungen und Organisationen außerhalb von Wikimedia zu schaffen. Da unser Leben mehr und mehr von Technologie abhängt, ist es wichtig, dass diese Technologie hochqualitative Daten als Grundlage hat. Wenn man heute dem digitalen persönlichen Assistenten auf dem Smartphone eine Wissensfrage stellt, ist es nicht unwahrscheinlich, dass die Antwort auf Daten in Wikidata beruht. Es ist wichtig, dass diese Antworten korrekt sind. Und es ist wichtig, dass die Datengrundlage für alle offen zur Verfügung steht und jede und jeder dazu beitragen kann. Nur so können wir echte Teilhabe auch in Zukunft sichern.
Was würdest du dir wünschen um die Datenqualität in Wikidata auch langfristig sicherzustellen?
Ich würde mir wünschen, dass viele der Projekte und Organisationen, die Daten von Wikidata in ihren Produkten nutzen, dies auch klar angeben. Das würde Transparenz für die Nutzerinnen und Nutzer dieser Produkte schaffen und sicherstellen, dass sie in die Lage versetzt werden, Daten zu ergänzen und etwaige Fehler zu beheben.