Von Datenqualität und Wikidata
Ein Interview mit Lydia Pintscher
Was bedeutet für dich „gute Datenqualität“, was bedeutet es für Wikidata?
Gute Datenqualität in Wikidata ist für mich essenziell. Datenqualität in Wikidata hat viele verschiedene Aspekte. Besonders wichtig sind für uns die Aspekte Genauigkeit (Sind die Daten wahr und frei von Fehlern?), Objektivität (Sind die Daten unvoreingenommen?), Reputation (Haben die Daten vertrauenswürdige Referenzen?) und Konsistenz (Sind die Daten konsistent modelliert?). Nur wenn diese Aspekte der Datenqualität gut sind, ist Wikidata in der Lage eine gute Datenquelle für Wikipedia, die anderen Wikimedia Projekte und viele andere Projekte außerhalb von Wikimedia zu sein.
In den letzten Jahren hat Wikidata immer mehr an Bedeutung gewonnen als die Quelle für maschinenlesbare Grundlagendaten (z.B. Hauptstädte, Lebensdaten berühmter Persönlichkeiten, Veröffentlichungsdatum eines Films, etc.) und Beziehungen zwischen wichtigen Konzepten (z.B. „Einhorn ist eine mythische Kreatur“). Viele kleine, mittlere und große Organisationen nutzen Daten aus Wikidata um ihren Nutzern Information und Wissen zu vermitteln und ihre Produkte zu verbessern.Das sicherzustellen ist eine Aufgabe der sich die Editoren auf Wikidata und das Entwicklungsteam bei Wikimedia Deutschland verschrieben haben.
Was unterscheidet Wikidata von anderen Wissensdatenbanken wenn es um Qualität geht?
Im Gegensatz zu anderen Wissensdatenbanken versuchen wir bei Wikidata die Welt mit ihrer Komplexität genauer abzubilden.
In Wikidata ist es zum Beispiel möglich verschiedene Sichtweisen nebeneinander stehen zu haben, natürlich mit Referenzen.
Lydia Pintscher
Dies ermöglicht es verschiedene Seiten eines territorialen Disputs festzuhalten und explizit anzugeben, statt so zu tun als würde es diesen Disput nicht geben und (wie es leider zu oft geschieht) nur eine Seite anzugeben, je nachdem wen man mit den Daten gut stimmen will. Auch ist es möglich in Wikidata überholte, aber weit verbreitete Daten zu speichern und diese also solche zu markieren um zu vermeiden, dass sie weiter als wahr angesehen werden.

Was macht die Community bzw. Wikimedia, um diese zu verbessern?
Die Editoren auf Wikidata und das Entwicklerteam bei Wikimedia Deutschland arbeiten tagtäglich daran die Qualität der Daten in Wikidata zu sichern und zu verbessern. Das Entwicklerteam konzentriert sich dabei darauf Werkzeuge zu entwickeln, die den Editoren die eigentliche Qualitätsarbeit erleichtern.
Gerade arbeiten wir zum Beispiel am Query Builder. Das ist ein Werkzeug, das es leichter macht Abfragen zu schreiben. Damit wird es einfacher Daten zu finden an denen noch gearbeitet werden muss. Editoren können damit zum Beispiel eine Liste erstellen von Menschen, die angeblich verstorben sind bevor sie geboren wurden oder sich eine Karte aller Städte in Deutschland anzeigen lassen, um dann eventuell Städte zu finden deren Koordinaten fälschlicherweise außerhalb von Deutschland liegen.
Ein anderes Werkzeug, das wir entwickelt haben und das von den Editoren weitläufig genutzt wird, sind die Constraint Checks. Die Editoren können hiermit Regeln anlegen für die Daten in Wikidata. Alle Daten werden dann gegen diese Regeln getestet und eventuell gefundene Regelverletzungen werden den Editoren angezeigt um sie zu beheben oder als Ausnahme zu markieren. So sollten etwa Ehepartner von Menschen auch wieder Menschen sein. (Aber dann ist da die Frau die den Eiffelturm geheiratet hat! 😱) Mithilfe dieser Constraint Checks fallen Unstimmigkeiten in den Daten schnell auf und können so einfacher von den Editoren behoben werden.
Die Qualitätsarbeit in Wikidata ist vor allem so spannend, weil Wikidata ein offenes Projekt ist, in dem jeder mitmachen kann und das sehr flexibel ist. Diese Offenheit ist auf den ersten Blick eine Schwäche. Jeder kann ja kommen und eintragen was er will. Aber gleichzeitig ist es auch eine große Stärke. Jeder kann ja kommen und gute Daten eintragen oder einen Fehler berichtigen.
Die Kunst besteht darin die Offenheit des Projektes zu erhalten und gleichzeitig Fehler und Vandalismus zu vermeiden.
Lydia Pintscher
Die Editoren und mein Team und ich arbeiten jeden Tag daran die besten Lösungen dafür zu finden.
Wie profitiert die Welt außerhalb von Wikidata von besserer Datenqualität?
Die Daten in Wikidata werden natürlich nicht nur zum Selbstzweck gesammelt und gepflegt. Wir alle tun das, um eine gute Datengrundlage für Wikipedia, die anderen Wikimedia Projekte und viele andere Projekte und Organisationen außerhalb von Wikimedia zu schaffen. Da unser Leben mehr und mehr mit Technologie verknüpft ist, ist es wichtig, dass diese Technologie hochqualitative Daten als Grundlage hat. Wenn du heute dem digitalen persönlichen Assistenten auf deinem Handy eine Wissensfrage stellst, ist es nicht unwahrscheinlich, dass die Antwort auf Daten in Wikidata beruht. Es ist wichtig, dass diese Antworten korrekt sind. Und es ist wichtig, dass die Datengrundlage für jeden offen zur Verfügung steht und jeder dazu beitragen kann. Nur so können wir wahre Teilhabe auch in Zukunft sichern.
Was würdest du dir wünschen um die Datenqualität in Wikidata auch langfristig sicherzustellen?
Ich würde mir wünschen, dass viele der Projekte und Organisationen, die Daten von Wikidata in ihren Produkten nutzen, dies auch klar angeben. Dies würde Transparenz für die Nutzer dieser Produkte schaffen und sicherstellen, dass die Nutzer in die Lage versetzt werden, Daten zu ergänzen und etwaige Fehler zu beheben.