{"id":11,"date":"2020-05-18T14:16:22","date_gmt":"2020-05-18T12:16:22","guid":{"rendered":"https:\/\/stage.wikimedia.de\/2020\/?post_type=themen&#038;p=11"},"modified":"2021-06-18T15:54:34","modified_gmt":"2021-06-18T13:54:34","slug":"wikidata-und-das-projekt-qurator","status":"publish","type":"themen","link":"https:\/\/www.wikimedia.de\/2020\/themen\/wikidata-und-das-projekt-qurator\/","title":{"rendered":"Wikidata, K\u00fcnstliche Intelligenz und das Projekt Qurator"},"content":{"rendered":"<div class=\"block-success-number\">\n    <div class=\"callout base-green-bg\" style=\"transform: rotate(20deg);\">\n        <div class=\"content\">\n            <!-- wp:heading {\"level\":3} -->\n<h3>\u00dcber 90 Millionen Datenobjekte (Items) finden sich derzeit in Wikidata (Stand: Mai 2021).<\/h3>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p><\/p>\n<!-- \/wp:paragraph -->        <\/div>\n    <\/div>\n<\/div>\n\n\n\n<div style=\"height:100px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p class=\"has-medium-font-size\"><strong>Im Projekt QURATOR arbeiten zehn Partner* daran, Kuratierungstechniken durch Automatisierung hochwertiger und effizienter zu gestalten. Kuratieren, das bedeutet im Duktus von IT-Experten alles, was mit der Verarbeitung von Daten und Wissen zu tun hat. Das Suchen, Ausw\u00e4hlen und Zusammenfassen von Informationen hat direkten Einfluss auf die Technologien die wir t\u00e4glich nutzen.<\/strong> <strong>Zum Einsatz kommt dabei auch der Wissensspeicher Wikidata. Prof. Georg Rehm, wissenschaftlich-technischer Koordinator im Projekt QURATOR sowie Forscher am Deutschen Forschungszentrum f\u00fcr K\u00fcnstliche Intelligenz (DFKI), und Lydia Pintscher, Produktmanagerin von Wikidata, erkl\u00e4ren die Hintergr\u00fcnde.<\/strong><\/p>\n\n\n\n<p><strong><em>Herr Rehm, woran arbeiten Sie am Speech and Language Technology Lab des DFKI?<\/em><\/strong><\/p>\n\n\n\n<p>REHM: Bei uns dreht sich alles um das Thema Sprache. Die meisten Projekte befassen sich mit Textanalytik: Wie l\u00e4sst sich aus Texten, Dokumenten, Tweets oder wissenschaftlichen Papieren bestimmtes Wissen extrahieren? Wir versuchen zum Beispiel, Nennungen von Personennamen, Organisationsnamen, oder Ereignisnamen zu finden und abzubilden auf externe Wissensbasen. Eine davon ist Wikidata. Andere Projekte besch\u00e4ftigen sich mit Textklassifikation, mit Hate Speech Detection, Fake News Detection und auch mit maschineller \u00dcbersetzung.<\/p>\n\n\n\n<p><strong><em>Frau Pintscher, welche Rolle hat Wikidata im Projekt QURATOR?<\/em><\/strong><\/p>\n\n\n\n<p>PINTSCHER: Momentan beschreibt Wikidata als Wikimedias Wissensdatenbank knapp 100 Millionen Entit\u00e4ten \u2013 und rund 13.000 aktive Editor* k\u00fcmmern sich aktuell um diese Daten. Es ist eine Menge Arbeit, sie zu pflegen, anzureichern, Verkn\u00fcpfungen zwischen ihnen herzustellen. Da Wikidata mittlerweile ein grundlegender Baustein vieler Technologien ist, die tagt\u00e4glich Anwendung finden, sind wir in der Bringschuld, die Datenqualit\u00e4t hochzuhalten. Darauf haben wir uns als Teil des QURATOR-Projekts konzentriert. Es geht einerseits darum, den Editierenden bessere Werkzeuge zur Verf\u00fcgung zu stellen, mit denen sie Probleme in den Daten identifizieren und beheben k\u00f6nnen. Und andererseits wollen wir die Daten zug\u00e4nglicher machen, damit Organisationen wie das DFKI und andere Einrichtungen darauf aufbauen, neue Apps entwickeln oder Forschung betreiben k\u00f6nnen.<\/p>\n\n\n\n<p><strong><em>Was ist das Besondere an dieser Kooperation aus Ihrer jeweiligen Perspektive? Was war die Motivation, mit den unterschiedlichen Partnern zusammenzuarbeiten?<\/em><\/strong><\/p>\n\n\n\n<p>PINTSCHER: Das Projekt erm\u00f6glicht es uns, mit Organisationen im Konsortium zusammen zu arbeiten, mit denen wir ansonsten nicht, oder nicht so intensiv in Kontakt gekommen w\u00e4ren. Wir lernen dabei viel voneinander. Die Expertise, die das DFKI rund um das Thema Machine-Learning hat, gibt wertvolle Anst\u00f6\u00dfe. Eine konkrete Herausforderung ist f\u00fcr uns zum Beispiel die Frage, wie wir mit Tendenzen und L\u00fccken in Wikidata umgehen: Daten, die wir nicht haben, oder Daten, die bestimmte L\u00e4nder oder Personen anders beschreiben als andere. Dieses Problem betrifft nicht nur Wikidata, sondern das Machine-Learning \u00fcberhaupt. Hier war und ist der Austausch hilfreich.<\/p>\n\n\n\n<p>REHM: Wir hatten ein Vorg\u00e4ngerprojekt, das hie\u00df \u201eDigitale Kuratierungstechnologien\u201c. Beim digitalen Kuratieren steht f\u00fcr uns die Frage im Fokus: Welche Technologien k\u00f6nnen dabei helfen? Ein Beispiel, an dem sich das veranschaulichen l\u00e4sst, ist die Arbeit von Journalistinnen und Journalisten, die Artikel oder Hashtags zu einem bestimmten Thema beobachten m\u00fcssen \u2013 und geflutet werden mit eingehendem Content, mit Facebook-Posts, Telegram, Instagram, den \u00fcblichen Nachrichtentickern, die man dabei nat\u00fcrlich alle auf dem Schirm behalten muss. Lassen sich also Technologien entwickeln, um die journalistische Arbeit zu erleichtern? K\u00f6nnen wir einen smarten Editor bauen, der \u2013 basierend auf dem aktuellen Sachstand der Journalistin oder des Journalisten \u2013 Posts identifiziert, die \u00fcberraschende Neuigkeiten enthalten k\u00f6nnte? Daf\u00fcr versuchen wir L\u00f6sungen zu finden. Wikidata ist ein wichtiger Datenpartner in diesem Projekt. Wir wollen dabei auch gemeinsam untersuchen, ob es Dellen, Plateaus oder Peaks in der Datensammlung gibt oder unerw\u00fcnschten Bias, also eine Verzerrung.&nbsp; Diese Themen werden immer wichtiger, um Objektivit\u00e4t und Neutralit\u00e4t zu gew\u00e4hrleisten.<\/p>\n\n\n\n<p><strong><em>K\u00f6nnten Sie das Problem Bias an einem Beispiel beschreiben?<\/em><\/strong><\/p>\n\n\n\n<p>REHM: Um ein Negativbeispiel zu nennen: Es gab einen Chatbot, entwickelt von einer amerikanischen IT-Firma, der quasi automatisch getwittert hat. Dieser Bot wurde nach sehr kurzer Zeit wieder abgeschaltet, weil leider niemand darauf geachtet hat, mit welchen Daten er trainiert wurde \u2013 darunter waren auch rechtsradikale Inhalte. F\u00fcr das Zusammenstellen dieser Trainingsdaten wurde sogenanntes Webcrawling betrieben, d.h. es wurden automatisch Millionen von Webdokumenten eingesammelt. Und im Betrieb fing der Chatbot dann pl\u00f6tzlich an, rechtsradikale Begriffe zu benutzen. Diese Inhalte waren Teil der Trainingsdaten und haben quasi das Sprachmodell des Chatbots beeinflusst, ihn also radikalisiert. Das ist ein Bias, den man nicht haben m\u00f6chte.<\/p>\n\n\n\n<p>PINTSCHER: Wir haben in Wikipedia das Paradebeispiel des Gender-Bias, also der Unterrepr\u00e4sentanz von Frauen. Einerseits wird die Bev\u00f6lkerung nicht widergespiegelt. Und gleichzeitig verweist dieses Problem auch auf die Vergangenheit: Welche Frauen hatten denn \u00fcberhaupt die M\u00f6glichkeit, B\u00fccher zu ver\u00f6ffentlichen, wissenschaftliche Arbeit zu betreiben, um an den Punkt zu gelangen, an dem sie f\u00fcr Wikipedia relevant werden? Das waren leider keine parit\u00e4tischen Verh\u00e4ltnisse.<\/p>\n\n\n\n<p><strong><em>Herr Rehm, wie genau verfahren Sie mit Wikidata?<\/em><\/strong><\/p>\n\n\n\n<p>REHM: In Wikidata findet sich eine riesige Menge von strukturierten Informationen, die zudem auch noch miteinander verkn\u00fcpft sind, die inh\u00e4rent Wissen enthalten, z.B. \u00fcber Oberklassen, Auspr\u00e4gungen, Properties. Ein Beispiel: John F. Kennedy. In maschinenlesbarer Form liegt die Information vor, dass JFK ein Mensch ist. Alle Menschen haben ein Geburtsdatum, die bereits Gestorbenen zudem ein Sterbedatum, ferner liegen Informationen zu den Todesumst\u00e4nden vor.<\/p>\n\n\n\n<p>All diese Informationen k\u00f6nnen wir nutzen, um weitere Verarbeitungsschritte durchzuf\u00fchren. Wenn ich mit einem Named Entity Recognizer eine Zeichenkette wie \u201eJFK\u201c erfolgreich auf ein entsprechendes Wikidata-Item abbilden kann, dann habe ich zugleich Zugriff auf das Geburtsdatum, ggf. das Todesdatum und evtl. den Ort, wo die Person gestorben ist. Damit lassen sich viele weitere smarte Verarbeitungsschritte aktivieren und Anwendungen realisieren, z.B. im Bereich der geopolitischen oder soziologischen Analysen sowie auch im Bereich der digitalen Geisteswissenschaften (Digital Humanities), wo Wikidata eine immer popul\u00e4rer werdende Sammlung von Forschungsdaten darstellt. \u00dcber Wikidata k\u00f6nnen wir sogar auf noch weitere Wissensquellen zugreifen, um noch mehr Querbez\u00fcge herzustellen. Dieser Ansatz, der auch als Linked Data bezeichnet wird, ist sehr m\u00e4chtig.<\/p>\n\n\n\n<p><strong><em>Frau Pintscher, wie hat sich Wikidata im Rahmen von QURATOR weiterentwickeln k\u00f6nnen?<\/em><\/strong><\/p>\n\n\n\n<p>PINTSCHER: Unter anderem haben wir uns mit sogenannten Schemas besch\u00e4ftigt. Wikidata macht es relativ einfach, die Welt in ihrer Komplexit\u00e4t zu beschreiben. Dem entgegen steht der Versuch, in diese Komplexit\u00e4t Struktur zu bringen. Wir haben Werkzeuge entwickelt, die es den Editierenden erm\u00f6glichen, Stellen in Wikidata zu finden, bei denen entweder ein Fehler, oder eine Ausnahme vorliegt. Es gibt das ber\u00fchmte Beispiel einer Frau, die den Eiffelturm geheiratet hat. Die Eingabe solcher Daten wollen wir nat\u00fcrlich nicht verhindern. Die Editierenden geben ein, was sie wollen \u2013 und k\u00f6nnen dann mit Hilfe von Schemas die Konsistenz der Daten automatisiert pr\u00fcfen. Das gleiche gilt f\u00fcr Kuriosit\u00e4ten: zum Beispiel Haustiere, die Diplome bekommen. Um solche automatisiert zu finden, haben wir ebenfalls ein Werkzeug entwickelt.<\/p>\n\n\n\n<p><strong><em>Wie f\u00e4llt aus Sicht des DFKI die Bilanz der Zusammenarbeit aus?<\/em><\/strong><\/p>\n\n\n\n<p>REHM: Das klingt beinahe so, als sei das Projekt schon zu Ende, aber wir haben im Projekt QURATOR ja noch mehr als ein halbes Jahr vor uns und wollen noch vieles gemeinsam realisieren. Ich hoffe, dass sich aus Diskussionen wie der wichtigen Debatte \u00fcber Bias interessante Forschungsarbeiten entwickeln. Ferner ist unser Ziel, der Wikidata-Community zu helfen, die Ressource besser zu nutzen, intuitiver zug\u00e4nglich zu machen, Qualit\u00e4t zu messen, transparenter zu agieren. Ich freue mich auf die weitere Zusammenarbeit, fand die bisherige schon sehr gut und hoffe zudem auch, dass wir Folgeprojekte gemeinsam bearbeiten k\u00f6nnen.<\/p>\n\n\n\n<p><strong><em>Das Gespr\u00e4ch f\u00fchrte Elisabeth Giesemann, Text: Patrick Wildermann<\/em><\/strong>.<\/p>\n\n\n\n<p>* Beteiligt an QURATOR sind: 3pc GmbH Neue Kommunikation, Ada Health GmbH, ART+COM AG, Condat AG, Deutsches Forschungszentrum f\u00fcr K\u00fcnstliche Intelligenz GmbH (DFKI), Fraunhofer Gesellschaft \u2013 Fraunhofer Institut f\u00fcr offene Kommunikationsdienste, Semtation GmbH, Stiftung Preu\u00dfischer Kulturbesitz\/Staatsbibliothek zu Berlin, Ubermetrics Technologies GmbH und Wikimedia Deutschland e. V.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Im Projekt QURATOR arbeiten zehn Partner* daran, Kuratierungstechniken durch Automatisierung hochwertiger und effizienter zu gestalten. Kuratieren, das bedeutet im Duktus von IT-Experten alles, was mit der Verarbeitung von Daten und Wissen zu tun hat. Das Suchen, Ausw\u00e4hlen und Zusammenfassen von Informationen hat direkten Einfluss auf die Technologien die wir t\u00e4glich nutzen. Zum Einsatz kommt dabei [&hellip;]<\/p>\n","protected":false},"featured_media":680,"template":"","categories":[2],"class_list":["post-11","themen","type-themen","status-publish","has-post-thumbnail","hentry","category-technologie"],"acf":[],"lang":"de","translations":{"de":11,"en":360},"pll_sync_post":[],"_links":{"self":[{"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/themen\/11","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/themen"}],"about":[{"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/types\/themen"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/media\/680"}],"wp:attachment":[{"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/media?parent=11"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.wikimedia.de\/2020\/wp-json\/wp\/v2\/categories?post=11"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}