Zum Inhalt überspringen
Zum Inhalt überspringen

01.10.2025

Für zuverlässigere generative KIs: Das Wikidata Embedding-Projekt unterstützt Alternativen zu Big Tech

Berlin, 1. Oktober 2025 – Wikimedia Deutschland veröffentlicht mit dem Embedding-Projekt eine Vektordatenbank für Wikidata, die ab jetzt für alle frei zugänglich ist. Das Projekt ist ein Meilenstein: Zum ersten Mal lassen sich die offenen Daten aus Wikidata unmittelbar für die Entwicklung generativer KI-Anwendungen nutzen. Die neue Technologie eröffnet Entwickler*innen weltweit Möglichkeiten, Large-Language-Modelle (LLMs) transparenter, verlässlicher und gerechter zu gestalten – und damit Gegengewichte zu den Angeboten großer Tech-Konzerne zu schaffen.

Der Zugang zur Vektordatenbank ist unter https://wd-vectordb.toolforge.org/ möglich.

Lydia Pintscher Portraitbild
Foto: VGrigas, Lydia Pintscher, CC BY-SA, 3.0
Wir wollen eine Infrastruktur schaffen, die es allen ermöglicht, generative KI-Anwendungen zu entwickeln, die auf überprüfbaren, freien und offenen Daten basieren. Das ist ein wichtiger Schritt zu einer digitalen Welt, in der Technologien zum Wohl der Gesellschaft keine Randnotiz sind, sondern Standard.
Lydia Pintscher, Wikidata Portfolio Lead bei Wikimedia Deutschland

Entwickler*innen, die erfahren wollen, wie sie die Vektordatenbank nutzen können, sind herzlich zum kostenlosen Embedding-Projekt Webinar am 9. Oktober eingeladen. Neben praktischen Tipps werden auch viele Anwendungsbeispiele vorgestellt.

So werden die Daten für KI-Entwicklung nutzbar

Wikidata ist der größte offene Wissensgraph der Welt, dessen Daten von allen frei genutzt werden können. Er enthält aktuell rund 119 Millionen Einträge und wird von rund 24.000 Freiwilligen pro Monat weltweit erweitert. Wikidata enthält unter anderem strukturierte Daten aus Wikimedia-Projekten wie Wikipedia, Wikivoyage oder Wikisource.

Während die strukturierten Daten in Wikidata von Maschinen leicht verarbeitet werden können, gilt das nicht für aktuelle generative KI-Systeme, da sie für natürliche Sprache konzipiert wurden – also für normale Alltagssprache, wie Menschen sie verwenden.

Das Wikidata Embedding-Projekt übersetzt Wikidatas Aussagen in Vektoren. Dadurch können generative KI-Modelle die Inhalte von Wikidata semantisch korrekter interpretieren und in natürlicher Sprache verarbeiten. Zusätzlich unterstützt das Projekt das Model Context Protocol (MCP), ein Framework, das als Brücke zwischen KI und Datenbank funktioniert und Entwickler*innen die Arbeit erleichtert. Damit wird der Einsatz des Wikidata-Wissensgraphen in generativen KI-Anwendungen noch unkomplizierter.

Was macht die Wikidata-Vektordatenbank besonders?

  • Direkter Anschluss für generative KI-Modelle: Mithilfe der Vektordatenbank können LLMs durch RAG (Retrieval Augmented Generation) direkt auf verlässliche Daten aus Wikidata zugreifen. RAG verbessert die Qualität von generativen KIs, indem es externe Wissensquellen wie etwa die Wikidata-Vektordatenbank nutzt, um aktuelle Antworten zu finden – anstatt sich nur auf unstrukturierte Trainingsdaten zu verlassen.
  • In vielen Sprachen nutzbar: Die Vektordatenbank unterstützt Suchanfragen in Englisch, Französisch und Arabisch. Bis Ende des Jahres soll die Unterstützung für Spanisch und Mandarin ausgebaut werden. Weitere Sprachen sollen folgen.
  • Breiter Abfrageumfang: ​​Natürliche Sprache wird verarbeitet durch Vektorsuche (mathematische Vergleiche, um Beziehungen zwischen Elementen zu identifizieren), was eine Recherche von Beispielen oder die Erkundung eines Themas ermöglicht. Darüber hinaus erlauben die Keyword-Suchfunktion und beschreibende Abfragen eine präzise Identifizierung von Begriffen. Beide Ansätze werden in einer hybriden Suche kombiniert und machen Abfragen komfortabler und erfolgreicher.
  • Suchergebnisse werden automatisch besser sortiert: Eine eingebaute Nachjustierung (sog. Reranker) sorgt dafür, dass die relevantesten Suchergebnisse aus der Vektordatenbank oben stehen.
  • Anwendungen gehen über GenAI hinaus: Von Fact-Checking-Tools bis zu Vandalismus-Bekämpfung – die Anwendungen, die auf Grundlage der Vektordatenbank entwickelt werden können, sind vielfältig.
Philippe Saadé
Foto: Philippe Saadé, Selbstportrait, CC BY-SA 4.0
Der Start des Embedding-Projekts zeigt, dass leistungsstarke KI nicht von einer Handvoll Unternehmen kontrolliert werden muss – sie kann offen und kollaborativ entstehen. Nach monatelanger harter Arbeit und einer erfolgreichen Entwicklungsphase sind wir stolz darauf, Entwickler*innen weltweit die Türen zu öffnen und sie einzuladen, das nächste Kapitel generativer KI mitzugestalten.
Philippe Saadé, Projektmanager für Wikidata AI

Was jetzt möglich wird

Wikidata stellt mit dem Embedding-Projekt einen offenen Datensatz bereit, der mehrere Vorteile bietet.

  • Zuverlässiger: Generative KI kann mit RAG direkt auf die geprüften Daten aus Wikidata zurückgreifen und so fehlerhafte Antworten bzw. Halluzinationen reduzieren.
  • Transparent: Mit der Vektordatenbank können Entwickler*innen Wikidata als Quelle ausweisen. Dadurch können Nutzer*innen nachvollziehen, auf welche Quellen sich Suchergebnisse beziehen. Zusätzlich ist der Quellcode unter einer offenen Lizenz verfügbar.
  • Immer aktuell: Wikidata wird täglich von einer aktiven Community gepflegt und erweitert. Damit können die Ergebnisse generativer KI-Abfragen aktueller sein als von Systemen, die nur auf ihr statisch trainiertes „Wissen“ zurückgreifen können.
  • Gerecht: Dank der Arbeit einer vielfältigen und internationalen Freiwilligen-Community kann Wikidata auch unterrepräsentierte Themen und Perspektiven abbilden und so eine vielfältigere, massiv mehrsprachige Datenbasis für die generative KI-Entwicklung schaffen.

Das Embedding-Projekt wird seit September 2024 in enger Zusammenarbeit mit zwei Partnern entwickelt: DataStax, ein IBM-Unternehmen, ist ein führender Anbieter von KI- und Datenlösungen aus den USA. Jina AI ist ein Berliner Experte für KI-gestützte Suche. Wikimedia Deutschland nutzt das Embedding-System von Jina AI, das die Daten von Wikidata in Vektoren transformiert. Diese Daten werden im Anschluss in der Vektordatenbank Astra DB von DataStax gespeichert.

Weitere Informationen: https://www.wikidata.org/wiki/Wikidata:Embedding_Project
Glossar zu den wichtigsten Begriffen des Embedding-Projekts.

Pressekontakt
Zarah Ziadi Kommunikationsmanagerin Movement
Mobil +49 1517 4103 114
Zarah.ziadi@wikimedia.de

Über Wikimedia Deutschland

Wikimedia Deutschland ist ein gemeinnütziger Verein mit über 111.000 Mitgliedern und 180 Beschäftigten, der sich für die Förderung von frei verfügbarem Wissen im digitalen Raum einsetzt. Als größte Ländervertretung der internationalen Wikimedia-Bewegung fördert der Verein die ehrenamtlichen Communitys der Wikipedia und weiterer Wikimedia-Projekte in Deutschland. Wikimedia Deutschland entwickelt und pflegt freie Software und die freie Datenbank Wikidata. Der Verein engagiert sich im digital- und bildungspolitischen Bereich für Rahmenbedingungen, die den freien Zugang zu Wissen und Daten möglich machen. Zudem kooperieren wir mit Kulturinstitutionen, um mehr kulturelles Erbe frei zugänglich zu machen.