Generative KI bei Wikipedia: Die freie und KI-generierte Enzyklopädie?

Die Integrität der Wikipedia ist bedroht: Fünf Prozent neuer englischer Artikel seien KI-generiert, findet eine Studie heraus. Während in der englischen Wikipedia bereits Aufräumtrupps aktiv sind, diskutiert die deutschsprachige Community noch über ihren Umgang mit den maschinellen Autoren.

Eine Roboterhand und eine Menschenhand greifen nach dem Wikipedialogo. — Mensch und KI profitieren vom frei zugänglichen Wissen in der Wikipedia. Doch wie bleibt sie auch in Zukunft relevant? – Alle Rechte vorbehalten Hände: Imago; Logo: Wikimedia; Montage: Ben Bergleiter

Der kometenhafte Aufstieg von KI-basierten Chatbots wie ChatGPT oder Microsoft Copilot wäre wahrscheinlich nicht ohne die Online-Enzyklopädie Wikipedia möglich gewesen. Ihre mehr als 60 Millionen frei zugänglichen Artikel bilden mit die wichtigsten Trainingsdaten für die Large Language Models (LLMs), auf denen die Bots basieren. Eine Untersuchung der Cornell University in New York legt jedoch nahe, dass seit dem Release von ChatGTP im November 2022 circa fünf Prozent neuer englischsprachiger Wikipedia-Inhalte KI-generiert sind.

Da aktuelle LLMs immer noch zu sogenannten Halluzinationen tendieren, also Falschinformationen und nicht existierende Quellen ausgeben, stellt das die Entwickler dieser Modelle vor ein Problem: Fehleranfällige KI-generierte Inhalte als Trainingsdaten für eine vermeintliche KI zu verwenden, ist wie die Schlange, die in ihren eigenen Schwanz beißt – irgendwann verschlingt sie sich selbst. Doch nicht nur OpenAI und Co. stellt das vor existenzielle Herausforderungen. Auch die Wikipedia muss sich fragen, wie sie sich vor der durch generative KI drohenden Fehlerhäufung rettet.

Wiki-Projekt macht Kampfansage

In der englischsprachigen Wikipedia hat sich dazu das „WikiProject AI Cleanup“ gebildet, „ein Zusammenschluss zur Bekämpfung des zunehmenden Problems von schlecht geschriebenen KI-generierten Inhalten auf Wikipedia“. Das Ziel ist es, KI-generierte Inhalte ausfindig zu machen und zu prüfen, ob sie korrigiert oder gelöscht werden müssen. Die Projektseite liest sich wie eine Anleitung für einen kämpferischen Aufräumtrupp: Mit eher schlecht funktionierenden KI-Detektoren absolvieren sie ihren Dienst.

Wie die meisten Teile der Wikipedia ist auch dieses Projekt eine von der Wiki-Community ins Leben gerufene und koordinierte Initiative. Insgesamt 91 Wikipedianer:innen arbeiten hier ehrenamtlich daran, die englischsprachige Wikipedia von halluzinierten, also fehlerhaften KI-Inhalten sauber zu halten. Angesichts der knapp sieben Millionen englischen Artikel dürften sie gut beschäftigt sein.

Mit fast drei Millionen Artikeln ist die deutschsprachige Wikipedia die drittgrößte, gemessen an der aktiven Community sogar die zweitgrößte nach der englischsprachigen Wikipedia. Auch hier hat sich ein Projekt etabliert, das sich mit den Folgen von generativer KI auseinandersetzt. Im „WikiProjekt KI und Wikipedia“ gibt es noch keine konkreten Handlungsanweisungen, hier ist die Community damit beschäftigt, zu evaluieren, wie sich KI auf Wikipedia auswirkt und wie sie „Wissen bewahren und damit die Wikipedia selbst auf Kurs halten“. Wenn das englische Wiki-Projekt eine Kampfeinheit bildet, so wirkt das deutsche Pendant wie ein Forschungsteam.

Unklarheit bei deutscher Wikipedia

Doch wie gehen deutschsprachige Wikipedianer:innen aktuell vor, wenn sie auf KI-generierte Inhalte stoßen? Auch Mathias Schindler musste sich dieser Frage stellen, als er am vergangenen Wochenende in der Wikipedia editierte. Bereits seit über zwanzig Jahren ist er bei Wikipedia aktiv und war 2004 bei der Gründung von Wikimedia Deutschland dabei, dem Förderverein hinter Wikipedia. Beim Kontrollieren von Artikeln ist ihm eine KI-halluzinierte Quelle untergekommen, woraufhin er die Autorin des Artikels darauf aufmerksam machte. Nachdem sie nicht geantwortet hatte, berichtete er darüber im sogenannten „Maschinenraum“, den Diskussionsforen rund um Wikipedia. Andere Nutzer:innen bewirkten daraufhin eine Löschung, der Beitrag ist aktuell nicht mehr verfügbar.

In den Autor:innen-Richtlinien bezieht Wikipedia eine klare Position zur Verwendung von KI-generierten Inhalten: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen, ihre Verwendung ist daher derzeit generell unerwünscht.” So klar die Ablehnung hier ausgedrückt ist, so unklar bleibt jedoch der konkrete Umgang mit KI-generierten Inhalten im Editor-Alltag. Denn auch wenn sie unerwünscht sind, machen sie einen nicht unerheblichen Teil der deutschen Wikipedia aus – die Cornell-Studie geht hier immerhin von zwei Prozent der Artikel aus. Einheitliche Regeln, wie Wikipedianer:innen damit umzugehen haben, gibt es aktuell nicht.

Diskussion in vollem Gange

„Es ist eben noch viel im Fluss“ antwortet Raimond Spekking von Wikimedia auf die Frage, warum es keine klaren Regeln gebe. Dafür sei die Diskussion in vollem Gange. Im Wikipedia-Kurier, einem internen Nachrichtenblatt, erscheinen regelmäßig Beiträge zu dem Thema. Auch die zugehörigen Diskussionsseiten erfreuen sich reger Beteiligung. Im Juli 2023 gab es in der deutschen Wiki-Community eine Umfrage dazu, wie mit KI-generierten Artikeln umgegangen werden soll. Von den 240 Teilnehmenden stimmte fast ein Drittel dafür, solche Beiträge zu behalten, solange sie keine Fehler aufweisen. Knapp die Hälfte war allerdings dafür, KI-generierte Artikel kategorisch zu löschen. Einen allgemeinen Konsens scheint es in der Wiki-Community nicht zu geben.

Diese Wahrnehmung teilt auch der langjährige Wikipedianer Mathias Schindler: „Ich sehe den gleichen Querschnitt an Reaktionen aus Faszination, Spieltrieb, Skepsis und Ablehnung, den ich auch im Rest der Gesellschaft sehe.“ Dabei sei zwischen KI-generierten Inhalten und KI im Allgemeinen zu unterscheiden. Auch wenn viele Wikipedianer:innen KI zur Generierung von Text ablehnen, nutzt Wikipedia KI-Werkzeuge in anderen Bereichen ganz bewusst. Zur automatischen Vandalismusbekämpfung dient beispielsweise der auf maschinellem Lernen basierende „Automoderator“.

Ohne die Community geht nichts

Seitdem die EU-Kommission Wikipedia als eine „Very Large Online Platform“ (VLOP) klassifiziert hat, gelten für sie strenge Regeln bezüglich Content-Moderation. So muss die hinter Wikipedia stehende Wikimedia-Stiftung klare Strukturen für Lösch- und Änderungsanträge schaffen. Außerdem muss sie der EU-Kommission regelmäßig über systemische Risiken berichten, die sich in Moderationsanfragen abzeichnen. Aus ihren halbjährlich erscheinenden Transparenzberichten geht jedoch hervor, dass Wikimedia kaum solche Anfragen erhält, da der größte Teil der Content-Moderation von der Wiki-Community selbst übernommen wird.

Wikipedia ist schlussendlich ein Community-basiertes Projekt, ohne sie werden kaum interne Regeln geändert oder durchgesetzt. Zum Austausch der Community findet jährlich die WikiCon statt. Bei der diesjährigen Konferenz in Wiesbaden moderierte die Vorsitzende des Präsidiums von Wikimedia, Alice Wiegand, eine Paneldiskussion zum Thema „KI im Wissenszeitalter“. Sie plädierte für eine reflektierte Haltung und betonte, dass die Community proaktiv überlegen müsse, wie sie ihre Inhalte im KI-Zeitalter so positioniert, dass die Integrität der Wikipedia gewahrt bleibt und sie dennoch die Vorteile neuer Technologien nutzen kann.

Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.

https://netzpolitik.org/2024/generative-ki-bei-wikipedia-die-freie-und-ki-generi…