Content-Klau mit Künstlicher Intelligenz: Das Ende des Internets, wie wir es kennen?

Das freie Internet war einst ein unerschöpflicher Wissenspool, in Kreative ihre Inhalte teilten und Belohnung in Form von Reichweite und manchmal auch Monetarisierung erhielten. Doch mit dem Siegeszug von KI-gestützten Sprachmodellen wie ChatGPT verschiebt sich dieses Gleichgewicht: Inhalte werden abgegriffen und direkt an ihre Nutzer weitergereicht, ohne die ursprünglichen Urheber zu honorieren. Bedroht Content-Klau mit KI das Internet?

Das Internet war lange Zeit ein Ort des freien Austauschs: Ein nahezu grenzenloser Wissensspeicher, befüllt von engagierten Nutzern: Kreative wie Blogger, Journalisten, Fachautoren, Programmierer, Fotografen oder einfach Enthusiasten und Idealisten auf ihrem jeweiligen Gebiet. Wer guten Content lieferte, wurde von Suchmaschinen mit Sichtbarkeit belohnt, was Traffic, Reichweite und sogar Monetarisierung ermöglichte. 

Content-Klau mit Künstlicher Intelligenz

Content-Klau mit Künstlicher Intelligenz. Dieses „Foto“ ist das Resultat von ChatGPT als Zusammenfassung dieses Blogartikels. Die „Ideen“ dazu, hat sich die KI sich aus Millionen anderer Bilder, mit denen sie trainiert wurde, aus dem Internet geholt und neu zusammen gestellt.

Doch was passiert, wenn Künstliche Intelligenz und große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und Co. dieses Prinzip aushebeln? Wenn sie das gesamte Netz anzapfen und Inhalte direkt an Nutzer ausspielen – ohne sie auf die Originalquellen zu leiten?

Content-Klau dank KI: Dramatischer Reichweitenverlust bei Publishern

Wer heute Google benutzt, dem dürfte eine Neuerung aufgefallen sein: Waren einst die beliebtesten Webseiten ganz oben in den Suchergebnissen zu finden, wurden sie später von zahlenden Anzeigenkunden weiter nach unten verdrängt. Doch auch selbst diese erkauften Top-Positionen müssen nun nach unten rücken: Ganz oben beantwortet eine künstliche Intelligenz die Suchanfrage des Nutzers. Und wo kommt die Antwort her? Die hat sich das Sprachmodell aus den nun nach unten verdrängten Webseiten zusammen geklau(b)t und präsentiert das Ergebnis ohne prominente Verlinkung auf die Seiten der Urheber. Lediglich ein kleines Verlinkungssymbol am Ende einer Antwort führt zur Quelle. Darauf klickt aber kaum noch jemand. 

Eine aktuelle Studie zeigt, dass AI-Suchmaschinen bis zu 96 % weniger Traffic an Publisher weiterreichen als traditionelle Suchanfragen. Unter der Headline „Neue Daten zeigen, wie sehr OpenAI und Perplexity die Verlage verarschen“,  veröffentlichte Forbes wichtige Erkenntnisse der Untersuchung von TollBit, einem Unternehmen dass Verlagen helfen will, KI Unternehmen für das Abgreifen von Informationen zur Kasse zu bitten. 

96 Prozent weniger Traffic an Publisher mit AI-Suchmaschinen

„Wir sehen einen Zustrom von Bots, die jedes Mal, wenn ein Nutzer eine Frage stellt, auf diese Seiten einhämmern“, zitiert Forbes den Tollbit CEO Toshit Panigrahi. Während sich Verlage noch die Dienstleistungen solcher Unternehmen leisten können, gucken freie Autoren und Kreative wohl eher in die Röhre, wenn so genannte „Scraper“ die Informationen ihrer Webseite ungefragt abgreifen. 

KI aussperren: Wie hindere ich ChatGPT & Co. daran, meine Webseite zu scannen? 

Wer nicht möchte, dass seine Inhalte von KI-Modellen zum Training genutzt werden, kann diese zumindest theoretisch daran hindern. Hierzu genügt ein Eintrag in der so genannten „robots.txt“ auf dem Webserver. Allerdings sind diese Verbote für die Anbieter nicht rechtlich durchsetzbar und können schlichtweg ignoriert werden. Um eine KI auszusperren muss ein „Disallow“ in der robots.txt mit dem entsprechenden User-Agent der KI eingetragen werden. Der folgende Befehl soll ChatGPT aufhalten:
User-agent: GPTBot
Disallow: /

Um nun mehrere KI-Modelle vom eigenen Content fern zu halten, müssen alle weiteren User-Agents jeweils mit einem folgenden Disallow wie im vorigen Beispiel hinzugefügt werden.

KI-Scraper und ihre User-Agents

KI-Unternehmen User-Agent robots.txt-Regel
OpenAI GPTBot User-agent: GPTBot
Anthropic ClaudeBot User-agent: ClaudeBot
Google Google-Extended User-agent: Google-Extended
Common Crawl CCBot User-agent: CCBot
Facebook AI facebookexternalhit User-agent: facebookexternalhit

Wie Unternehmen Ihre Modelle mit urheberrechtlich geschützten Inhalten trainieren

Ob eine entsprechend konfigurierte robots.txt die Unternehmen jedoch wirklich davon abhält, Content zu scrapen ist fraglich: OpenAI, das Unternehmen hinter ChatGPT, steht im Mittelpunkt mehrerer Klagen, darunter eine von Ziff Davis, dem Eigentümer von Medienmarken wie IGN, PCMag und CNET.Ziff Davis wirft OpenAI vor, Inhalte seiner Websites ohne Genehmigung verwendet zu haben, obwohl der Zugriff durch robots.txt-Dateien eingeschränkt war. OpenAI verteidigt sich mit der Aussage, dass seine Modelle auf öffentlich verfügbaren Daten trainiert wurden und dies unter die Fair-Use-Doktrin falle.

Der Meta Konzern, zudem Facebook, Instagram oder der Kurznachichtendienst Threads gehört wurde beschuldigt, über 81 Terabyte an Daten aus sogenannten Schattenbibliotheken wie Anna’s Archive und Library Genesis heruntergeladen zu haben, um seine KI-Modelle zu trainieren. transition-colors duration-100 ease-in-out“>Diese Plattformen enthalten oft urheberrechtlich geschütztes Material. In internen E-Mails wurde berichtet, dass CEO Mark Zuckerberg persönlich die Nutzung dieser Daten genehmigt habe.

Das KI-Startup Perplexity AI wurde beschuldigt, Inhalte von Nachrichtenportalen wie Forbes und CNBC nahezu wortwörtlich übernommen zu haben, ohne angemessene Quellenangaben. Perplexity argumentiert, dass es sich um eine Aggregation öffentlich zugänglicher Informationen handle robots.txt-Anweisungen von Websites ignorierte und Inhalte über Drittanbieter crawlen ließ.

KI Scraping ist mehr als nur Inhalte aggregieren

Erinnert sich noch wer an den großen Streit der Verlage mit Suchmaschinen wie Google und die Zusammenstellung von Newssnippets für das eigenen Google Nachrichtenportal? Unter dem Stichwort „Leistungsschutzrecht“ verlangten die Verlage Geld von Google, wenn es ihre Inhalte komprimiert auf einer Newsseite zusammenfasst, also „aggregiert“. Doch im Vergleich mit dem KI-Training ist das Aggregieren von Nachrichten auf einer Übersichtsseite ja noch fast fair: Während jede News sofort mit einem Link auf die Seite des Publishers führte und somit den Verlagen guten Traffic bescherte, profitiert vom Scraping nur noch das KI-Unternehmen. Ein gefährliche Verschiebung der ohnehin schon ungleichen Machtverhältnisse im Netz.

Wo bleibt der Anreiz, neue Inhalte zu schaffen?

Keine Frage, ChatGPT & Co. können beim Erstellen von Texten und Bildern, beim Recherchieren und für die Ideenfindung gute Dienste leisten. Doch sollten die Unternehmen nicht für ihr „Scraping“ nicht zur Kasse gebeten werden? Sie verdienen schließlich viel Geld mit dem Nutzen ihrer Dienste. Eine Art „GEMA“ oder „VG Wort“-Abgabe für KI-Unternehmen? So wie wir schon heute für jeden Datenträger, jeden Drucker oder jedes Kopiergerät eine in den Verkaufspreis einkalkulierte Gebühr zahlen, müssten auch OpenAI, Meta, Perplexity & Co. ihren Beitrag leisten.

Braucht es eine Art „GEMA“- oder „VG-WORT“-Abgabe für KI-Unternehmen?

Welchen Anreiz sollten Publisher künftig haben, neue Inhalte zu generieren, wenn KI Unternehmen sie sofort kapern und ihren Nutzern anbieten ohne, dass die Urheber jemals für Ihre Arbeit entlohnt wurden?

Der einzige Weg, sich vor Scraping zu schützen, wären wohl nur noch restriktive Portale, die sich hinter einer Paywall nur noch zahlenden Kunden öffnen. Doch das wäre der Todesstoß für freies Wissen und das Internet wie wir es heute kennen.

 

Wie hat Dir dieser Beitrag gefallen?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert