Was ist die Vorlage für die Inhaltsschulungszusammenfassung? 

Die Europäische Kommission hat kürzlich eine Erläuterung und Vorlage soll Anbietern von Allzweck-KI-Modellen (GPAI) dabei helfen, die Inhalte zusammenzufassen, die zum Trainieren ihrer Modelle verwendet werden. Die Vorlage unterstützt GPAI-Anbieter bei der Erfüllung ihrer Verpflichtungen gemäß Artikel 53 der EU-KI-Gesetz, wodurch eine Zusammenfassung der für das Training aller GPAI-Modelle verwendeten Inhalte öffentlich zugänglich gemacht wird.  

Entscheidend ist auch, dass es sich um einen weiteren Schritt zum Aufbau von Vertrauen in KI handelt, indem die Transparenz im Einklang mit den Zielen der Verordnung erhöht wird. 

Die Zusammenfassung der Informationen zu einem GPAI-Modell, die mithilfe der Vorlage bereitgestellt wird, ist zwar öffentlich zugänglich, die Kommission hat jedoch der Notwendigkeit des Schutzes von Geschäftsgeheimnissen und vertraulichen Geschäftsinformationen Rechnung getragen. Daher wird in der Erläuterung klargestellt, dass die Zusammenfassung „allgemein umfassend und nicht nur technisch detailliert sein sollte, um Parteien mit berechtigten Interessen, einschließlich Urheberrechtsinhabern, die Ausübung und Durchsetzung ihrer Rechte nach dem Unionsrecht zu erleichtern“. 

Abschnitt Eins: Allgemeine Informationen 

Der erste Abschnitt der Vorlage enthält allgemeine Informationen zum GPAI-Anbieter und -Modell, einschließlich der Kontaktdaten des Anbieters, des versionierten GPAI-Modellnamens, der Modellabhängigkeiten und des Datums, an dem das Modell auf dem Unionsmarkt eingeführt wurde. Die Anbieter müssen die in den Trainingsdaten enthaltenen Modalitäten detailliert beschreiben, soweit sie identifizierbar sind, einschließlich: 

  • Text 
  • Bild 
  • Audio 
  • Video 
  • Andere 

Anbieter müssen die Trainingsdatengröße detailliert beschreiben, indem sie für jede Modalität Bereiche innerhalb der geschätzten Gesamtdatengröße auswählen. Sie müssen außerdem die Inhaltstypen für jede ausgewählte Modalität beschreiben, zum Beispiel: 

  • Fiktionstext 
  • Sachtext 
  • Wissenschaftlicher Text 
  • Fotografie 
  • Bildende Kunstwerke 
  • Infografiken 
  • Social Media Bilder 
  • Musikalische Kompositionen 
  • Hörbuch auf Englisch 
  • Private Audiokommunikation 
  • Musikvideos 
  • Filme 
  • TV-Sendungen 
  • Videospiele 
  • Social-Media-Videos. 

Schließlich müssen die Anbieter das letzte Datum der Datenerfassung oder -sammlung für das Modelltraining sowie alle zusätzlichen Informationen zur Sammlung der Trainingsdaten mitteilen. 

Abschnitt Zwei: Datenquellen 

Der zweite und umfangreichste Abschnitt der Vorlage verlangt von den Anbietern die Angabe spezifischer Datenquellen, die zum Trainieren des GPAI-Modells verwendet wurden. Organisationen sollten die Modalität(en) der Inhalte der jeweiligen Datensätze in jedem Abschnitt angeben und anschließend spezifische Fragen zu jeder Art von Datenquelle beantworten. 

In diesem Abschnitt wird der Begriff „Datensatz“ als eine einzelne, vorkonfigurierte Datensammlung klassifiziert. Daten, die aus derselben vorkonfigurierten Sammlung gefiltert und vorverarbeitet wurden, gelten nicht als neuer Datensatz, der separat offengelegt werden muss. Fällt ein Datensatz in mehrere Kategorien, sollten Anbieter die relevanteste Kategorie auswählen. 

GPAI-Anbieter müssen Details zu den Datensätzen bereitstellen, die zum Trainieren des Modells verwendet werden: 

  • Öffentlich verfügbare Datensätze 
  • Von Dritten zusammengestellte Datensätze werden der Öffentlichkeit kostenlos zur Verfügung gestellt und können als Ganzes oder in vordefinierten Abschnitten heruntergeladen werden. 
  • Private, nicht öffentlich zugängliche Datensätze, die von Dritten bezogen wurden 
  • Von Rechteinhabern oder ihren Vertretern kommerziell lizenzierte Datensätze. 
  • Private Datensätze, die von anderen Dritten bezogen wurden. 
  • Aus Online-Quellen gecrawlte und gescrapte Daten 
  • Gecrawlte, gescrapte oder anderweitig aus Onlinequellen zusammengestellte Daten, ausgenommen bereits abgedeckte öffentlich verfügbare Datensätze.  
  • Benutzer Zeit 
  • Von allen Diensten und Produkten des Anbieters erfasste Benutzerdaten (ausgenommen Daten, die von Benutzern auf Grundlage kommerzieller Transaktionsvereinbarungen lizenziert wurden, oder Kundendaten) zur Feinabstimmung von Modellen für bestimmte Zwecke. 
  • Synthetische KI-generierte Daten  
  • Daten, die zum Trainieren des Modells anhand der Ausgaben eines anderen Modells erstellt wurden, wie etwa KI-Feedback durch bestärkendes Lernen, ausgenommen die Verwendung von KI-Modellen zum Bereinigen oder Anreichern von Daten. 
  • Andere Datenquellen 
  • Daten, die in keine der vorherigen Kategorien fallen, z. B. aus Offline-Quellen gesammelte Daten, selbst digitalisierte Medien, von Menschen im Auftrag des Anbieters beschriftete Datensätze. 

Dritter Abschnitt: Aspekte der Datenverarbeitung 

Der dritte Abschnitt der Vorlage konzentriert sich auf die Maßnahmen, die der Anbieter ergriffen hat, um etwaige Rechtsvorbehalte im Rahmen der Ausnahme oder Beschränkung für Text- und Data-Mining (TDM) gemäß Artikel 4 der Richtlinie über das Urheberrecht im digitalen Binnenmarkt zu identifizieren und einzuhalten. Diese Maßnahmen sollten auch mit der Urheberrechtspolitik des Anbieters im Einklang stehen, wie in Artikel 53 des EU-KI-Gesetzes gefordert.  

Hierzu gehört die Beschreibung der Maßnahmen, die der Anbieter vor der Modellschulung umgesetzt hat, um den Vorbehalten aus der TDM-Ausnahme bzw. -Beschränkung Rechnung zu tragen: 

  • Vor und während der Datenerhebung umgesetzte Maßnahmen 
  • Vom Anbieter anerkannte Opt-out-Protokolle und -Lösungen 
  • Opt-out-Protokolle und -Lösungen, die von Drittanbietern eingehalten werden, von denen Datensätze bezogen wurden. 

GPAI-Anbieter müssen eine allgemeine Beschreibung der Maßnahmen vorlegen, die sie ergriffen haben, um nach Unionsrecht illegale Inhalte aus den Trainingsdaten zu vermeiden oder zu entfernen. Sie sind jedoch nicht verpflichtet, spezifische Einzelheiten über ihre internen Geschäftspraktiken oder Geschäftsgeheimnisse offenzulegen. 

Schließlich bietet die Vorlage einen optionalen Abschnitt, in dem Anbieter alle weiteren relevanten Informationen zu Datenverarbeitungsmaßnahmen mitteilen können, die vor oder nach dem Training des Modells durchgeführt wurden. 

Nächste Schritte 

Für GPAI-Anbieter ist es wichtig, die vorhandene GPAI-Modelldokumentation und -Prozesse zu überprüfen. Zur Vorbereitung auf die Verwendung der Vorlage sollten Organisationen eine klare interne Transparenz der Datensatzquellen, Datensatzmodalitäten, -größen und -inhaltstypen sowie der bestehenden Datenverarbeitungsmaßnahmen sicherstellen.  

Implementierung von Best Practices, wie sie im KI-Management beschrieben sind Norm ISO 42001 Der Aufbau eines ethischen KI-Managementsystems (AIMS) kann auch dazu beitragen, die Transparenz zu erhöhen, das KI-Risiko zu verringern, eine klare Dokumentation sicherzustellen und Vertrauen in eine Organisation und ihre KI-Modelle aufzubauen.