Stellungnahme zur Konsultation der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit zum datenschutzkonformen Umgang mit personenbezogenen Daten in KI-Modellen

Künstliche Intelligenz
September 2025

Kurzfassung

Künstliche Intelligenz eröffnet große Chancen, birgt jedoch erhebliche Risiken für den Schutz personenbezogener Daten. Das Kommissariat der deutschen Bischöfe – Katholisches Büro in Berlin, das Katholische Datenschutzzentrum Bayern und die betriebliche Datenschutzbeauftragte des Bistums Würzburg betonen in dieser Stellungnahme, dass die Würde und der Schutz des Menschen im Zentrum aller KI-Regulierung stehen müssen.
Trainingsdaten mit Personenbezug sollten beim Aufbau von Sprachmodellen vollständig ausgeschlossen werden, da auch anonymisierte Daten de-anonymisiert werden können. Eine wirksame Einflussnahme auf große Fremdmodelle ist nicht realistisch; der Datenschutz kann hier nur über begleitende Frameworks wie Retrieval-Augmented Generation und kontrolliertes Prompt Engineering gewährleistet werden.
Schließlich besteht die Gefahr, dass personenbezogene Informationen durch gezieltes „Prompten“ oder durch fehlerhafte „Halluzinationen“ von KI-Systemen offengelegt oder verfälscht werden. Diese Risiken müssen als hoch eingeschätzt werden.
Aus kirchlicher Sicht braucht es daher klare Rahmenbedingungen, die Stärkung der Medienkompetenz, verbindliche Verantwortungsstrukturen in Organisationen sowie die Vermeidung unkritischer Technikgläubigkeit. Datenschutz und der Schutz der Person dürfen nicht dem ökonomischen oder technologischen Fortschritt geopfert werden.

Das Kommissariat der deutschen Bischöfe nimmt die Gelegenheit gerne war, an der Konsultation der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit zum datenschutzkonformen Umgang mit personenbezogenen Daten in KI-Modellen teilzunehmen. Das Konsultationsverfahren bietet uns die Möglichkeit unter Einbeziehung des Katholischen Datenschutzzentrums Bayern und der betrieblichen Datenschutzbeauftragten des Bistums Würzburg, aus kirchlicher Perspektive zu den datenschutzrechtlichen Herausforderungen dieser Schlüsseltechnologie Stellung zu nehmen.

Für die Kirche ist die menschliche Intelligenz ein Ausdruck der Würde, die dem Menschen von seinem Schöpfer verliehen wurde, der ihn nach seinem Bild und Gleichnis erschaffen hat. (vgl. Gen 1,26) Wissenschaft und Technik sind Ergebnisse ihres schöpferischen Potentials. Eine herausragende Ausprägung menschlicher intellektueller Schaffenskraft stellt die Künstliche Intelligenz (KI) dar.

Angesichts der vielfältigen Einsatzmöglichkeiten der KI ist es unerlässlich, den Blick auf den notwendigen Schutz der personenbezogenen Daten des Einzelnen zu werfen. Auch Papst Franziskus hat in seiner Friedensbotschaft zum 57. Weltfriedenstag im Jahr 2024 davor gewarnt, dass „Vertraulichkeit, Dateneigentum und geistiges Eigentum“ durch die Entwicklungen im Bereich der KI erheblich gefährdet sind.

Aus Sicht der Kirche muss der Schutz des Menschen daher im Zentrum jeglicher Regulierung der KI stehen. Bei allem Enthusiasmus für neue Technologien darf das Streben nach wirtschaftlichem oder technologischem Fortschritt nicht über den Schutz der Person und ihrer Daten gestellt werden.

Wir weisen darauf hin, dass die Konsultationsfragen erkennbar von gewissen Annahmen ausgehen, die für uns als Kirche nicht gegeben sind (Konsultationsteilnehmer erstellt oder trainiert ein eigenes LLM) bzw. allgemein fraglich erscheinen (LLM unterliegen einer gewissen Transparenz und Beherrschbarkeit). Daher wollen wir in Folgenden zunächst übergreifend die Aspekte beleuchten, die beim Training einer KI zum Schutz der personenbezogenen Daten berücksichtigt werden müssen. Anschließend soll dann nur kurz auf die einzelnen Konsultationsfragen eingegangen werden.

  1. Arbeit unmittelbar am LLM

Diese Ausführungen beziehen sich darauf, dass Unternehmen bzw. kirchliche Einrichtungen ein Sprachmodell komplett selbst entwickeln oder ein fertiges Fremdmodell nachträglich bearbeiten.

a) Training

Soweit Unternehmen tatsächlich ein Sprachmodell von Grund auf selbst trainieren, sollten sie die Verwendung personenbezogener Daten bereits beim Training der KI bzw. der Erstellung des Sprachmodells vollständig vermeiden. Trainingsdaten mit Personenbezug sollten also nicht erst nachträglich anonymisiert werden; vielmehr ist der Personenbezug von Anfang an konsequent auszuschließen. Es kann kaum ausgeschlossen werden, dass beim Zusammenführen ausreichend vieler Trainingsdaten eine Deanonymisierung erfolgen kann, auch wenn das Konglomerat dann nicht über den Namen, sondern über ein einmaliges Profil mit Personenbezug identifizierbar ist.

b) Fine-Tuning eines Fremd-LLM

Bei Verwendung eines „fertig trainierten“ Sprachmodells weiß der Nutzer in der Regel nicht, mit welchen Daten das Fremd-LLM trainiert wurde. Daher ist es auch bei anschließendem Fine-Tuning kaum möglich, personenbezogene Daten im Modell zuverlässig vor einer Extraktion durch gezieltes „Prompten“ zu schützen. Außerdem wäre ein solches Fine-Tuning wohl unverhältnismäßig ressourcenintensiv.

c) Abstellen des Trainierens anhand von Prompt-Daten

Bei der Verwendung eines fertigen Sprachmodells sollte unbedingt verhindert werden, dass die Prompteingaben zum weiteren Training des Sprachmodell eingesetzt werden, auch wenn diese keine personenbezogenen Daten enthalten. Dies ist durch eine entsprechende Konfiguration des LLM zu gewährleisten.

d) Betroffenenrechte/Datenschutzrechtliche Auskunft

Wenn ein Unternehmen sein LLM selbst trainiert und dokumentiert hat, mit welchen Daten trainiert wurde, mag eine sinnvolle Auskunft gegenüber Betroffenen eingeschränkt möglich sein. Bei Einsatz eines Fremd-LLM sehen wir keine Möglichkeit, eine den datenschutzrechtlichen Anforderungen entsprechende Auskunft zu erteilen. Unklar bleibt zudem, wie eine vollständige Kopie der im Modell enthaltenen Daten im Rahmen eines Auskunftsersuchens bereitgestellt werden könnte. Insofern erscheint eine direkte Einflussnahme auf das Sprachmodell selbst kaum realistisch. Kirchliche Einrichtungen sollten Datenschutzthemen daher an den Stellen einbauen, an denen auch wirklich Einfluss genommen werden kann.

2. Framework

Die weiteren Ausführungen beziehen sich darauf, dass ein sog. Framework über ein fertig trainiertes Sprachmodell gelegt wird. Hier bietet sich ein sog. niedrigschwelliges Prompt Engineering an. Nach aktuellem Kenntnisstand sehen wir insbesondere den Einsatz von RAG (Retrieval-Augmented Generation) als ein geeignetes Instrument.

Dabei wird das zugrundeliegende Sprachmodell nicht unmittelbar beeinflusst. Stattdessen wird der Prompt, vereinfacht gesagt, durch eigene Unternehmensdaten ergänzt. So wird der Prompt spezifischer auf bereits im Unternehmen vorhandene Informationen sowie auf ethische und moralische Grundsätze des Unternehmens hin angepasst. Der so aufbereitete Prompt wird dann erst anschließend an das Sprachmodell übergeben und soll dadurch zu einer inhaltlich besseren sowie ethisch und moralisch vertretbaren Antwort führen.

3. Empfehlung: Allgemeine Rahmenbedingungen schaffen

Diese Ausführungen stellen unsere Schlussfolgerungen und praktischen Empfehlungen dar:

a. Die Einflussnahme auf das Sprachmodell selbst halten wir für kaum realistisch und weder sozial noch und ökologisch vertretbar.

b. Der Einsatz von Sprachmodellen muss aus unserer Sicht in ein Framework eingebettet werden, das den Prompt in eine datenschutzrechtlich vertretbare Richtung lenkt.

c. Der menschliche Faktor muss stets eng eingebunden werden. Der Einsatz von Sprachmodellen muss daher von Instrumenten zur Schaffung von Medienkompetenz begleitet werden. Vermieden werden muss eine unkritische Technikgläubigkeit, die den gesunden Menschenverstand verdrängt. Zudem müssen Verantwortungsstrukturen geschaffen werden, die fachlich und hierarchisch Vorgesetzte in die Pflicht nehmen, damit die Mitarbeiter nicht durch „Druck von oben“ zu oberflächlicher Nutzung des Sprachmodells verleitet werden.

4. Beantwortung der Konsultationsfragen

Abschließend soll noch kurz auf die einzelnen Konsultationsfragen eingegangen werden:

1. Frage: Nach Erwägungsgrund 26 Satz 3 DSGVO sollten bei der Prüfung, ob eine natürliche Person identifizierbar ist, alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren. Unter Berücksichtigung der in der EDSA-Stellungnahme 28/2024 Rn. 35ff. gelisteten Vorgehen, unter welchen Umständen könnte ein LLM als anonym erachtet werden?

Antwort:

Bei fertig trainierten Modellen der Marktanbieter kann eine solche Prüfung kaum sinnvoll erfolgen, da die Anbieter keine Einblicke in die Erstellung ihrer Modelle gewähren. Im Übrigen ist zu bedenken, dass ein Sprachmodell weitestgehend eine „Blackbox“ bleibt. Es ist wenig wahrscheinlich, dass Aufsichtsbehörden die vom EDSA vorgeschlagenen Kriterien und Methoden in eigener Kompetenz prüfen können, da hierzu sehr spezielles Fachwissen notwendig ist. Experten sind auf dem Markt kaum verfügbar.

Nutzer müssen sich also überwiegend auf die Bewertung des Herstellers verlassen, dass zum Training keine personenbezogenen Daten verwendet werden. Verlässlicher sind hier die Aussagen von Anbietern, die der DSGVO unterliegen.

2. Frage: Welche technischen Maßnahmen setzen Sie bereits ein bzw. planen Sie einzusetzen, um die Memorisierung von Daten zu verhindern (wie z.B. Deduplikation, Verwendung anonymer bzw. anonymisierter Trainingsdaten, Fine-Tuning ohne personenbezogene Daten, Differential Privacy, etc.)? Welche Erfahrungen haben Sie damit gemacht?

Antwort:

Verhinderung der Verwendung von Prompt-Daten zum KI-Training in der Konfiguration

Wenn ein eigenes LLM trainiert würde (was eher unwahrscheinlich ist), dann nur mit komplett nicht personenbezogenen und auch nicht personenbeziehbaren Daten (auch anonymisierte Daten werden in ausreichender Menge und mit ausreichendem Zusammenhang deanonymisiert, siehe Gesundheitsdaten).

Wenn ein speziell auf Personendaten ausgerichtetes LLM trainiert werden soll (z.B. für ein Medienhaus), dann sollten nur interne Daten verwendet und diese auch zumindest in Kategorien dokumentiert werden.

Fine-Tuning dürfte zu unökologisch und ressourcenintensiv sein. Das wäre aber praktisch zu prüfen.

3. Frage: Wie schätzen Sie das Risiko ein, dass personenbezogene Daten aus einem LLM extrahiert werden? Erläutern Sie Ihre Einschätzung möglichst anhand konkreter Beispiele, Einzelfälle oder empirischer Beobachtungen.

Antwort:

Wir schätzen die Eintrittswahrscheinlichkeit als sehr hoch ein. Ein möglicher Schaden ist ebenfalls als hoch einzustufen, so dass sich je nach Maßstab ein sehr hohes Risiko ergibt.

Wir halten es für sehr wahrscheinlich, dass es durch geschicktes „Prompten“ möglich ist, vorher eingelernte personenbezogene Informationen aus dem LLM zu extrahieren. Gegenmaßnahmen per System Prompt werden nach unserem Kenntnisstand zwar getroffen, eine ausreichende Sicherheit kann damit aber nicht gewährleistet werden.

Im Fall von Halluzinationen werden Informationen ausgegeben, die nicht eingelernt wurden. Auch wenn keine konkreten personenbezogenen Daten eingelernt wurden, wird die KI aufgabengemäß „irgendetwas“ antworten, was einen Personenbezug aufzuweisen scheint. Derartige Fälle sind besonders kritisch zu sehen, da sie Zusammenhänge zum Nachteil einer Person herstellen können. Als konkretes Beispiel sei der Fall des Gerichtsjournalisten genannt, der auf einmal selbst als kriminell dargestellt wurde, weil sein Name wiederholt mit Berichten über Straftaten verknüpft war.

4. Frage: Datenschutzrecht knüpft an die Verarbeitung personenbezogener Daten an. Jede Eingabe eines Prompts löst eine Berechnung im KI-Modell aus, bei der die in Form von Parametern repräsentierten (personenbezogenen) Daten Einfluss auf das Berechnungsergebnis nehmen. Stellt diese Berechnung eine Verarbeitung dieser Daten im Sinne von Artikel 4 Nr. 2 DSGVO dar, selbst wenn das Berechnungsergebnis, also die Ausgabe des KI-Modells, nicht personenbezogen ist?

Antwort:

Überwiegend wird von einem weiten Verarbeitungsbegriff ausgegangen, so dass auch die Verarbeitung durch das Sprachmodell darunterfallen dürfte. Zudem besteht die Gefahr, dass eine Verarbeitung im Sprachmodell aufgrund des „Blackbox-Charakters“ als automatisierte Entscheidungsfindung angesehen werden könnte.

5. Frage: Haben Sie bereits Erfahrung gemacht mit Methoden, die die Menge und Art der personenbezogenen memorisierten Daten abschätzen, bzw. ob das verwendete KI-Modell personenbezogene Daten einer bestimmten Person enthält (z.B. Privacy Attacks/PII Extraction Attacks, etc.)? Wenn ja, wie bewerten Sie deren Aussagekraft und mögliche Einschränkungen?

Antwort:

Hierzu liegen keine Erfahrungen vor.

6. Frage: Wie hoch ist die Menge personenbezogener memorisierter Daten in Ihnen bekannten KI-Modellen (in Prozent sowie Gesamtmenge Trainingsdaten)?

Antwort:

Hierzu liegen keine Erkenntnisse vor.

7. Frage: Wie gehen Sie vor, wenn eine Person ihren Anspruch auf Auskunft über personenbezogene Daten, Berichtigung oder Löschung ihrer personenbezogenen Daten im KI-Modell geltend macht?

Antwort:

Eine Auskunft wäre nur möglich, wenn das Unternehmen das KI-Modell selbst trainiert und die Lerndaten dokumentiert hat. Bei Verwendung eines KI-as-a-Service (Auftragsverarbeiters) könnte man nur darauf verweisen, dass vertraglich vereinbart wurde, personenbezogene Daten des Unternehmens nicht zum „Training“ der KI zu verwenden.

Für alle „Eingriffe“ (Ändern, Löschen) kämen nach unserem aktuellen Kenntnisstand nur Lösungen über ein Framework in Betracht, das per Prompt Engineering oder per RAG mit „Blacklists“ korrigierend eingreift.

8. Frage: Gibt es andere Aspekte, die aus Ihrer Perspektive beim Schutz der personenbezogenen Daten in KI-Modellen eine Rolle spielen?

Antwort:

Unternehmen sollten bevorzugt Frameworks einsetzen. Sprachmodelle selbst sind für die meisten Unternehmen nicht beherrschbar, so dass Datenschutz nur über das Framework eingehalten werden kann und muss.

Zudem müssen die Nutzer intensiv vorbereitet und dazu geschult werden, wie und in welchem Umfang Sprachmodelle bei der täglichen Arbeit eingesetzt werden können und dürfen. Es sollten klare Richtlinien erstellt werden und deren Einhaltung regelmäßig überprüft werden.

Schließlich sollten Vorgesetzte den sinnvollen Einsatz von Sprachmodellen verantworten müssen, um unangemessenen hierarchischen Druck und unkritische Nutzung zu vermeiden.

Berlin, den 22. September 2025

Stellungnahme
des Kommissariats der deutschen Bischöfe - Katholisches Büro in Berlin
zur

Konsultation der Bundesbeauftragten für den Datenschutz und die Informations-freiheit zum datenschutzkonformen Umgang mit personenbezogenen Daten in KI-Modellen