CDCF — Catholic Digital Commons Foundation

Vertrauliche Dateninfrastruktur für den katholischen Dienst

Dokumenttyp Forschungsnotiz
Status Arbeitsentwurf — U.S.A. C-DART 1 Diskussion
Beziehung Ergänzende Forschung, die den CDCF Projektprüfungsrichtlinien v0.2 zugrunde liegt

Inhaltsverzeichnis

  1. Das Kernargument
  2. Die Herausforderung der katholischen Datenverwaltung
  3. Institutionelle Daten: Umfang und Sensibilität
  4. Öffentliche Daten: Das gemeinsame Erbe der Kirche
  5. Synthetische Daten für die KI-Entwicklung
  6. Was katholische Institutionen aufbauen könnten
  7. Der Drei-Schichten-Stack
  8. Drei Ebenen katholischer Daten
  9. Die Rolle der CDCF über die Datenebenen hinweg
  10. Beziehung zur CDCF
  11. Bibliographie

Das Kernargument

Katholische Institutionen halten gemeinsam eine der größten Konzentrationen an Datenverwaltungsaufgaben in Amerika — und einen der reichhaltigsten Bestände an gemeinsamen öffentlichen Daten weltweit. Diese beiden Datenbereiche sind in ihrem Charakter unterschiedlich, stehen jedoch vor demselben strukturellen Problem: dem Fehlen einer gemeinsamen Infrastruktur zur Verwaltung, Standardisierung und zum Austausch dieser Daten.

Institutionelle Daten — Patientenakten, Schülerdateien, Fallmanagementdaten, Engagement in der Pfarrei — sind sensibel, persönlich identifizierbar und rechtlich geschützt. Sie bedienen dieselben überlappenden Bevölkerungsgruppen in den Bereichen Gesundheitswesen, Bildung, soziale Dienste und Gemeindeleben auf eine Weise, die keine säkulare Institution replizieren kann. Diese bereichsübergreifende Sichtweise ist betrieblich von unschätzbarem Wert und nahezu vollständig unzugänglich für die Technologieentwicklung, da die Daten durch HIPAA, FERPA, diözesane Datenschutznormen und das pastorale Vertrauen der betroffenen Personen geschützt sind.

Öffentliche Daten — die Liturgie, die Heilige Schrift, lehramtliche Dokumente, kanonische Strukturen — gehören zur universellen Kirche. Es handelt sich nicht um private Daten, sondern um ein gemeinsames Erbe, und die Herausforderung besteht nicht im Datenschutz, sondern in der Standardisierung. Dutzende unabhängiger Projekte digitalisieren diese Realitäten mit inkompatiblen Identifikatoren, Datenmodellen und Klassifizierungsschemata, was zu Fragmentierung führt, wo die eigene Einheit der Kirche Kohärenz verlangt.

Beide Datenbereiche erfordern eine vertrauenswürdige Infrastruktur: Governance-Rahmen, Validierungsstandards und Interoperabilitätsprotokolle, die es katholischen Institutionen ermöglichen, ihre Daten verantwortungsbewusst zu verwalten, sie dort auszutauschen, wo es angemessen ist, und Technologien zu entwickeln, die ihren Missionen dienen. Diese Notiz behandelt, wie diese Infrastruktur entwickelt werden kann, mit besonderem Augenmerk auf die Rolle synthetischer Daten bei der Freisetzung der KI-Entwicklung aus sensiblen institutionellen Datensätzen.


Die Herausforderung der katholischen Datenverwaltung

Katholische Institutionen stehen vor einer doppelten Datenherausforderung, die keine andere Institutionenklasse teilt.

Auf der einen Seite halten sie massive Mengen sensibler institutioneller Daten über rechtlich unabhängige Einheiten, die diese nicht teilen können — selbst wenn sie dieselben Bevölkerungsgruppen bedienen und dieselbe Mission verfolgen. Eine Familie, die in einem katholischen Krankenhaus behandelt wird, ihre Kinder an einer katholischen Schule unterrichtet, Dienstleistungen von den Caritas-Verbänden erhält und am Gemeindeleben teilnimmt, erscheint in vier separaten katholischen Datensystemen. Keine säkulare Institution hat diese bereichsübergreifende Sicht auf dieselben überlappenden Bevölkerungsgruppen. Diese Sichtweise ist genau das, was die institutionellen Daten der katholischen Kirche einzigartig wertvoll für die Technologieentwicklung macht, und genau das, was ihre Governance-Verpflichtungen besonders ernst macht.

Auf der anderen Seite verwalten sie gemeinsam die digitalen Darstellungen von Realitäten, die zur universellen Kirche gehören – den römischen Kalender, die Ausgaben der Heiligen Schrift, die Dokumente des Lehramtes, die organisatorische Struktur von Diözesen und Pfarreien – jedoch ohne gemeinsame Standards dafür, wie diese Realitäten in Code identifiziert und dargestellt werden. Jedes liturgische Softwareprojekt, jede Bibelanwendung, jede diözesane Datenbank musste ihr eigenes Datenmodell für dasselbe gemeinsame Erbe erfinden.

Die erste Herausforderung erfordert eine datenschutzfreundliche Infrastruktur. Die zweite erfordert eine Standardisierungsinfrastruktur. Beide erfordern die gleiche institutionelle Antwort: gemeinsame Governance-Rahmen, die kollaborativ von kirchlichen Institutionen mit Unterstützung spezialisierter Technologen entwickelt werden.


Institutionelle Daten: Umfang und Sensibilität

Der Umfang der Verwaltung katholischer institutioneller Daten in den Vereinigten Staaten ist erheblich.

Bereich Umfang Datenart Rechtlicher Schutz
Gesundheitswesen 650 Krankenhäuser · 2.200+ Einrichtungen · 1 von 7 US-Patienten · 19 Millionen Notfallbesuche/Jahr EHR, klinische Ergebnisse, demografische Daten HIPAA
Bildung 5.905 Schulen · 1,68 Millionen Schüler · 150.000+ Mitarbeiter Akademische Leistung, Verhaltensdaten, Familieninformationen, sakramentale Aufzeichnungen FERPA
Soziale Dienste & Pfarreien 168 Agenturen · 28 Millionen Mahlzeiten · 295.000 Notunterkünfte Einwanderung, Beratung, Wohnungswesen, Fallmanagement, Pfarreienengagement Diözesane Datenschutznormen, pastorales Vertrauen

Katholisches Gesundheitswesen ist die größte Gruppe von gemeinnützigen Gesundheitsdienstleistern in den Vereinigten Staaten: 650 Krankenhäuser und mehr als 2.200 Einrichtungen, die täglich für einen von sieben amerikanischen Patienten sorgen, mit etwa 19 Millionen Notfallbesuchen und 5,6 Millionen Krankenhausaufenthalten jährlich.1 Die drei größten katholischen Gesundheitssysteme (CommonSpirit Health, Ascension und Trinity Health) betreiben gemeinsam mehr als 370 Krankenhäuser mit Gesamteinnahmen von über 90 Milliarden Dollar.2 3 Diese Daten sind durch HIPAA geschützt und sind größtenteils für die technologieübergreifende Entwicklung ohne erweiterte IRB-Prozesse und Datenfreigabevereinbarungen, die selten skalieren, unzugänglich.

Katholische Bildung hat 1,68 Millionen Schüler in 5.905 Schulen mit mehr als 150.000 Fachkräften eingeschrieben.4 Diese durch FERPA geschützten Aufzeichnungen umfassen akademische Leistungen, Verhaltensdaten, Familieninformationen und einzigartig, sakramentale Aufzeichnungen. Der beschleunigte Trend zu einer zentralisierten diözesanen Verwaltung, der von 2,4 Prozent der Grundschulen im Jahr 1990 auf 18 Prozent im Jahr 2023 gewachsen ist, schafft sowohl Chancen als auch Risiken: Zentralisierung ermöglicht systemweite Analysen, konzentriert jedoch sensible Daten auf eine Weise, die die Governance-Verpflichtungen verstärkt.5

Katholische soziale Dienste und Pfarreien umfassen 168 katholische Wohlfahrtsverbände, die im Jahr 2024 mehr als 28 Millionen Mahlzeiten serviert und 295.000 Menschen Notunterkünfte bereitgestellt haben, während sie auf 52 Katastrophen reagierten.6 Ihre Daten umfassen Einwanderungsunterlagen, Beratungsunterlagen, Wohnungsdaten und Informationen zum Fallmanagement für einige der verletzlichsten Bevölkerungsgruppen Amerikas. Tausende von Pfarreien halten zusätzliche Daten über dieselben Familien in Bezug auf Spendenmuster, sakramentale Teilnahme und Engagement in der Gemeinschaft.


Ekklesiale Daten: Das gemeinsame Erbe der Kirche

Eine besondere Kategorie der Datenverwaltung betrifft die digitale Darstellung von Realitäten, die zur universellen Kirche gehören und keine privaten Daten, sondern gemeinsames Erbe sind.

Bereich Was dargestellt werden muss Aktueller Stand
Liturgie Der allgemeine römische Kalender, eigene Kalender, Rangordnungen der Feste, saisonale Zyklen Mehrere unabhängige Implementierungen mit inkompatiblen Identifikatoren
Heilige Schrift Genehmigte Ausgaben und Übersetzungen von der Vulgata bis zu modernen Volkssprachen Kein gemeinsames Register von Ausgaben; jede Anwendung erfindet ihre eigenen Referenzen
Magisteriale Dokumente Enzykliken, apostolische Konstitutionen, konziliare Dekrete, Anweisungen der Dikasterien Kein standardisiertes Identifikationsschema für Typ, Herausgeber oder Autoritätsstufe
Kanönische Strukturen Diözesen, Eparchien, Pfarreien, religiöse Institute, einschließlich historischer Einheiten Jede Datenbank verwendet ihre eigene Nummerierung; es existiert kein kanonisches digitales Verzeichnis
Sakramentale Aufzeichnungen Tauf-, Firmungs-, Ehe- und Weiheaufzeichnungen, die in diözesanen Registersystmen geführt werden Diözesane Datenbanken sind gegenseitig inkompatibel; kein Datenaustauschstandard

Diese Daten unterliegen keinen Datenschutzbeschränkungen – der allgemeine römische Kalender ist öffentlich, die Texte der Heiligen Schrift sind veröffentlicht, die Dokumente des Magisteriums sind frei zugänglich. Was sie jedoch betrifft, ist ein Standardisierungsdefizit. Das eigene Verständnis der Kirche von ihren Strukturen, Riten und Traditionen hat keinen autoritativen digitalen Ausdruck, auf den Softwareprojekte aufbauen können. Jedes Projekt, das auf eine liturgische Feier, eine Bibelausgabe oder ein magisteriales Dokument verweisen muss, muss seine eigene Klassifikation von Grund auf neu erstellen.

Die Folge ist die Fragmentierung, die im begleitenden Memo über katholische digitale Governance im großen Maßstab dokumentiert ist: Dutzende unabhängiger Projekte, die dieselben gemeinsamen Realitäten auf Weisen digitalisieren, die nicht interoperabel sind, nicht gemeinsam validiert werden können und nicht den Bedürfnissen der universellen Kirche nach einer kohärenten digitalen Infrastruktur dienen können.

Vertrauenswürdige Dateninfrastruktur für kirchliche Daten bedeutet gemeinsame, kanonische Standards – entwickelt von kirchlichen Autoritäten, akademischen Experten und spezialisierten Technologen, die zusammenarbeiten – die das gemeinsame Erbe der Kirche in einer einzigen, autoritativen digitalen Darstellung geben.


Synthetische Daten für die KI-Entwicklung

Für sensible institutionelle Daten hat eine spezifische technische Lösung die Produktionsschwelle überschritten: vertrauenswürdige synthetische Daten.

Synthetische Daten sind algorithmisch generierte Daten, die die statistischen Eigenschaften, Verteilungen und Beziehungen eines echten Datensatzes widerspiegeln, ohne tatsächliche Aufzeichnungen von realen Personen zu enthalten. Eine synthetische Patientenkohorte, die aus den elektronischen Gesundheitsakten eines Krankenhausystems entnommen wurde, bewahrt die klinischen Muster, demografischen Verteilungen, Komorbiditätsbeziehungen und Ergebnissätze der realen Bevölkerung, während sie null echte Patienten enthält. Kein individueller Datensatz kann auf eine reale Person zurückverfolgt werden, da kein individueller Datensatz von einer realen Person verwendet wurde, um ihn zu generieren.

Der Unterschied zwischen synthetischen Daten und anonymisierten Daten ist erheblich. Anonymisierte Datensätze entfernen oder maskieren identifizierende Felder, aber die zugrunde liegenden Aufzeichnungen entsprechen weiterhin realen Personen, und Re-Identifikationsangriffe haben gezeigt, dass Anonymisierung allein unzureichenden Schutz für sensible Bevölkerungsgruppen bietet. Synthetische Daten generieren neue Aufzeichnungen aus gelernten Verteilungen. Das Risiko der Re-Identifikation wird dramatisch reduziert, wenn Datensätze vollständig synthetisch sind, da synthetische Aufzeichnungen keine realen Gegenstücke haben, aber der Datenschutz erfordert dennoch eine sorgfältige Gestaltung und unabhängige Tests, bevor die Daten für wesentliche Anwendungen vertrauenswürdig sind.

Die Qualitätsvalidierung ist die entscheidende Governance-Anforderung. Ein synthetischer Datensatz ist für das KI-Training nur dann wertvoll, wenn er die statistischen Eigenschaften der Quelldaten genau bewahrt. Validierungsrahmen messen die Treue (den Grad, in dem synthetische Verteilungen echten Verteilungen entsprechen) und die Privatsphäre (den Grad, in dem synthetische Datensätze gegen Mitgliedschaftsinferenzangriffe resistent sind). Beide Dimensionen erfordern eine rigorose, unabhängige Validierung, bevor synthetische Daten für bedeutende KI-Entwicklungen vertrauenswürdig sind.

Das Marktsignal

Zwei Marktsignale zeigen, dass synthetische Daten von experimenteller zu produktionsfähiger Infrastruktur übergegangen sind.

Signal Organisation Jahr Bedeutung
NVIDIA erwirbt Gretel NVIDIA / Gretel 2025 Die Akquisition von über 320 Millionen Dollar positioniert die synthetische Datengenerierung als grundlegende Unternehmens-KI-Infrastruktur, nicht als Nischen-Privatsphäre-Tool
VA setzt MDClone national ein Veterans Health Administration 2020–heute Demonstriert synthetische Gesundheitsdaten in Produktionsgröße unter bundesstaatlicher Aufsicht

NVIDIA erwarb Gretel, die führende Plattform zur synthetischen Datengenerierung, für mehr als 320 Millionen Dollar im Jahr 2025.7 Die Akquisitionsthese von NVIDIA war eindeutig: Synthetische Daten sind eine wesentliche Infrastruktur für die KI-Entwicklung in regulierten Branchen, in denen echte Daten rechtlich unzugänglich oder praktisch nicht in dem Maß verfügbar sind, das für das KI-Training erforderlich ist.

Das US-amerikanische Ministerium für Veteranenangelegenheiten hat über die Veterans Health Administration MDClone als synthetische Datenengine eingesetzt, um mehrere klinische und Forschungsanwendungsfälle zu unterstützen.8 Der Einsatz der VHA zeigte, dass die synthetische Datengenerierung in der Lage ist, im nationalen Gesundheitssystem unter bundesstaatlicher Aufsicht zu operieren, mit validierter Treue, die ausreicht, um die klinische KI-Entwicklung und die Forschung zu Ergebnissen zu unterstützen.

Diese Signale sind für katholische Institutionen von Bedeutung, da sie zeigen, dass die Technologie produktionsbereit ist und dass die regulatorischen und governance-technischen Fragen, obwohl sie real sind, lösbar sind.


Was katholische Institutionen aufbauen könnten

Vertrauenswürdige Dateninfrastruktur — sowohl standardisierte kirchliche Daten als auch synthetische institutionelle Daten — würde die technologische Entwicklung freischalten, die derzeit strukturell unmöglich ist.

Von synthetischen institutionellen Daten

Anwendungsfall Datenquelle Freigeschaltete Anwendungen
Gesundheitswesen Synthetische EHR-Kohorten über 650 Krankenhäuser Diagnostische KI, klinische Abläufe, bevölkerungsbezogene Forschung über mehrere Systeme
Bildung Synthetische Schülerakten über 5.905 Schulen Frühwarnsysteme, Retentionsmodelle, systemweite Benchmarking
Soziale Dienste Synthetische Falldaten über 168 Wohltätigkeitsorganisationen Programmwirksamkeit, Vorhersage von Obdachlosigkeit, Modellierung der Verwundbarkeit von Nachbarschaften
Forschungspartnerschaften Synthetische Kohorten über Institutionen hinweg NIH-Studien, öffentliche Gesundheitsforschung, Ergebnisse von Minderheitenpopulationen

Synthetische EHR-Kohorten über 650 Krankenhäuser würden die Entwicklung von diagnostischer KI, die Optimierung klinischer Abläufe und die Forschung über Bevölkerungsmuster in mehreren Systemen ermöglichen, ohne PHI-Weiterleitungsworkflows oder verlängerte IRB-Verzögerungen auszulösen.9 Katholische Krankenhäuser bedienen unverhältnismäßig unterrepräsentierte und benachteiligte Bevölkerungsgruppen, die in kommerziellen KI-Trainingsdatensätzen konsequent unterrepräsentiert sind. Synthetische Schülerakten über 5.905 Schulen würden es den diözesanen Bildungsbüros ermöglichen, Frühwarnsysteme für gefährdete Schüler und eine systemweite Leistungsbenchmarking zu erstellen, ohne dass echte Schülerdaten jemals ihr Quellsystem verlassen.10 Synthetische Fallmanagementdaten über 168 katholische Wohlfahrtsverbände würden die Analyse der Programmauswirkungen und das Lernen zwischen den Agenturen ermöglichen, ohne die Identitäten einzelner Klienten offenzulegen.11

Die Kombination von Daten aus sozialen Diensten mit Daten aus der Gemeindepflege schafft ein nachbarschaftliches Bild menschlichen Bedarfs, das kein säkulares Pendant hat. Dieser Anwendungsfall ist eine direkte technische Umsetzung der Bevorzugten Option der Kirche für die Armen: Technologiesysteme, die auf dieser Infrastruktur aufgebaut sind, würden die Marginalisierten sehen und bedienen, ohne ihre Daten auszubeuten, und sicherstellen, dass die verletzlichsten Bevölkerungsgruppen von der Technologieentwicklung profitieren, anstatt durch Datensätze, die sie konsequent unterrepräsentieren, unsichtbar gemacht zu werden.

Eine Governance-Verpflichtung folgt aus jedem dieser Anwendungsfälle. Die Prinzipien der USCCB sind eindeutig: Automatisierte Entscheidungssysteme, die im Gesundheitswesen, in der Bildung und in sozialen Diensten eingesetzt werden, können bestehende Vorurteile verstärken oder einen utilitaristischen Ansatz einführen, der notwendige menschliche Überlegungen verdrängt.12 Die USCCB lehrt ferner, dass Technologie “das ergänzen sollte, was Menschen tun, nicht sie oder ihre moralischen Urteile ersetzen.”13 Modelle, die auf katholischen synthetischen Daten trainiert werden, müssen so gestaltet sein, dass sie das Urteil von Ärzten, Lehrern und Sozialarbeitern ergänzen, und die Zertifizierungskriterien der CDCF für Anwendungen, die synthetische Daten verwenden, sollten verlangen, dass menschliche Fachkräfte die endgültige Entscheidungsbefugnis behalten.

US-amerikanische katholische Institutionen bedienen auch große Bevölkerungsgruppen lateinamerikanischer Abstammung, insbesondere im Gesundheitswesen und in sozialen Diensten. Der Lateinamerikanische und Karibische Bischofsrats hat gefordert, dass KI-Anwendungen in bestimmten lokalen Kontexten kritisch bewertet werden, um festzustellen, ob sie die Menschenwürde und das Gemeinwohl in der Praxis fördern.14 Der föderierte synthetische Datenrahmen bietet genau den Mechanismus, der benötigt wird, um Technologie sicher zu entwickeln und zu bewerten, die diesen spezifischen demografischen Gemeinschaften dient.

Von standardisierten kirchlichen Daten

Anwendungsfall Datenquelle Freigeschaltete Anwendungen
Liturgische Software Geteilte CLEDR-Identifikatoren für alle Feiern Interoperable Kalender-Apps, Lesungswerkzeuge, liturgische Planungssysteme
Schriftanwendungen Geteiltes Register katholischer Bibelausgaben Querverweiswerkzeuge, Integration liturgischer Lesungen, katechetische Plattformen
Magisterielle Forschung Geteilte CMDDR-Identifikatoren für Kirchendokumente Zitationswerkzeuge, Datenbanken der Lehrautorität, theologische Forschungsplattformen
Diözesane Verwaltung Geteilte Identifikatoren für kanonische Strukturen Diözesenübergreifende Verzeichnisse, nationale Berichterstattung, historische Forschung

Wenn katholische Softwareprojekte auf gemeinsamen kanonischen Identifikatoren basieren, anstatt eigene zu erfinden, wird Interoperabilität zur Norm und nicht zur Ausnahme. Eine liturgische Kalender-App kann Daten mit einem Pfarrmanagementsystem austauschen. Eine katechetische Plattform kann dieselben magisterialen Dokumente wie ein theologisches Forschungsinstrument referenzieren. Eine diözesane Datenbank kann mit einem nationalen Verzeichnis interagieren. Jeder gemeinsame Standard eliminiert redundante Anstrengungen und stellt sicher, dass die digitale Darstellung des Erbes der Kirche die kirchliche Einheit dessen widerspiegelt, was sie repräsentiert.


Der Drei-Schichten-Stack

Vertrauenswürdige Dateninfrastruktur für den katholischen Dienst funktioniert über drei Schichten, die den institutionellen Kapazitätsstufen entsprechen.

Schicht Funktion Primäre Nutzer CDCF-Rolle
Infrastruktur Synthetische Datengeneratoren, Standardsvalidierungsmaschinen, PHI/PII-sensible Pipeline-Kontrollen. Behandelt technische Generierung, Validierung und Überprüfung der Standardskonformität. Große Gesundheitssysteme und universitäre Forschungszentren Trägt zur Validierungs- und Konformitätsspezifikation bei
Governance-Plattform Katholisch spezifischer Governance-Rahmen, der Qualitätsvalidierungsstandards, Datenverwaltungsrichtlinien, CDCF-Standardschemata und Zugriffssteuerungsmuster kodiert. Diözesane Governance-Büros und Datenverwalter Verwaltet Validierungsstandards, Zertifizierungskriterien, Schemata
Anwendung Fertige Werkzeuge: diözesane Bildungs-Dashboards, Evaluierungstools für Wohltätigkeitsprogramme, liturgische Software, die CDCF-Standardidentifikatoren verwendet, Integration von Pfarrdaten. Diözesane Büros, Pfarreien, kleine Agenturen Stellt zertifizierte Anwendungsvorlagen und Standardschemata bereit

Drei Ebenen katholischer Daten

Eine in den Diskussionen der C-DART 1-Sitzungen geäußerte Kritik verdient direkte Anerkennung: Datenheterogenität über rechtlich unabhängige katholische Institutionen hinweg würde einen gemeinsamen katholischen Datenraum technisch unsound machen. Diese Kritik ist zutreffend — aber sie bezieht sich auf eine Kategorie von Daten, nicht auf alle. Die geeignete Architektur hängt davon ab, welche Art von Daten verwaltet wird.

Katholische Daten fallen in drei unterschiedliche Ebenen, die jeweils ein anderes Infrastrukturmodell erfordern.

Ebene 1: Sensible institutionelle Daten — föderiert, niemals zusammengelegt

Patientenakten, Schülerakten, Fallmanagementdaten, Pfarrspendenaufzeichnungen und sakramentale Aufzeichnungen, die sich auf bestimmte Personen beziehen, sind sensible Daten, die durch HIPAA, FERPA, diözesane Datenschutznormen und pastorales Vertrauen geschützt sind. Katholische Krankenhäuser, Schulen und Wohltätigkeitsorganisationen arbeiten unter verschiedenen rechtlichen Entitäten, unterschiedlichen regulatorischen Rahmenbedingungen und unterschiedlichen diözesanen Governance-Strukturen. Ihre Datenschemata, Datenqualität und Datenverwaltungsnormen sind inkompatibel in einer Weise, die Rauschen statt Signal erzeugen würde, wenn sie naiv kombiniert werden.

Diese Daten sind niemals Gegenstand eines Datenraums. Die architektonische Antwort ist die föderierte synthetische Datengenerierung: Jede Institution generiert synthetische Datensätze lokal aus ihren eigenen Quelldaten, und nur die synthetischen Datensätze — die keine echten individuellen Aufzeichnungen enthalten — bewegen sich zwischen den Institutionen oder werden für Forschung und KI-Entwicklung verfügbar. Jede Institution behält die volle Kontrolle über ihre Quelldaten.

Ebene 2: Lokale institutionelle Daten — lokal verwaltet, kein Datenraum

Betriebsdaten, die spezifisch für eine Diözese, ein Schulsystem oder eine Agentur sind — Einschreibezahlen, Personalmodelle, Einrichtungsdaten, lokale Programmkonfigurationen — sind nicht sensibel in der gleichen Weise wie persönliche Aufzeichnungen, aber sie sind spezifisch für die Institution, die sie produziert. Sie fallen unter die Governance der lokalen Institution und sind kein Kandidat für einen Datenraum.

Diese Daten profitieren von gemeinsamen Standards (damit diözesane Systeme dort interoperieren können, wo es nötig ist), bleiben jedoch lokal im Besitz und lokal verwaltet.

Ebene 3: Universelle Kirchendaten — ein echter Datenraum

Die Liturgie, die Struktur der Heiligen Schrift, die Dokumente des Lehramtes, das Kirchenrecht, die organisatorische Struktur der Diözesen und Pfarreien – diese Realitäten gehören zur universellen Kirche. Sie sind nicht die privaten Daten einer Institution. Sie stammen von der universellen Autorität der Kirche und werden in jeder Diözese, Pfarrei und katholischen Institution weltweit geteilt.

Diese Daten sind das natürliche Thema eines Datencommons. Die gemeinsame Basis – der Allgemeine Römische Kalender, die kanonischen Bücher der Bibel, die Klassifizierung der lehramtlichen Dokumente, das Verzeichnis der Diözesen – kann zentral definiert, gepflegt und bereitgestellt werden. Es handelt sich nicht nur um die Definition von Standards, die unabhängige Projekte lokal umsetzen; die Daten selbst können aus einem gemeinsamen Commons bereitgestellt werden, da sie universelle Realitäten darstellen, die keiner lokalen Institution individuell gehören.

Lokale Anpassungen existieren innerhalb dieser Ebene: spezifische Kalender für bestimmte Diözesen und Ordensgemeinschaften, genehmigte volkssprachliche Übersetzungen der Schrift und liturgischer Texte, diözesane Ergänzungen zu kanonischen Strukturen. Diese Anpassungen fallen unter die Aufsicht der lokalen Bischofskonferenz oder Diözese, die sie veröffentlicht hat, und viele unterliegen auch dem Urheberrecht – was als legitimes Mittel dient, sowohl die Autorität der lokalen Institution als auch die Rechte des Verlegers zu schützen, der von dieser Institution mit der Erstellung der volkssprachlichen Anpassung beauftragt wurde, dem eine angemessene Vergütung zustehen kann.

Die Architektur muss sowohl die Jurisdiktion als auch das Urheberrecht respektieren. Die zentrale Bereitstellung lokaler Anpassungen erfordert nicht, dass urheberrechtlich geschütztes Material als Open Source veröffentlicht wird. Ein hybrides Modell berücksichtigt beide Realitäten:

  1. Föderierte Option. Die lokale Institution stellt ihre eigenen Anpassungen lokal bereit, unter Verwendung von CDCF-Standard-Schemas für Interoperabilität. Die Daten verlassen niemals die Infrastruktur der Institution. Dies ist immer als Standard verfügbar.
  2. Zentralisierte Option durch Vereinbarung. Nach einer Vereinbarung mit der lokalen Institution stellt die CDCF die Anpassung zentral bereit und schützt die urheberrechtlich geschützten Daten gemäß den von dem Rechteinhaber festgelegten Normen – Zugangskontrollen, Lizenzbedingungen, Anforderungen an die Namensnennung oder Vertriebsbeschränkungen, wie es die lokale Institution für angemessen hält.

Beide Optionen arbeiten nach denselben gemeinsamen Standards und Schemata, sodass nachgelagerte Softwareprojekte unabhängig davon interoperabel sind, ob eine bestimmte Anpassung lokal oder zentral bereitgestellt wird. Der Unterschied ist operationell (wo die Daten gehostet werden und unter welchen Bedingungen) und nicht strukturell (wie die Daten dargestellt werden).

Dieser Unterschied ist wichtig, da er bestimmt, was die CDCF bauen kann und sollte. Für Tier 1-Daten legt die CDCF Validierungsstandards für die Generierung synthetischer Daten fest. Für Tier 2-Daten definiert die CDCF Interoperabilitätsstandards. Für Tier 3-Daten kann die CDCF weiter gehen: Sie kann die kanonischen Standards definieren, die autoritativen Datensätze pflegen und die gemeinsame Basis als operationale Infrastruktur für das gesamte katholische Software-Ökosystem bereitstellen – mit lokal bereitgestellten Anpassungen, wo Vereinbarungen dies erlauben, oder föderiert, wo dies nicht der Fall ist.


Die Rolle der CDCF über die Datenebenen hinweg

Die Satzung der CDCF beauftragt sie, „Open-Source-Software, Datenrepositorien, technische Standards und digitale Plattformen zu koordinieren, zu entwickeln, zu verwalten und zu verbreiten“, und ihr Manifest beschreibt ein „Builder Commons“, das der Aggregation, Überprüfung und Gemeinwohlbildung von Ressourcen für die digitale Mission der katholischen Kirche gewidmet ist. Das dreistufige Datenmodell entspricht direkt diesem Auftrag – wobei die Rolle der CDCF von der Festlegung von Standards für sensible Daten über Interoperabilitätsstandards für lokale Daten bis hin zur operationale Datenverwaltung für das gemeinsame Erbe der universellen Kirche eskaliert.

Datenebene Rolle der CDCF
Tier 1: Sensible institutionelle Daten Definiert Validierungsstandards und Zertifizierungskriterien für die Generierung synthetischer Daten. Legt Treue- und Datenschutzschwellen fest. Hält keine Daten.
Tier 2: Lokale institutionelle Daten Definiert Interoperabilitätsstandards und Schema-Konventionen. Hält keine Daten.
Tier 3: Daten der universellen Kirche Definiert kanonische Standards, pflegt autoritative Datensätze und stellt die gemeinsame Basis mit beigetragenen lokalen Anpassungen bereit.

Für Tier 1 trägt die CDCF Fachwissen in der Governance bei: Treue- und Datenschutzschwellen, die ein synthetischer Datensatz erfüllen muss, um zertifiziert zu werden, was ein Prozess zur Generierung synthetischer Daten nachweisen muss, um die CDCF-Zertifizierung zu erhalten (entsprechend den Kriterien zur Projektprüfung), und Schema-Konventionen, die es ermöglichen, synthetische Datensätze aus verschiedenen Institutionen zu kombinieren oder zu vergleichen für interinstitutionelle Forschung. Gemeinsame Standards verhindern, dass jede Institution dasselbe Problem unabhängig löst.

Für Tier 2 trägt die CDCF Interoperabilitätsstandards bei: gemeinsame Schemata und Konventionen, die es lokal verwalteten Systemen ermöglichen, Daten dort auszutauschen, wo es notwendig ist, ohne dass diese Systeme ihre Daten bündeln oder die Governance an eine zentrale Autorität abgeben müssen.

Für Tier 3 ist der Beitrag der CDCF qualitativ anders. Die Stiftung ist nicht nur in der Lage, die kanonischen Identifikatoren und Datenrepräsentationen für die Realitäten des katholischen Lebens — liturgische Feiern, Schrifteditionen, magisteriale Dokumente, kanonische Strukturen — zu definieren, sondern auch, diese Datensätze als operative Infrastruktur zu pflegen und bereitzustellen. Der Allgemeine Römische Kalender ist beispielsweise nicht nur ein Standard, der lokal umgesetzt werden soll; er ist ein gemeinsamer Datensatz, der zentral bereitgestellt werden kann, mit lokalen spezifischen Kalendern, die von den Diözesen und Ordensgemeinschaften, die sie verwalten, beigetragen werden. Das Gleiche gilt für ein Verzeichnis katholischer Bibelausgaben, eine Klassifizierung magisterialer Dokumente oder ein Verzeichnis von Diözesen und Pfarreien. Die CDCF kann die universelle Basis bereitstellen und, durch Vereinbarung mit den lokalen Institutionen, die sie verwalten, die lokalen Anpassungen einbeziehen und bereitstellen — und damit ihre charterliche Rolle als Verwalter von Datenrepositories erfüllen und ein echtes Daten-Commons für das gemeinsame Erbe der Kirche schaffen.


Beziehung zur CDCF

Die hier dokumentierte Forschung unterstützt beide Säulen der Mission der CDCF.

Projektprüfung. Kriterium 7 der CDCF-Projektprüfungsrichtlinien behandelt die Datenverwaltung direkt: Ein Projekt, das Daten von katholischen Institutionen verarbeitet, hat eine Verpflichtung gegenüber diesen Institutionen und den Bevölkerungen, die sie bedienen, und die Bedingungen, unter denen diese Daten verwendet werden, müssen offengelegt und im Rahmen der Abschlussprüfung bewertet werden. Vertrauenswürdige Infrastruktur für synthetische Daten ist das, was die verantwortungsvolle Entwicklung von KI in großem Maßstab ermöglicht — eine Institution, die validierte synthetische Datengenerierung einsetzt, kann KI-Tools für ihren eigenen Gebrauch entwickeln und zur gemeinsamen katholischen KI-Entwicklung beitragen, ohne die rechtlichen Risiken und die Governance-Belastung, die die Verwendung echter institutioneller Daten erfordern würde.

Standardsprogramm. Das CDCF-Standardsprogramm behandelt die Herausforderung der Standardisierung ecclesialer Daten direkt. Durch die Festlegung gemeinsamer kanonischer Identifikatoren für liturgische Feiern (CLEDR), magisteriale Dokumente (CMDDR), Ausgaben des Römischen Messbuchs (CRMETDR) und zukünftige Standards für Diözesen, Schrifteditionen und kanonische Strukturen schafft das Standardsprogramm das autoritative digitale Vokabular, das katholische Softwareprojekte benötigen.

Die drei Forschungsnotizen (Fragmentierung, Governance-as-Code und vertrauenswürdige Dateninfrastruktur) bilden ein integriertes Argument. Fragmentierung zeigt auf, warum gemeinsame Governance und Standards dringend erforderlich sind. Governance-as-Code bietet die Durchsetzungsarchitektur. Vertrauenswürdige Dateninfrastruktur bietet die Datenbasis — sowohl synthetische institutionelle Daten als auch standardisierte ecclesiale Daten — die es katholischen Institutionen ermöglicht, Technologien zu entwickeln, die dieser Governance-Architektur würdig sind.


Bibliographie


  1. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  2. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  3. CommonSpirit Health, Audited Consolidated Financial Statements as of and for the Years Ended June 30, 2024 and 2023 (Chicago: CommonSpirit Health, 2024), https://www.commonspirit.org/content/dam/shared/en/pdfs/investor-resources/2024-CommonSpirit-Health-Annual-Report.SECURED.pdf.↩︎

  4. National Catholic Educational Association, Vereinigte Staaten Katholische Grund- und Sekundarschulen 2023–2024: Der jährliche statistische Bericht über Schulen, Einschreibungen und Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  5. National Catholic Educational Association, Vereinigte Staaten Katholische Grund- und Sekundarschulen 2023–2024: Der jährliche statistische Bericht über Schulen, Einschreibungen und Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  6. Catholic Charities USA, Wegweisende Perspektiven: Jahresbericht 2024 (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  7. Paresh Dave, “Nvidia erwirbt Berichten zufolge das Startup für synthetische Daten Gretel,” TechCrunch, 19. März 2025, https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/. NVIDIA lehnte eine offizielle Stellungnahme ab; es wurde keine Unternehmensmitteilung veröffentlicht.↩︎

  8. U.S. Department of Veterans Affairs, Veterans Health Administration, “Synthetische Daten zur Verbesserung der Versorgung von Veteranen,” VA News, Dezember 2020, https://news.va.gov/81908/synthetic-data-improve-veteran-care/.↩︎

  9. Catholic Health Association of the United States, Katholische Gesundheitsversorgung in den Vereinigten Staaten (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  10. National Catholic Educational Association, Vereinigte Staaten Katholische Grund- und Sekundarschulen 2023–2024: Der jährliche statistische Bericht über Schulen, Einschreibungen und Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  11. Catholic Charities USA, Wegweisende Perspektiven: Jahresbericht 2024 (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  12. United States Conference of Catholic Bishops, Gemeinsamer Brief zu den Prinzipien und Prioritäten der Künstlichen Intelligenz, 9. Juni 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  13. United States Conference of Catholic Bishops, Gemeinsamer Brief zu den Prinzipien und Prioritäten der Künstlichen Intelligenz, 9. Juni 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  14. Lateinamerikanischer und Karibischer Bischofsrats (CELAM), Künstliche Intelligenz: Ein pastoraler Blick aus Lateinamerika und der Karibik (Bogotá: CELAM, Mai 2025), https://adn.celam.org/celam-presenta-documento-inedito-sobre-inteligencia-artificial-una-mirada-pastoral-desde-america-latina-y-el-caribe/.↩︎