Infrastructure de données de confiance pour le ministère catholique

Type de document	Mémo de recherche
Statut	Brouillon de travail — Discussion C-DART 1 aux États-Unis
Relation	Recherche complémentaire sous-jacente aux Critères de sélection de projet CDCF v0.2

Table des matières

L’Argument Principal
Le Défi de la Gestion des Données Catholiques
Données Institutionnelles : Échelle et Sensibilité
Données Ecclésiales : Le Patrimoine Commun de l’Église
Données Synthétiques pour le Développement de l’IA
Ce que les Institutions Catholiques Pourraient Construire
La Pile à Trois Niveaux
Trois Niveaux de Données Catholiques
Le Rôle de la CDCF à Travers les Niveaux de Données
Relation avec la CDCF
Bibliographie

L’Argument Principal

Les institutions catholiques détiennent collectivement l’une des plus grandes concentrations de responsabilités en matière de gestion des données en Amérique — et l’un des corpus les plus riches de données ecclésiales partagées au monde. Ces deux domaines de données sont distincts par leur nature mais font face au même problème structurel : l’absence d’une infrastructure partagée pour les gouverner, les normaliser et les échanger.

Données institutionnelles — dossiers de patients, dossiers d’étudiants, données de gestion de cas, engagement paroissial — sont sensibles, personnellement identifiables et légalement protégées. Elles servent les mêmes populations chevauchantes à travers les soins de santé, l’éducation, les services sociaux et la vie paroissiale d’une manière qu’aucune institution laïque ne peut reproduire. Cette vue interdomaines est opérationnellement inestimable et presque entièrement inaccessible pour le développement technologique, car les données sont protégées par HIPAA, FERPA, les normes de confidentialité diocésaines et la confiance pastorale des personnes concernées.

Données ecclésiales — la Liturgie, les Écritures Sacrées, les documents magistériels, les structures canoniques — appartiennent à l’Église universelle. Ce ne sont pas des données privées mais un patrimoine partagé, et son défi n’est pas la confidentialité mais la normalisation. Des dizaines de projets indépendants numérisent ces réalités avec des identifiants, des modèles de données et des schémas de classification incompatibles, produisant une fragmentation là où l’unité même de l’Église exige de la cohérence.

Les deux domaines de données nécessitent une infrastructure de confiance : des cadres de gouvernance, des normes de validation et des protocoles d’interopérabilité qui permettent aux institutions catholiques de gérer leurs données de manière responsable, de les échanger lorsque cela est approprié, et de construire des technologies qui servent leurs missions. Ce mémo aborde comment cette infrastructure peut être développée, en prêtant une attention particulière au rôle des données synthétiques dans le déverrouillage du développement de l’IA à partir de jeux de données institutionnels sensibles.

Le Défi de la Gestion des Données Catholiques

Les institutions catholiques font face à un double défi de données qu’aucune autre classe d’institution ne partage.

D’une part, elles détiennent d’énormes quantités de données institutionnelles sensibles à travers des entités légalement indépendantes qui ne peuvent pas les partager — même lorsqu’elles servent les mêmes populations et poursuivent la même mission. Une famille qui reçoit des soins dans un hôpital catholique, éduque ses enfants dans une école catholique, reçoit des services de la part des Œuvres Catholiques, et participe à la vie paroissiale apparaît dans quatre systèmes de données catholiques distincts. Aucune institution laïque n’a cette vue interdomaines des mêmes populations chevauchantes. Cette vue est précisément ce qui rend les données institutionnelles catholiques particulièrement précieuses pour le développement technologique, et précisément ce qui rend ses obligations de gouvernance les plus sérieuses.

D’un autre côté, ils gèrent collectivement les représentations numériques de réalités qui appartiennent à l’Église universelle — le Calendrier romain, les éditions des Écritures sacrées, les documents du Magistère, la structure organisationnelle des diocèses et des paroisses — mais sans normes partagées sur la manière dont ces réalités sont identifiées et représentées dans le code. Chaque projet de logiciel liturgique, chaque application biblique, chaque base de données diocésaine a dû inventer son propre modèle de données pour le même patrimoine commun.

Le premier défi nécessite une infrastructure préservant la vie privée. Le second nécessite une infrastructure de normalisation. Les deux nécessitent la même réponse institutionnelle : des cadres de gouvernance partagés développés de manière collaborative par les institutions de l’Église avec l’assistance de techniciens spécialisés.

Données institutionnelles : Échelle et Sensibilité

L’échelle de la gestion des données institutionnelles catholiques aux États-Unis est substantielle.

Domaine	Échelle	Type de données	Protection légale
Santé	650 hôpitaux · 2 200+ établissements · 1 patient sur 7 aux États-Unis · 19M visites d’urgence/an	Dossier de santé électronique, résultats cliniques, données démographiques	HIPAA
Éducation	5 905 écoles · 1,68M d’étudiants · 150 000+ employés	Performance académique, comportement, informations familiales, dossiers sacramentels	FERPA
Services sociaux & Paroisses	168 agences · 28M de repas · 295 000 placements de logement d’urgence	Immigration, counseling, logement, gestion de cas, engagement paroissial	Normes de confidentialité diocésaines, confiance pastorale

Les soins de santé catholiques constituent le plus grand groupe de fournisseurs de soins de santé à but non lucratif aux États-Unis : 650 hôpitaux et plus de 2 200 établissements prenant soin d’un Américain sur sept chaque jour, avec environ 19 millions de visites d’urgence et 5,6 millions d’admissions à l’hôpital chaque année.¹ Les trois plus grands systèmes de santé catholiques (CommonSpirit Health, Ascension et Trinity Health) exploitent collectivement plus de 370 hôpitaux avec des revenus combinés dépassant 90 milliards de dollars.² ³ Ces données sont protégées par la HIPAA et sont largement inaccessibles pour le développement technologique interinstitutionnel sans des processus IRB prolongés et des accords de partage de données qui, rarement, sont à grande échelle.

L’éducation catholique inscrit 1,68 million d’étudiants dans 5 905 écoles avec plus de 150 000 professionnels.⁴ Ces dossiers protégés par la FERPA incluent la performance académique, les données comportementales, les informations familiales et, de manière unique, les dossiers sacramentels. La tendance croissante vers une gestion centralisée diocésaine, qui est passée de 2,4 % des écoles élémentaires en 1990 à 18 % en 2023, crée à la fois des opportunités et des risques : la centralisation permet des analyses à l’échelle du système mais concentre des données sensibles de manière à amplifier les obligations de gouvernance.⁵

Les services sociaux et les paroisses catholiques englobent 168 agences de Catholic Charities qui ont servi plus de 28 millions de repas et fourni un logement d’urgence à 295 000 personnes en 2024, tout en répondant à 52 catastrophes.⁶ Leurs données incluent des dossiers d’immigration, des dossiers de counseling, des données sur le logement et des informations sur la gestion de cas pour certaines des populations les plus vulnérables d’Amérique. Des milliers de paroisses détiennent des données supplémentaires sur les mêmes familles concernant les modèles de dons, la participation sacramentelle et l’engagement communautaire.

Données ecclésiales : Le patrimoine partagé de l’Église

Une catégorie distincte de gestion des données concerne la représentation numérique des réalités qui appartiennent à l’Église universelle et ne sont pas des données privées mais un patrimoine partagé.

Domaine	Ce qui doit être représenté	État actuel
Liturgy	Le Calendrier romain général, calendriers propres, classements des fêtes, cycles saisonniers	Multiples mises en œuvre indépendantes avec des identifiants incompatibles
Sacred Scripture	Éditions et traductions approuvées de la Vulgate aux langues vernaculaires modernes	Pas de registre partagé des éditions ; chaque application invente ses propres références
Magisterial Documents	Encycliques, constitutions apostoliques, décrets conciliaires, instructions des dicastères	Pas de schéma d’identifiant standard pour le type, l’émetteur ou le niveau d’autorité
Canonical Structures	Diocèses, éparchies, paroisses, instituts religieux, y compris les entités historiques	Chaque base de données utilise sa propre numérotation ; aucun annuaire numérique canonique n’existe
Sacramental Records	Baptême, confirmation, mariage, dossiers d’ordination maintenus à travers les systèmes de registre diocésains	Les bases de données diocésaines sont mutuellement incompatibles ; aucun standard d’échange de données

Ces données ne font pas face à des contraintes de confidentialité — le Calendrier romain général est public, les textes de la Sainte Écriture sont publiés, les documents du Magistère sont librement accessibles. Ce à quoi elles font face est un déficit de standardisation. La propre compréhension de l’Église de ses structures, rites et traditions n’a pas d’expression numérique autorisée sur laquelle les projets logiciels peuvent s’appuyer. Chaque projet qui doit faire référence à une célébration liturgique, une édition de la Bible ou un document magistériel doit créer sa propre classification à partir de zéro.

La conséquence est la fragmentation documentée dans le mémo compagnon sur la gouvernance numérique catholique à grande échelle : des dizaines de projets indépendants numérisant les mêmes réalités partagées de manière à ne pas pouvoir interopérer, ne pouvant pas être validés conjointement et ne pouvant pas répondre aux besoins de l’Église universelle pour une infrastructure numérique cohérente.

Une infrastructure de données fiable pour les données ecclésiales signifie des normes partagées et canoniques — développées par des autorités ecclésiales, des experts académiques et des technologues spécialisés travaillant ensemble — qui donnent au patrimoine commun de l’Église une représentation numérique unique et autorisée.

Données Synthétiques pour le Développement de l’IA

Pour les données institutionnelles sensibles, une solution technique spécifique a franchi le seuil de production : des données synthétiques fiables.

Les données synthétiques sont des données générées algorithmiquement qui reflètent les propriétés statistiques, les distributions et les relations d’un ensemble de données réel sans contenir de dossiers réels d’individus réels. Une cohorte de patients synthétiques tirée des dossiers de santé électroniques d’un système hospitalier préserve les schémas cliniques, les distributions démographiques, les relations de comorbidité et les taux de résultats de la population réelle tout en ne contenant aucun patient réel. Aucun dossier individuel ne peut être retracé à une personne réelle car aucun dossier individuel d’une personne réelle n’a été utilisé pour le générer.

La distinction entre données synthétiques et données anonymisées est conséquente. Les ensembles de données anonymisées suppriment ou masquent les champs identifiants, mais les dossiers sous-jacents correspondent toujours à de réels individus, et les attaques de ré-identification ont démontré que l’anonymisation seule offre une protection insuffisante pour les populations sensibles. Les données synthétiques génèrent de nouveaux dossiers à partir de distributions apprises. Le risque de ré-identification est considérablement réduit lorsque les ensembles de données sont entièrement synthétiques, car les dossiers synthétiques n’ont pas de correspondants dans le monde réel, mais la confidentialité nécessite toujours une conception soigneuse et des tests indépendants avant que les données puissent être considérées comme fiables pour un usage conséquent.

La validation de la qualité est l’exigence critique de gouvernance. Un ensemble de données synthétiques n’est précieux pour l’entraînement de l’IA que s’il préserve avec précision les propriétés statistiques des données sources. Les cadres de validation mesurent la fidélité (le degré auquel les distributions synthétiques correspondent aux distributions réelles) et la confidentialité (le degré auquel les enregistrements synthétiques résistent aux attaques d’inférence d’appartenance). Les deux dimensions nécessitent une validation rigoureuse et indépendante avant que les données synthétiques puissent être considérées comme fiables pour un développement d’IA conséquent.

Le signal du marché

Deux signaux du marché établissent que les données synthétiques ont franchi le cap de l’expérimental à l’infrastructure de production.

Signal	Organisation	Année	Signification
NVIDIA acquiert Gretel	NVIDIA / Gretel	2025	Acquisition de plus de 320 millions de dollars positionne la génération de données synthétiques comme une infrastructure fondamentale pour l’IA d’entreprise, et non comme un outil de confidentialité de niche
VA déploie MDClone à l’échelle nationale	Administration des anciens combattants	2020–présent	Démontre des données de santé synthétiques à l’échelle de la production sous la supervision réglementaire fédérale

NVIDIA a acquis Gretel, la principale plateforme de génération de données synthétiques, pour plus de 320 millions de dollars en 2025.⁷ La thèse d’acquisition de NVIDIA était explicite : les données synthétiques sont une infrastructure essentielle pour le développement de l’IA dans les industries réglementées où les données réelles sont légalement inaccessibles ou pratiquement indisponibles à l’échelle requise pour l’entraînement de l’IA.

Le Département des anciens combattants des États-Unis, par l’intermédiaire de l’Administration des anciens combattants, a déployé MDClone comme moteur de données synthétiques pour soutenir plusieurs cas d’utilisation clinique et de recherche.⁸ Le déploiement de la VHA a démontré que la génération de données synthétiques peut fonctionner à l’échelle du système de santé national sous la supervision réglementaire fédérale, avec une fidélité validée suffisante pour soutenir le développement de l’IA clinique et la recherche sur les résultats.

Ces signaux sont importants pour les institutions catholiques car ils établissent que la technologie est prête pour la production et que les questions réglementaires et de gouvernance, bien que réelles, sont solvables.

Ce que les institutions catholiques pourraient construire

Une infrastructure de données de confiance — à la fois des données ecclésiales standardisées et des données institutionnelles synthétiques — débloquerait le développement technologique qui est actuellement structurellement impossible.

À partir de données institutionnelles synthétiques

Cas d’utilisation	Source de données	Applications débloquées
Santé	Cohortes EHR synthétiques à travers 650 hôpitaux	IA diagnostique, opérations cliniques, recherche sur les populations multi-systèmes
Éducation	Dossiers d’étudiants synthétiques à travers 5,905 écoles	Systèmes d’alerte précoce, modèles de rétention, étalonnage à l’échelle du système
Services sociaux	Données de cas synthétiques à travers 168 agences de Charité	Efficacité des programmes, prédiction de l’itinérance, modélisation de la vulnérabilité des quartiers
Partenariats de recherche	Cohortes synthétiques inter-institutionnelles	Études NIH, recherche en santé publique, résultats pour les populations minoritaires

Des cohortes EHR synthétiques à travers 650 hôpitaux permettraient le développement d’IA diagnostique, l’optimisation des opérations cliniques et la recherche multi-systèmes sur les modèles de population sans déclencher de flux de partage d’informations protégées (PHI) ou de retards prolongés d’examen éthique (IRB).⁹ Les hôpitaux catholiques servent de manière disproportionnée des populations sous-représentées et mal desservies que les ensembles de données d’entraînement d’IA commerciaux sous-représentent systématiquement. Des dossiers d’étudiants synthétiques à travers 5 905 écoles permettraient aux bureaux d’éducation diocésains de construire des systèmes d’alerte précoce pour les étudiants à risque et de réaliser des benchmarks de performance à l’échelle du système sans que de vraies données d’étudiants ne quittent jamais leur système source.¹⁰ Des données de gestion de cas synthétiques à travers 168 agences de Catholic Charities permettraient l’analyse de l’efficacité des programmes et l’apprentissage inter-agences sans exposer l’identité des clients individuels.¹¹

La combinaison des données de services sociaux avec les données de la communauté paroissiale crée une image des besoins humains à l’échelle du quartier qui n’a pas d’équivalent séculier. Ce cas d’utilisation est une exécution technique directe de l’Option préférentielle pour les pauvres de l’Église : les systèmes technologiques construits sur cette infrastructure verraient et serviraient les marginalisés sans exploiter leurs données, garantissant que les populations les plus vulnérables bénéficient du développement technologique plutôt que d’être rendues invisibles par des ensembles de données qui les sous-représentent systématiquement.

Une obligation de gouvernance découle de chacun de ces cas d’utilisation. Les principes de l’USCCB sont directs : les systèmes de prise de décision automatisée utilisés dans les soins de santé, l’éducation et les services sociaux peuvent renforcer les biais existants ou introduire une approche utilitaire qui déplace les considérations humaines nécessaires.¹² L’USCCB enseigne en outre que la technologie devrait « compléter ce que font les êtres humains, pas les remplacer ou remplacer leurs jugements moraux ». ¹³ Les modèles formés sur des données synthétiques catholiques doivent être conçus pour compléter le jugement des médecins, des enseignants et des travailleurs sociaux, et les critères de certification du CDCF pour les applications utilisant des données synthétiques devraient exiger que les professionnels humains conservent l’autorité décisionnelle ultime.

Les institutions catholiques américaines servent également de grandes populations d’origine latino-américaine, en particulier dans les soins de santé et les services sociaux. Le Conseil épiscopal latino-américain et des Caraïbes a appelé à une évaluation critique des applications d’IA dans des contextes locaux particuliers pour déterminer si elles avancent la dignité humaine et le bien commun dans la pratique.¹⁴ Le cadre de données synthétiques fédéré fournit exactement le mécanisme nécessaire pour développer et évaluer en toute sécurité des technologies au service de ces communautés démographiques spécifiques.

À partir de données ecclésiales standardisées

Cas d’utilisation	Source de données	Applications déverrouillées
Logiciel Liturgique	Identifiants CLEDR partagés pour toutes les célébrations	Applications de calendrier interopérables, outils de lectionnaire, systèmes de planification liturgique
Applications Scripturaires	Registre partagé des éditions de la Bible catholique	Outils de référence croisée, intégration de lectures liturgiques, plateformes catéchétiques
Recherche Magistérielle	Identifiants CMDDR partagés pour les documents de l’Église	Outils de citation, bases de données d’autorité d’enseignement, plateformes de recherche théologique
Administration Diocésaine	Identifiants partagés pour les structures canoniques	Annuaire inter-diocésain, rapports nationaux, recherche historique

Lorsque les projets logiciels catholiques s’appuient sur des identifiants canoniques partagés plutôt que d’en inventer de nouveaux, l’interopérabilité devient la norme plutôt que l’exception. Une application de calendrier liturgique peut échanger des données avec un système de gestion paroissiale. Une plateforme catéchétique peut référencer les mêmes documents magistériels qu’un outil de recherche théologique. Une base de données diocésaine peut interopérer avec un annuaire national. Chaque norme partagée élimine les efforts redondants et garantit que la représentation numérique du patrimoine de l’Église reflète l’unité ecclésiale de ce qu’elle représente.

La Pile à Trois Niveaux

Une infrastructure de données fiable pour le ministère catholique fonctionne à travers trois niveaux qui correspondent aux niveaux de capacité institutionnelle.

Niveau	Fonction	Utilisateurs Principaux	Rôle de la CDCF
Infrastructure	Générateurs de données synthétiques, moteurs de validation des normes, contrôles de pipeline sensibles au PHI/PII. Gère la génération technique, la validation et la vérification de la conformité aux normes.	Grands systèmes de santé et centres de recherche universitaire	Contribue aux spécifications de validation et de conformité
Plateforme de Gouvernance	Cadre de gouvernance spécifique au catholicisme encodant des normes de validation de qualité, des politiques de gestion des données, des schémas de normes de la CDCF et des modèles de contrôle d’accès.	Bureaux de gouvernance diocésains et gestionnaires de données	Gère les normes de validation, les critères de certification, les schémas
Application	Outils prêts à l’emploi : tableaux de bord éducatifs diocésains, outils d’évaluation des programmes de Charité, logiciels liturgiques utilisant des identifiants standards de la CDCF, intégrations de données paroissiales.	Bureaux diocésains, paroisses, petites agences	Fournit des modèles d’application certifiés et des schémas standards

Trois Niveaux de Données Catholiques

Une critique soulevée lors des discussions de la session C-DART 1 mérite d’être reconnue directement : l’hétérogénéité des données à travers des institutions catholiques légalement indépendantes rendrait un commun de données catholiques techniquement peu fiable. Cette critique est exacte — mais elle s’applique à une catégorie de données, pas à toutes. L’architecture appropriée dépend du type de données qui est gouverné.

Les données catholiques se répartissent en trois niveaux distincts, chacun nécessitant un modèle d’infrastructure différent.

Niveau 1 : Données institutionnelles sensibles — fédérées, jamais regroupées

Les dossiers des patients, les dossiers des étudiants, les données de gestion des cas, les enregistrements de dons paroissiaux et les dossiers sacramentels concernant des individus spécifiques sont des données sensibles protégées par la HIPAA, la FERPA, les normes de confidentialité diocésaines et la confiance pastorale. Les hôpitaux, écoles et agences de Charité catholiques fonctionnent sous différentes entités juridiques, différents cadres réglementaires et différentes structures de gouvernance diocésaine. Leurs schémas de données, la qualité des données et les normes de gouvernance des données sont incompatibles de manière à produire du bruit plutôt que du signal s’ils étaient combinés naïvement.

Ces données ne font jamais l’objet d’un commun de données. La réponse architecturale est la génération de données synthétiques fédérées : chaque institution génère des ensembles de données synthétiques localement à partir de ses propres données sources, et seuls les ensembles de données synthétiques — ne contenant aucun enregistrement individuel réel — circulent entre les institutions ou deviennent disponibles pour la recherche et le développement de l’IA. Chaque institution conserve un contrôle total sur ses données sources.

Niveau 2 : Données institutionnelles locales — gouvernées localement, pas un commun

Les données opérationnelles spécifiques à un diocèse, un système scolaire ou une agence — chiffres d’inscription, modèles de personnel, données d’infrastructure, configurations de programmes locaux — ne sont pas sensibles de la même manière que les dossiers personnels, mais elles sont spécifiques à l’institution qui les produit. Elles relèvent de la gouvernance de l’institution locale et ne sont pas candidates pour un commun de données.

Ces données bénéficient de normes partagées (afin que les systèmes diocésains puissent interopérer là où c’est nécessaire) mais restent la propriété et la gouvernance locales.

Niveau 3 : Données de l’Église universelle — un véritable commun de données

La Liturgie, la structure des Écritures sacrées, les documents du Magistère, le Droit canon, la structure organisationnelle des diocèses et des paroisses — ces réalités appartiennent à l’Église universelle. Elles ne sont pas les données privées d’aucune institution. Elles proviennent de l’autorité universelle de l’Église et sont partagées dans chaque diocèse, paroisse et institution catholique à travers le monde.

Ces données sont le sujet naturel d’un bien commun de données. La base partagée — le Calendrier romain général, les livres canoniques de la Bible, la classification des documents magistériels, le répertoire des diocèses — peut être définie, maintenue et servie de manière centrale. Il ne s’agit pas simplement de définir des normes que des projets indépendants mettent en œuvre localement ; les données elles-mêmes peuvent être servies à partir d’un bien commun partagé, car elles représentent des réalités universelles qui n’appartiennent à aucune institution locale individuellement.

Des adaptations locales existent au sein de ce niveau : calendriers appropriés pour des diocèses et des ordres religieux spécifiques, traductions vernaculaires approuvées des Écritures et des textes liturgiques, compléments diocésains aux structures canoniques. Ces adaptations relèvent de la gouvernance de la conférence des évêques locaux ou du diocèse qui les a publiées, et beaucoup relèvent également du droit d’auteur — ce qui constitue un moyen légitime de protéger à la fois l’autorité de l’institution locale et les droits de l’éditeur chargé par cette institution de produire l’adaptation vernaculaire, à qui une compensation peut être due.

L’architecture doit respecter à la fois la juridiction et le droit d’auteur. Servir de manière centrale les adaptations locales ne nécessite pas que le matériel protégé par le droit d’auteur soit publié en open source. Un modèle hybride prend en compte les deux réalités :

Option fédérée. L’institution locale sert ses propres adaptations localement, en utilisant les schémas standards du CDCF pour l’interopérabilité. Les données ne quittent jamais l’infrastructure de l’institution. Cela est toujours disponible comme option par défaut.
Option centralisée par accord. Suite à un accord avec l’institution locale, le CDCF sert l’adaptation de manière centrale tout en protégeant les données protégées par le droit d’auteur selon les normes établies par le titulaire des droits — contrôles d’accès, conditions de licence, exigences d’attribution ou restrictions de distribution selon ce que l’institution locale juge approprié.

Les deux options fonctionnent selon les mêmes normes et schémas partagés, de sorte que les projets logiciels en aval interopèrent indépendamment de la manière dont une adaptation donnée est servie, localement ou centralement. La distinction est opérationnelle (où les données sont hébergées et selon quelles conditions) plutôt que structurelle (comment les données sont représentées).

Cette distinction est importante car elle détermine ce que le CDCF peut et doit construire. Pour les données de niveau 1, le CDCF établit des normes de validation pour la génération de données synthétiques. Pour les données de niveau 2, le CDCF définit des normes d’interopérabilité. Pour les données de niveau 3, le CDCF peut aller plus loin : il peut définir les normes canoniques, maintenir les ensembles de données autoritaires et servir la base partagée comme infrastructure opérationnelle pour l’ensemble de l’écosystème logiciel catholique — avec des adaptations locales servies de manière centrale lorsque les accords le permettent, ou fédérées lorsqu’ils ne le permettent pas.

Le Rôle du CDCF à Travers les Niveaux de Données

Les statuts du CDCF lui confèrent la mission de « coordonner, développer, gérer et diffuser des logiciels open-source, des dépôts de données, des normes techniques et des plateformes numériques », et son manifeste décrit un « bien commun de bâtisseurs » dédié à l’agrégation, à la vérification et à la communalisation des ressources pour la mission numérique de l’Église catholique. Le modèle de données à trois niveaux s’aligne directement sur cette charte — avec le rôle du CDCF qui passe de l’établissement de normes pour les données sensibles, à des normes d’interopérabilité pour les données locales, jusqu’à la gestion opérationnelle des données pour le patrimoine partagé de l’Église universelle.

Niveau de Données	Rôle du CDCF
Niveau 1 : Données institutionnelles sensibles	Définit les normes de validation et les critères de certification pour la génération de données synthétiques. Établit des seuils de fidélité et de confidentialité. Ne détient pas de données.
Niveau 2 : Données institutionnelles locales	Définit les normes d’interopérabilité et les conventions de schéma. Ne détient pas de données.
Niveau 3 : Données de l’Église universelle	Définit les normes canoniques, maintient les ensembles de données autoritaires et sert la base partagée avec des adaptations locales contribué.

Pour le Niveau 1, le CDCF contribue une expertise en gouvernance : les seuils de fidélité et de confidentialité qu’un ensemble de données synthétiques doit respecter pour obtenir une certification, ce qu’un processus de génération de données synthétiques doit démontrer pour recevoir la certification du CDCF (parallèle aux critères de sélection de projet), et les conventions de schéma qui permettent de combiner ou de comparer des ensembles de données synthétiques provenant de différentes institutions pour la recherche interinstitutionnelle. Des normes partagées empêchent chaque institution de résoudre le même problème de manière indépendante.

Pour le Niveau 2, le CDCF contribue des normes d’interopérabilité : des schémas et des conventions communs qui permettent aux systèmes gouvernés localement d’échanger des données là où cela est nécessaire, sans exiger que ces systèmes regroupent leurs données ou cèdent la gouvernance à une autorité centrale.

Pour le Niveau 3, la contribution du CDCF est qualitativement différente. La Fondation est positionnée non seulement pour définir les identifiants canoniques et les représentations de données pour les réalités de la vie catholique — célébrations liturgiques, éditions de la Scripture, documents magistériels, structures canoniques — mais aussi pour maintenir et servir ces ensembles de données comme infrastructure opérationnelle. Le Calendrier romain général, par exemple, n’est pas simplement une norme à mettre en œuvre localement ; c’est un ensemble de données partagé qui peut être servi de manière centrale, avec des calendriers propres locaux fournis par les diocèses et les ordres religieux qui les gouvernent. Il en va de même pour un registre des éditions de la Bible catholique, une classification des documents magistériels, ou un annuaire des diocèses et des paroisses. Le CDCF peut servir la base universelle et, par accord avec les institutions locales qui les gouvernent, incorporer et servir les adaptations locales — remplissant ainsi son rôle statutaire en tant que gardien des dépôts de données et créant un véritable bien commun de données pour le patrimoine partagé de l’Église.

Relation avec le CDCF

La recherche documentée ici soutient les deux piliers de la mission du CDCF.

Vérification de projet. Le critère 7 des Critères de vérification de projet du CDCF aborde directement la gestion des données : un projet qui traite des données provenant d’institutions catholiques a une obligation envers ces institutions et envers les populations qu’elles servent, et les conditions dans lesquelles ces données sont utilisées doivent être divulguées et évaluées dans le cadre de l’examen de graduation. Une infrastructure de données synthétiques de confiance est ce qui rend possible le développement responsable de l’IA à grande échelle — une institution qui déploie une génération de données synthétiques validées peut développer des outils d’IA pour son propre usage et contribuer au développement partagé de l’IA catholique sans l’exposition légale et le fardeau de gouvernance que l’utilisation de données institutionnelles réelles nécessiterait.

Programme de normes. Le programme de normes du CDCF aborde directement le défi de la normalisation des données ecclésiales. En établissant des identifiants canoniques partagés pour les célébrations liturgiques (CLEDR), les documents magistériels (CMDDR), les éditions du Missel romain (CRMETDR), et les futures normes pour les diocèses, les éditions de la Scripture et les structures canoniques, le programme de normes crée le vocabulaire numérique autoritaire dont les projets logiciels catholiques ont besoin.

Les trois mémos de recherche (fragmentation, gouvernance-en-code, et infrastructure de données de confiance) forment un argument intégré. La fragmentation établit pourquoi la gouvernance partagée et les normes sont urgentes. La gouvernance-en-code fournit l’architecture d’application. L’infrastructure de données de confiance fournit la base de données — à la fois des données institutionnelles synthétiques et des données ecclésiales normalisées — qui permet aux institutions catholiques de développer une technologie digne de cette architecture de gouvernance.

Bibliographie

Association catholique de la santé des États-Unis, Soins de santé catholiques aux États-Unis (Washington, DC : Association catholique de la santé, 2024), https://www.chausa.org/about/facts—statistics.↩︎
Association catholique de la santé des États-Unis, Soins de santé catholiques aux États-Unis (Washington, DC : Association catholique de la santé, 2024), https://www.chausa.org/about/facts—statistics.↩︎
CommonSpirit Health, États financiers consolidés audités au 30 juin 2024 et 2023 (Chicago : CommonSpirit Health, 2024), https://www.commonspirit.org/content/dam/shared/en/pdfs/investor-resources/2024-CommonSpirit-Health-Annual-Report.SECURED.pdf.↩︎
National Catholic Educational Association, Écoles élémentaires et secondaires catholiques des États-Unis 2023–2024 : Le rapport statistique annuel sur les écoles, l’inscription et le personnel (Arlington, VA : NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
National Catholic Educational Association, Écoles élémentaires et secondaires catholiques des États-Unis 2023–2024 : Le rapport statistique annuel sur les écoles, l’inscription et le personnel (Arlington, VA : NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
Catholic Charities USA, Pathways Forward : Rapport annuel 2024 (Alexandria, VA : Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎
Paresh Dave, “Nvidia aurait acquis la startup de données synthétiques Gretel,” TechCrunch, 19 mars 2025, https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/. NVIDIA a décliné tout commentaire officiel ; aucun communiqué de presse d’entreprise n’a été émis.↩︎
U.S. Department of Veterans Affairs, Veterans Health Administration, “Données synthétiques pour améliorer les soins aux vétérans,” VA News, décembre 2020, https://news.va.gov/81908/synthetic-data-improve-veteran-care/.↩︎
Catholic Health Association of the United States, Soins de santé catholiques aux États-Unis (Washington, DC : Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎
National Catholic Educational Association, Écoles élémentaires et secondaires catholiques des États-Unis 2023–2024 : Le rapport statistique annuel sur les écoles, l’inscription et le personnel (Arlington, VA : NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
Catholic Charities USA, Pathways Forward : Rapport annuel 2024 (Alexandria, VA : Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎
United States Conference of Catholic Bishops, Lettre conjointe sur les principes et priorités de l’intelligence artificielle, 9 juin 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎
United States Conference of Catholic Bishops, Lettre conjointe sur les principes et priorités de l’intelligence artificielle, 9 juin 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎
Latin American and Caribbean Episcopal Council (CELAM), Intelligence Artificielle : Un regard pastoral depuis l’Amérique Latine et les Caraïbes (Bogotá : CELAM, mai 2025), https://adn.celam.org/celam-presenta-documento-inedito-sobre-inteligencia-artificial-una-mirada-pastoral-desde-america-latina-y-el-caribe/.↩︎