CDCF — Catholic Digital Commons Foundation

Infrastruttura Dati Affidabile per il Ministero Cattolico

Tipo di documento Memo di ricerca
Stato Bozza di lavoro — Discussione C-DART 1 U.S.A.
Relazione Ricerca supplementare alla base dei Criteri di Valutazione dei Progetti CDCF v0.2

Indice

  1. L’Argomento Fondamentale
  2. La Sfida della Gestione dei Dati Cattolici
  3. Dati Istituzionali: Scala e Sensibilità
  4. Dati Ecclesiali: Il Patrimonio Condiviso della Chiesa
  5. Dati Sintetici per lo Sviluppo dell’IA
  6. Cosa Potrebbero Costruire le Istituzioni Cattoliche
  7. Lo Stack a Tre Livelli
  8. Tre Livelli di Dati Cattolici
  9. Il Ruolo del CDCF nei Livelli di Dati
  10. Relazione con il CDCF
  11. Bibliografia

L’Argomento Fondamentale

Le istituzioni cattoliche detengono collettivamente una delle più grandi concentrazioni di responsabilità nella gestione dei dati in America — e uno dei patrimoni ecclesiali condivisi più ricchi al mondo. Questi due domini di dati sono distinti per carattere ma affrontano lo stesso problema strutturale: l’assenza di un’infrastruttura condivisa per governarli, standardizzarli e scambiarli.

Dati istituzionali — registri dei pazienti, file degli studenti, dati di gestione dei casi, coinvolgimento parrocchiale — sono sensibili, identificabili personalmente e legalmente protetti. Servono le stesse popolazioni sovrapposte nei settori della salute, dell’istruzione, dei servizi sociali e della vita parrocchiale in un modo che nessuna istituzione secolare può replicare. Quella visione trasversale è operativamente inestimabile e quasi interamente inaccessibile per lo sviluppo tecnologico, poiché i dati sono protetti da HIPAA, FERPA, norme di privacy diocesane e dalla fiducia pastorale delle persone coinvolte.

Dati ecclesiali — la Liturgia, la Sacra Scrittura, documenti Magisteriali, strutture canoniche — appartengono alla Chiesa universale. Non sono dati privati ma patrimonio condiviso, e la sua sfida non è la privacy ma la standardizzazione. Decine di progetti indipendenti digitalizzano queste realtà con identificatori, modelli di dati e schemi di classificazione incompatibili, producendo frammentazione dove l’unità stessa della Chiesa richiede coerenza.

Entrambi i domini di dati richiedono un’infrastruttura affidabile: quadri di governance, standard di validazione e protocolli di interoperabilità che consentano alle istituzioni cattoliche di gestire i propri dati in modo responsabile, scambiarli dove appropriato e costruire tecnologie che servano le loro missioni. Questo memo affronta come tale infrastruttura possa essere sviluppata, con particolare attenzione al ruolo dei dati sintetici nel sbloccare lo sviluppo dell’IA dai set di dati istituzionali sensibili.


La Sfida della Gestione dei Dati Cattolici

Le istituzioni cattoliche affrontano una doppia sfida dei dati che nessun’altra classe di istituzione condivide.

Da un lato, detengono enormi quantità di dati istituzionali sensibili attraverso entità legalmente indipendenti che non possono condividerli — anche quando servono le stesse popolazioni e perseguono la stessa missione. Una famiglia che riceve assistenza in un ospedale cattolico, educa i propri figli in una scuola cattolica, riceve servizi da Caritas e partecipa alla vita parrocchiale appare in quattro sistemi di dati cattolici separati. Nessuna istituzione secolare ha quella visione trasversale delle stesse popolazioni sovrapposte. Quella visione è precisamente ciò che rende i dati istituzionali cattolici unici e preziosi per lo sviluppo tecnologico, e precisamente ciò che rende le sue obbligazioni di governance le più serie.

Dall’altro lato, gestiscono collettivamente le rappresentazioni digitali delle realtà che appartengono alla Chiesa universale — il Calendario Romano, le edizioni della Sacra Scrittura, i documenti del Magistero, la struttura organizzativa delle diocesi e delle parrocchie — ma senza standard condivisi su come quelle realtà siano identificate e rappresentate nel codice. Ogni progetto di software liturgico, ogni applicazione biblica, ogni database diocesano ha dovuto inventare il proprio modello di dati per lo stesso patrimonio condiviso.

La prima sfida richiede un’infrastruttura che preservi la privacy. La seconda richiede un’infrastruttura di standardizzazione. Entrambe richiedono la stessa risposta istituzionale: quadri di governance condivisi sviluppati collaborativamente dalle istituzioni della Chiesa con l’assistenza di tecnologi specializzati.


Dati Istituzionali: Scala e Sensibilità

La scala della gestione dei dati istituzionali cattolici negli Stati Uniti è sostanziale.

Dominio Scala Tipo di Dato Protezione Legale
Sanità 650 ospedali · 2.200+ strutture · 1 paziente su 7 negli Stati Uniti · 19M visite di emergenza/anno EHR, esiti clinici, dati demografici HIPAA
Istruzione 5.905 scuole · 1,68M studenti · 150.000+ personale Prestazioni accademiche, dati comportamentali, informazioni familiari, registri sacramentali FERPA
Servizi Sociali & Parrocchie 168 agenzie · 28M pasti · 295.000 collocamenti di emergenza Immigrazione, consulenza, alloggio, gestione dei casi, coinvolgimento parrocchiale Norme di privacy diocesane, fiducia pastorale

La sanità cattolica è il più grande gruppo di fornitori di assistenza sanitaria non profit negli Stati Uniti: 650 ospedali e oltre 2.200 strutture totali che si prendono cura di un paziente americano su sette ogni giorno, con circa 19 milioni di visite di emergenza e 5,6 milioni di ricoveri ospedalieri all’anno.1 I tre maggiori sistemi sanitari cattolici (CommonSpirit Health, Ascension e Trinity Health) gestiscono collettivamente oltre 370 ospedali con ricavi combinati superiori a 90 miliardi di dollari.2 3 Questi dati sono protetti dalla HIPAA e sono in gran parte inaccessibili per lo sviluppo tecnologico interistituzionale senza processi IRB estesi e accordi di condivisione dei dati che raramente scalano.

L’istruzione cattolica iscrive 1,68 milioni di studenti in 5.905 scuole con oltre 150.000 membri del personale professionale.4 Questi registri protetti dalla FERPA includono prestazioni accademiche, dati comportamentali, informazioni familiari e, in modo unico, registri sacramentali. La tendenza accelerante verso la gestione centralizzata diocesana, che è cresciuta dal 2,4% delle scuole elementari nel 1990 al 18% nel 2023, crea sia opportunità che rischi: la centralizzazione consente analisi a livello di sistema ma concentra dati sensibili in modi che amplificano gli obblighi di governance.5

I servizi sociali e le parrocchie cattoliche comprendono 168 agenzie di Catholic Charities che hanno servito oltre 28 milioni di pasti e fornito alloggio di emergenza a 295.000 persone nel 2024, rispondendo a 52 disastri.6 I loro dati includono registri di immigrazione, registri di consulenza, dati abitativi e informazioni sulla gestione dei casi per alcune delle popolazioni più vulnerabili d’America. Migliaia di parrocchie detengono dati aggiuntivi sulle stesse famiglie attraverso modelli di donazione, partecipazione sacramentale e coinvolgimento nella comunità.


Dati Ecclesiali: Il Patrimonio Condiviso della Chiesa

Una categoria distinta di gestione dei dati riguarda la rappresentazione digitale delle realtà che appartengono alla Chiesa universale e non sono dati privati ma patrimonio condiviso.

Dominio Cosa Deve Essere Rappresentato Stato Attuale
Liturgia Il Calendario Romano Generale, calendari propri, classificazione delle feste, cicli stagionali Multiple implementazioni indipendenti con identificatori incompatibili
Scrittura Sacra Edizioni e traduzioni approvate dalla Vulgata attraverso le lingue vernacolari moderne Nessun registro condiviso di edizioni; ogni applicazione inventa i propri riferimenti
Documenti Magisteriali Encicliche, costituzioni apostoliche, decreti conciliari, istruzioni dei dicasteri Nessuno schema di identificazione standard per tipo, emittente o livello di autorità
Strutture Canoniche Diocesi, eparchie, parrocchie, istituti religiosi, comprese entità storiche Ogni database utilizza la propria numerazione; non esiste un direttorio digitale canonico
Registri Sacramentali Registri di battesimo, confermazione, matrimonio, ordinazione mantenuti attraverso i sistemi di registrazione diocesani I database diocesani sono mutuamente incompatibili; nessuno standard di scambio dati

Questi dati non affrontano vincoli di privacy: il Calendario Romano Generale è pubblico, i testi della Scrittura Sacra sono pubblicati, i documenti del Magistero sono liberamente disponibili. Ciò che affrontano è un deficit di standardizzazione. La comprensione della Chiesa delle proprie strutture, riti e tradizioni non ha un’espressione digitale autorevole su cui i progetti software possano basarsi. Ogni progetto che ha bisogno di fare riferimento a una celebrazione liturgica, a un’edizione della Bibbia o a un documento magisteriale deve creare la propria classificazione da zero.

La conseguenza è la frammentazione documentata nel memo di accompagnamento su governance digitale cattolica su larga scala: dozzine di progetti indipendenti che digitalizzano le stesse realtà condivise in modi che non possono interoperare, non possono essere convalidati congiuntamente e non possono soddisfare il bisogno della Chiesa universale di un’infrastruttura digitale coerente.

Un’infrastruttura dati affidabile per i dati ecclesiali significa standard condivisi e canonici — sviluppati da autorità ecclesiali, esperti accademici e tecnologi specializzati che lavorano insieme — che danno al patrimonio condiviso della Chiesa una singola rappresentazione digitale autorevole.


Dati Sintetici per lo Sviluppo dell’IA

Per i dati istituzionali sensibili, una soluzione tecnica specifica ha superato la soglia di produzione: dati sintetici affidabili.

I dati sintetici sono dati generati algoritmicamente che rispecchiano le proprietà statistiche, le distribuzioni e le relazioni di un set di dati reale senza contenere alcun record effettivo di individui reali. Un coorte di pazienti sintetici estratti dai registri elettronici di salute di un sistema ospedaliero preserva i modelli clinici, le distribuzioni demografiche, le relazioni di comorbidità e i tassi di esito della popolazione reale, pur non contenendo pazienti reali. Nessun record individuale può essere ricondotto a una persona reale perché non è stato utilizzato alcun record individuale di una persona reale per generarlo.

La distinzione tra dati sintetici e dati anonimizzati è significativa. I set di dati anonimizzati rimuovono o mascherano i campi identificativi, ma i record sottostanti corrispondono ancora a individui reali, e gli attacchi di re-identificazione hanno dimostrato che l’anonimizzazione da sola fornisce una protezione insufficiente per popolazioni sensibili. I dati sintetici generano nuovi record da distribuzioni apprese. Il rischio di re-identificazione è notevolmente ridotto quando i set di dati sono completamente sintetici, perché i record sintetici non hanno controparti nel mondo reale, ma la privacy richiede comunque un design attento e test indipendenti prima che i dati possano essere considerati affidabili per un uso significativo.

La validazione della qualità è un requisito di governance critico. Un dataset sintetico è prezioso per l’addestramento dell’IA solo se preserva accuratamente le proprietà statistiche dei dati sorgente. I framework di validazione misurano la fedeltà (il grado in cui le distribuzioni sintetiche corrispondono alle distribuzioni reali) e la privacy (il grado in cui i record sintetici resistono agli attacchi di inferenza di appartenenza). Entrambi i dimensioni richiedono una validazione rigorosa e indipendente prima che i dati sintetici possano essere considerati affidabili per uno sviluppo dell’IA di grande impatto.

Il segnale di mercato

Due segnali di mercato stabiliscono che i dati sintetici sono passati da un’infrastruttura sperimentale a una di livello produttivo.

Segnale Organizzazione Anno Significato
NVIDIA acquisisce Gretel NVIDIA / Gretel 2025 L’acquisizione di oltre $320M posiziona la generazione di dati sintetici come infrastruttura fondamentale per l’IA aziendale, non come uno strumento di privacy di nicchia
VA distribuisce MDClone a livello nazionale Amministrazione per la Salute dei Veterani 2020–presente Dimostra dati sanitari sintetici su scala produttiva sotto la supervisione normativa federale

NVIDIA ha acquisito Gretel, la principale piattaforma di generazione di dati sintetici, per oltre $320 milioni nel 2025.7 La tesi di acquisizione di NVIDIA era esplicita: i dati sintetici sono un’infrastruttura essenziale per lo sviluppo dell’IA in settori regolamentati dove i dati reali sono legalmente inaccessibili o praticamente indisponibili nella scala richiesta per l’addestramento dell’IA.

Il Dipartimento degli Affari dei Veterani degli Stati Uniti, attraverso l’Amministrazione per la Salute dei Veterani, ha distribuito MDClone come motore di dati sintetici per supportare molteplici casi d’uso clinici e di ricerca.8 La distribuzione della VHA ha dimostrato che la generazione di dati sintetici può operare su scala del sistema sanitario nazionale sotto la supervisione normativa federale, con una fedeltà validata sufficiente a supportare lo sviluppo dell’IA clinica e la ricerca sugli esiti.

Questi segnali sono importanti per le istituzioni cattoliche perché stabiliscono che la tecnologia è pronta per la produzione e che le questioni normative e di governance, sebbene reali, sono risolvibili.


Cosa potrebbero costruire le istituzioni cattoliche

Un’infrastruttura di dati affidabili — sia dati ecclesiali standardizzati che dati istituzionali sintetici — sbloccherebbe lo sviluppo tecnologico che attualmente è strutturalmente impossibile.

Da dati istituzionali sintetici

Caso d’uso Fonte dei dati Applicazioni sbloccate
Sanità Coorti EHR sintetici in 650 ospedali IA diagnostica, operazioni cliniche, ricerca sulla popolazione multi-sistema
Istruzione Record studenteschi sintetici in 5.905 scuole Sistemi di allerta precoce, modelli di retention, benchmarking a livello di sistema
Servizi sociali Dati di casi sintetici in 168 agenzie di beneficenza Efficacia dei programmi, previsione della senza fissa dimora, modellazione della vulnerabilità di quartiere
Partnership di ricerca Coorti sintetiche interistituzionali Studi NIH, ricerca sulla salute pubblica, esiti delle popolazioni minoritarie

I gruppi di EHR sintetici in 650 ospedali consentirebbero lo sviluppo di AI diagnostica, l’ottimizzazione delle operazioni cliniche e la ricerca multi-sistema sui modelli di popolazione senza attivare flussi di lavoro di condivisione di PHI o ritardi prolungati dell’IRB.9 Gli ospedali cattolici servono in modo sproporzionato popolazioni sottorappresentate e svantaggiate che i dataset commerciali di formazione dell’AI rappresentano costantemente in modo insufficiente. I registri studenteschi sintetici in 5.905 scuole consentirebbero agli uffici educativi diocesani di costruire sistemi di allerta precoce per studenti a rischio e benchmarking delle prestazioni a livello di sistema senza che i dati reali degli studenti lascino mai il loro sistema di origine.10 I dati di gestione dei casi sintetici in 168 agenzie delle Catholic Charities consentirebbero l’analisi dell’efficacia dei programmi e l’apprendimento inter-agenzia senza esporre le identità dei singoli clienti.11

La combinazione dei dati dei servizi sociali con i dati della comunità parrocchiale crea un quadro a livello di quartiere del bisogno umano che non ha equivalente secolare. Questo caso d’uso è un’esecuzione tecnica diretta dell’Opzione Preferenziale per i Poveri della Chiesa: i sistemi tecnologici costruiti su questa infrastruttura vedrebbero e servirebbero i marginalizzati senza sfruttare i loro dati, garantendo che le popolazioni più vulnerabili beneficino dello sviluppo tecnologico piuttosto che essere rese invisibili da dataset che le rappresentano costantemente in modo insufficiente.

Un obbligo di governance deriva da ciascuno di questi casi d’uso. I principi della USCCB sono diretti: i sistemi di decisione automatizzati utilizzati nella sanità, nell’istruzione e nei servizi sociali possono rafforzare i pregiudizi esistenti o introdurre un approccio utilitaristico che sposta le necessarie considerazioni umane.12 La USCCB insegna inoltre che la tecnologia dovrebbe “supplementare ciò che fanno gli esseri umani, non sostituirli o i loro giudizi morali.”13 I modelli addestrati su dati sintetici cattolici devono essere progettati per integrare il giudizio di medici, insegnanti e assistenti sociali, e i criteri di certificazione della CDCF per le applicazioni che utilizzano dati sintetici dovrebbero richiedere che i professionisti umani mantengano l’autorità decisionale finale.

Le istituzioni cattoliche statunitensi servono anche grandi popolazioni di origine latinoamericana, in particolare nella sanità e nei servizi sociali. Il Consiglio Episcopale Latinoamericano e dei Caraibi ha chiesto che le applicazioni di AI siano valutate criticamente in contesti locali specifici per determinare se avanzino la dignità umana e il bene comune nella pratica.14 Il framework di dati sintetici federati fornisce esattamente il meccanismo necessario per sviluppare e valutare in sicurezza la tecnologia che serve queste specifiche comunità demografiche.

Da dati ecclesiali standardizzati

Caso d’uso Fonte dei dati Applicazioni sbloccate
Software Liturgico Identificatori CLEDR condivisi per tutte le celebrazioni App di calendario interoperabili, strumenti di lezione, sistemi di pianificazione liturgica
Applicazioni Scripturali Registro condiviso delle edizioni della Bibbia cattolica Strumenti di riferimento incrociato, integrazione di letture liturgiche, piattaforme catechetiche
Ricerca Magisteriale Identificatori CMDDR condivisi per documenti della Chiesa Strumenti di citazione, database di autorità di insegnamento, piattaforme di ricerca teologica
Amministrazione Diocesana Identificatori condivisi per strutture canoniche Directory inter-diocesane, reporting nazionale, ricerca storica

Quando i progetti software cattolici si basano su identificatori canonici condivisi anziché inventare i propri, l’interoperabilità diventa la norma piuttosto che l’eccezione. Un’app per il calendario liturgico può scambiare dati con un sistema di gestione parrocchiale. Una piattaforma catechetica può fare riferimento agli stessi documenti magisteriali di uno strumento di ricerca teologica. Un database diocesano può interoperare con un direttorio nazionale. Ogni standard condiviso elimina sforzi ridondanti e garantisce che la rappresentazione digitale del patrimonio della Chiesa rifletta l’unità ecclesiale di ciò che rappresenta.


Il Stack a Tre Livelli

L’infrastruttura dati affidabile per il ministero cattolico opera su tre livelli che corrispondono ai livelli di capacità istituzionale.

Livello Funzione Utenti Principali Ruolo del CDCF
Infrastruttura Generatori di dati sintetici, motori di validazione degli standard, controlli della pipeline sensibili a PHI/PII. Gestisce la generazione tecnica, la validazione e il controllo della conformità agli standard. Grandi sistemi sanitari e centri di ricerca universitari Contribuisce alle specifiche di validazione e conformità
Piattaforma di Governance Quadro di governance specifico per la Chiesa cattolica che codifica standard di validazione della qualità, politiche di gestione dei dati, schemi di standard CDCF e modelli di controllo degli accessi. Uffici di governance diocesana e gestori dei dati Amministra standard di validazione, criteri di certificazione, schemi
Applicazione Strumenti pronti all’uso: dashboard educative diocesane, strumenti di valutazione dei programmi Caritas, software liturgico che utilizza identificatori standard CDCF, integrazioni di dati parrocchiali. Uffici diocesani, parrocchie, piccole agenzie Fornisce modelli di applicazione certificati e schemi standard

Tre Livelli di Dati Cattolici

Una critica sollevata nelle discussioni della sessione C-DART 1 merita un riconoscimento diretto: l’eterogeneità dei dati tra istituzioni cattoliche legalmente indipendenti renderebbe un comune di dati cattolici tecnicamente insostenibile. Questa critica è accurata — ma si applica a una categoria di dati, non a tutti. L’architettura appropriata dipende dal tipo di dati che si sta governando.

I dati cattolici rientrano in tre livelli distinti, ognuno dei quali richiede un diverso modello infrastrutturale.

Livello 1: Dati istituzionali sensibili — federati, mai accorpati

I registri dei pazienti, i file degli studenti, i dati di gestione dei casi, i registri delle donazioni parrocchiali e i registri sacramentali relativi a singoli individui sono dati sensibili protetti da HIPAA, FERPA, norme di privacy diocesane e fiducia pastorale. Gli ospedali, le scuole e le agenzie Caritas cattoliche operano sotto entità legali diverse, diversi quadri normativi e diverse strutture di governance diocesana. I loro schemi di dati, la qualità dei dati e le norme di governance dei dati sono incompatibili in modi che produrrebbero rumore piuttosto che segnale se combinati in modo ingenuo.

Questi dati non sono mai oggetto di un comune di dati. La risposta architettonica è la generazione di dati sintetici federati: ogni istituzione genera set di dati sintetici localmente dalle proprie fonti di dati, e solo i set di dati sintetici — contenenti nessun record reale di individui — si spostano tra le istituzioni o diventano disponibili per la ricerca e lo sviluppo dell’IA. Ogni istituzione mantiene il pieno controllo sui propri dati sorgente.

Livello 2: Dati istituzionali locali — governati localmente, non un comune

I dati operativi specifici per una diocesi, un sistema scolastico o un’agenzia — numeri di iscrizione, modelli di personale, dati sulle strutture, configurazioni di programmi locali — non sono sensibili nello stesso modo dei registri personali, ma sono specifici per l’istituzione che li produce. Rientrano sotto la governance dell’istituzione locale e non sono candidati per un comune di dati.

Questi dati beneficiano di standard condivisi (in modo che i sistemi diocesani possano interoperare dove necessario) ma rimangono di proprietà e governati localmente.

Livello 3: Dati della Chiesa Universale — un vero comune di dati

La Liturgia, la struttura della Sacra Scrittura, i documenti del Magistero, il Diritto Canonico, la struttura organizzativa delle diocesi e delle parrocchie — queste realtà appartengono alla Chiesa universale. Non sono dati privati di alcuna istituzione. Esse originano dall’autorità universale della Chiesa e sono condivise in ogni diocesi, parrocchia e istituzione cattolica in tutto il mondo.

Questi dati sono il soggetto naturale di un bene comune di dati. La base condivisa — il Calendario Romano Generale, i libri canonici della Bibbia, la classificazione dei documenti Magisteriali, il direttorio delle diocesi — può essere definita, mantenuta e servita centralmente. Non si tratta semplicemente di definire standard che progetti indipendenti implementano localmente; i dati stessi possono essere serviti da un bene comune condiviso, poiché rappresentano realtà universali che non appartengono a nessuna istituzione locale individualmente.

Adattamenti locali esistono all’interno di questo livello: calendari appropriati per specifiche diocesi e ordini religiosi, traduzioni vernacolari approvate della Scrittura e dei testi liturgici, supplementi diocesani alle strutture canoniche. Questi adattamenti rientrano sotto la governance della conferenza episcopale locale o della diocesi che li ha pubblicati, e molti rientrano anche sotto copyright — che funge da mezzo legittimo per proteggere sia l’autorità dell’istituzione locale sia i diritti dell’editore incaricato da quell’istituzione di produrre l’adattamento vernacolare, al quale potrebbe essere dovuta una giusta compensazione.

L’architettura deve rispettare sia la giurisdizione sia il copyright. Servire centralmente adattamenti locali non richiede che il materiale protetto da copyright venga pubblicato come open source. Un modello ibrido accoglie entrambe le realtà:

  1. Opzione federata. L’istituzione locale serve i propri adattamenti localmente, utilizzando schemi standard CDCF per l’interoperabilità. I dati non lasciano mai l’infrastruttura dell’istituzione. Questo è sempre disponibile come predefinito.
  2. Opzione centralizzata per accordo. A seguito di un accordo con l’istituzione locale, il CDCF serve l’adattamento centralmente proteggendo i dati protetti da copyright secondo le norme stabilite dal titolare dei diritti — controlli di accesso, termini di licenza, requisiti di attribuzione o restrizioni di distribuzione come l’istituzione locale ritiene opportuno.

Entrambe le opzioni operano sugli stessi standard e schemi condivisi, quindi i progetti software downstream interoperano indipendentemente dal fatto che un dato adattamento sia servito localmente o centralmente. La distinzione è operativa (dove i dati sono ospitati e a quali condizioni) piuttosto che strutturale (come i dati sono rappresentati).

Questa distinzione è importante perché determina cosa il CDCF può e dovrebbe costruire. Per i dati di Livello 1, il CDCF stabilisce standard di validazione per la generazione di dati sintetici. Per i dati di Livello 2, il CDCF definisce standard di interoperabilità. Per i dati di Livello 3, il CDCF può andare oltre: può definire gli standard canonici, mantenere i dataset autorevoli e servire la base condivisa come infrastruttura operativa per l’intero ecosistema software cattolico — con adattamenti locali serviti centralmente dove gli accordi lo consentono, o federati dove non lo sono.


Il Ruolo del CDCF nei Livelli di Dati

Lo statuto del CDCF lo incarica di “coordinare, sviluppare, gestire e diffondere software open-source, repository di dati, standard tecnici e piattaforme digitali,” e il suo manifesto descrive un “bene comune dei costruttori” dedicato ad aggregare, verificare e rendere comuni le risorse per la missione digitale della Chiesa Cattolica. Il modello di dati a tre livelli si mappa direttamente su quel mandato — con il ruolo del CDCF che si intensifica dalla definizione degli standard per i dati sensibili, attraverso gli standard di interoperabilità per i dati locali, fino alla gestione operativa dei dati per il patrimonio condiviso della Chiesa universale.

Livello di Dati Ruolo del CDCF
Livello 1: Dati istituzionali sensibili Definisce standard di validazione e criteri di certificazione per la generazione di dati sintetici. Stabilisce soglie di fedeltà e privacy. Non detiene dati.
Livello 2: Dati istituzionali locali Definisce standard di interoperabilità e convenzioni di schema. Non detiene dati.
Livello 3: Dati della Chiesa Universale Definisce standard canonici, mantiene dataset autorevoli e serve la base condivisa con adattamenti locali contribuiti.

Per il Livello 1, il CDCF contribuisce con competenze di governance: soglie di fedeltà e privacy che un dataset sintetico deve soddisfare per la certificazione, cosa deve dimostrare un processo di generazione di dati sintetici per ricevere la certificazione del CDCF (parallelo ai criteri di verifica del progetto) e convenzioni di schema che consentono di combinare o confrontare dataset sintetici provenienti da diverse istituzioni per la ricerca interistituzionale. Standard condivisi impediscono a ciascuna istituzione di risolvere lo stesso problema in modo indipendente.

Per il Livello 2, il CDCF contribuisce con standard di interoperabilità: schemi e convenzioni comuni che consentono ai sistemi governati localmente di scambiare dati dove necessario, senza richiedere a tali sistemi di unire i loro dati o cedere la governance a un’autorità centrale.

Per il Livello 3, il contributo del CDCF è qualitativamente diverso. La Fondazione è posizionata non solo per definire gli identificatori canonici e le rappresentazioni dei dati per le realtà della vita cattolica — celebrazioni liturgiche, edizioni della Scrittura, documenti magisteriali, strutture canoniche — ma per mantenere e servire quei dataset come infrastruttura operativa. Il Calendario Romano Generale, ad esempio, non è semplicemente uno standard da implementare localmente; è un dataset condiviso che può essere servito centralmente, con calendari propri locali forniti dalle diocesi e dagli ordini religiosi che li governano. Lo stesso vale per un registro delle edizioni della Bibbia cattolica, una classificazione dei documenti magisteriali o un elenco di diocesi e parrocchie. Il CDCF può servire come base universale e, previo accordo con le istituzioni locali che le governano, incorporare e servire le adattamenti locali — adempiendo al suo ruolo statutario di custode dei repository di dati e creando un autentico bene comune di dati per il patrimonio condiviso della Chiesa.


Relazione con il CDCF

La ricerca documentata qui supporta entrambi i pilastri della missione del CDCF.

Verifica del progetto. Il criterio 7 dei Criteri di Verifica del Progetto CDCF affronta direttamente la custodia dei dati: un progetto che gestisce dati provenienti da istituzioni cattoliche ha un obbligo verso quelle istituzioni e verso le popolazioni che servono, e i termini sotto i quali quei dati vengono utilizzati devono essere divulgati e valutati come parte della revisione di laurea. Un’infrastruttura di dati sintetici fidati è ciò che rende possibile lo sviluppo responsabile dell’IA su larga scala — un’istituzione che implementa la generazione di dati sintetici validati può sviluppare strumenti di IA per il proprio uso e contribuire allo sviluppo condiviso dell’IA cattolica senza l’esposizione legale e il peso di governance che l’uso di dati istituzionali reali richiederebbe.

Programma di standard. Il programma di standard CDCF affronta direttamente la sfida della standardizzazione dei dati ecclesiali. Stabilendo identificatori canonici condivisi per celebrazioni liturgiche (CLEDR), documenti magisteriali (CMDDR), edizioni del Messale Romano (CRMETDR) e futuri standard per diocesi, edizioni della Scrittura e strutture canoniche, il programma di standard crea il vocabolario digitale autorevole di cui i progetti software cattolici hanno bisogno.

I tre memo di ricerca (frammentazione, governance come codice e infrastruttura di dati fidati) formano un argomento integrato. La frammentazione stabilisce perché la governance e gli standard condivisi siano urgenti. La governance come codice fornisce l’architettura di enforcement. L’infrastruttura di dati fidati fornisce la base di dati — sia dati istituzionali sintetici che dati ecclesiali standardizzati — che consente alle istituzioni cattoliche di sviluppare tecnologie degne di quell’architettura di governance.


Bibliografia


  1. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  2. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  3. CommonSpirit Health, Audited Consolidated Financial Statements as of and for the Years Ended June 30, 2024 and 2023 (Chicago: CommonSpirit Health, 2024), https://www.commonspirit.org/content/dam/shared/en/pdfs/investor-resources/2024-CommonSpirit-Health-Annual-Report.SECURED.pdf.↩︎

  4. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  5. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  6. Catholic Charities USA, Pathways Forward: 2024 Annual Report (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  7. Paresh Dave, “Nvidia Reportedly Acquires Synthetic Data Startup Gretel,” TechCrunch, March 19, 2025, https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/. NVIDIA ha rifiutato di commentare ufficialmente; non è stato emesso alcun comunicato stampa aziendale.↩︎

  8. U.S. Department of Veterans Affairs, Veterans Health Administration, “Synthetic Data to Improve Veteran Care,” VA News, dicembre 2020, https://news.va.gov/81908/synthetic-data-improve-veteran-care/.↩︎

  9. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  10. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  11. Catholic Charities USA, Pathways Forward: 2024 Annual Report (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  12. United States Conference of Catholic Bishops, Joint Letter on Artificial Intelligence Principles and Priorities, 9 giugno 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  13. United States Conference of Catholic Bishops, Joint Letter on Artificial Intelligence Principles and Priorities, 9 giugno 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  14. Latin American and Caribbean Episcopal Council (CELAM), Inteligencia Artificial: Una mirada pastoral desde América Latina y el Caribe (Bogotá: CELAM, maggio 2025), https://adn.celam.org/celam-presenta-documento-inedito-sobre-inteligencia-artificial-una-mirada-pastoral-desde-america-latina-y-el-caribe/.↩︎