CDCF — Catholic Digital Commons Foundation

Infraestrutura de Dados Confiável para o Ministério Católico

Tipo de documento Memorando de pesquisa
Status Rascunho em andamento — Discussão do C-DART 1 dos EUA
Relação Pesquisa suplementar que fundamenta os Critérios de Avaliação de Projetos da CDCF v0.2

Índice

  1. O Argumento Central
  2. O Desafio da Gestão de Dados Católicos
  3. Dados Institucionais: Escala e Sensibilidade
  4. Dados Eclesiais: O Patrimônio Compartilhado da Igreja
  5. Dados Sintéticos para Desenvolvimento de IA
  6. O Que as Instituições Católicas Podem Construir
  7. A Pilha de Três Camadas
  8. Três Níveis de Dados Católicos
  9. O Papel da CDCF em Todos os Níveis de Dados
  10. Relação com a CDCF
  11. Bibliografia

O Argumento Central

As instituições católicas detêm coletivamente uma das maiores concentrações de responsabilidades de gestão de dados na América — e um dos corpos mais ricos de dados eclesiais compartilhados no mundo. Esses dois domínios de dados são distintos em caráter, mas enfrentam o mesmo problema estrutural: a ausência de uma infraestrutura compartilhada para governá-los, padronizá-los e trocá-los.

Dados institucionais — registros de pacientes, arquivos de estudantes, dados de gestão de casos, engajamento paroquial — são sensíveis, pessoalmente identificáveis e legalmente protegidos. Eles atendem às mesmas populações sobrepostas em saúde, educação, serviços sociais e vida paroquial de uma maneira que nenhuma instituição secular pode replicar. Essa visão interdomínio é operacionalmente inestimável e quase totalmente inacessível para o desenvolvimento tecnológico, porque os dados são protegidos pela HIPAA, FERPA, normas de privacidade diocesanas e pela confiança pastoral das pessoas a quem dizem respeito.

Dados eclesiais — a Liturgia, as Sagradas Escrituras, documentos magisteriais, estruturas canônicas — pertencem à Igreja universal. Não são dados privados, mas patrimônio compartilhado, e seu desafio não é a privacidade, mas a padronização. Dezenas de projetos independentes digitalizam essas realidades com identificadores, modelos de dados e esquemas de classificação incompatíveis, produzindo fragmentação onde a própria unidade da Igreja exige coerência.

Ambos os domínios de dados requerem infraestrutura confiável: estruturas de governança, padrões de validação e protocolos de interoperabilidade que permitam que as instituições católicas gerenciem seus dados de forma responsável, troquem-nos quando apropriado e construam tecnologia que sirva a suas missões. Este memorando aborda como essa infraestrutura pode ser desenvolvida, com atenção particular ao papel dos dados sintéticos em desbloquear o desenvolvimento de IA a partir de conjuntos de dados institucionais sensíveis.


O Desafio da Gestão de Dados Católicos

As instituições católicas enfrentam um desafio duplo de dados que nenhuma outra classe de instituição compartilha.

Por um lado, elas detêm grandes quantidades de dados institucionais sensíveis em entidades legalmente independentes que não podem compartilhá-los — mesmo quando atendem às mesmas populações e buscam a mesma missão. Uma família que recebe cuidados em um hospital católico, educa seus filhos em uma escola católica, recebe serviços da Caridade Católica e participa da vida paroquial aparece em quatro sistemas de dados católicos separados. Nenhuma instituição secular possui essa visão interdomínio das mesmas populações sobrepostas. Essa visão é precisamente o que torna os dados institucionais católicos exclusivamente valiosos para o desenvolvimento tecnológico, e precisamente o que torna suas obrigações de governança mais sérias.

Por outro lado, eles administram coletivamente as representações digitais de realidades que pertencem à Igreja universal — o Calendário Romano, as edições da Sagrada Escritura, os documentos do Magistério, a estrutura organizacional das dioceses e paróquias — mas sem padrões compartilhados sobre como essas realidades são identificadas e representadas em código. Cada projeto de software litúrgico, cada aplicação bíblica, cada banco de dados diocesano teve que inventar seu próprio modelo de dados para o mesmo patrimônio compartilhado.

O primeiro desafio requer uma infraestrutura que preserve a privacidade. O segundo requer uma infraestrutura de padronização. Ambos requerem a mesma resposta institucional: estruturas de governança compartilhadas desenvolvidas colaborativamente por instituições da Igreja com a assistência de tecnólogos especializados.


Dados Institucionais: Escala e Sensibilidade

A escala da administração de dados institucionais católicos nos Estados Unidos é substancial.

Domínio Escala Tipo de Dados Proteção Legal
Saúde 650 hospitais · 2.200+ instalações · 1 em cada 7 pacientes dos EUA · 19M visitas de emergência/ano EHR, resultados clínicos, dados demográficos HIPAA
Educação 5.905 escolas · 1,68M alunos · 150.000+ funcionários Desempenho acadêmico, comportamental, registros familiares, sacramentais FERPA
Serviços Sociais & Paróquias 168 agências · 28M refeições · 295.000 colocações de habitação de emergência Imigração, aconselhamento, habitação, gestão de casos, engajamento paroquial Normas de privacidade diocesanas, confiança pastoral

A saúde católica é o maior grupo de provedores de saúde sem fins lucrativos nos Estados Unidos: 650 hospitais e mais de 2.200 instalações cuidando de um em cada sete pacientes americanos diariamente, com aproximadamente 19 milhões de visitas de emergência e 5,6 milhões de internações hospitalares anualmente.1 Os três maiores sistemas de saúde católicos (CommonSpirit Health, Ascension e Trinity Health) operam coletivamente mais de 370 hospitais com receitas combinadas superiores a $90 bilhões.2 3 Esses dados são protegidos pela HIPAA e são em grande parte inacessíveis para o desenvolvimento tecnológico interinstitucional sem processos extensos de IRB e acordos de compartilhamento de dados que raramente escalam.

A educação católica matricula 1,68 milhões de alunos em 5.905 escolas com mais de 150.000 funcionários profissionais.4 Esses registros protegidos pela FERPA incluem desempenho acadêmico, dados comportamentais, informações familiares e, de forma única, registros sacramentais. A tendência acelerada em direção à gestão centralizada diocesana, que cresceu de 2,4 por cento das escolas primárias em 1990 para 18 por cento em 2023, cria tanto oportunidades quanto riscos: a centralização permite análises em todo o sistema, mas concentra dados sensíveis de maneiras que amplificam as obrigações de governança.5

Os serviços sociais e paróquias católicas abrangem 168 agências da Caridade Católica que serviram mais de 28 milhões de refeições e forneceram habitação de emergência a 295.000 pessoas em 2024, enquanto respondiam a 52 desastres.6 Seus dados incluem registros de imigração, registros de aconselhamento, dados de habitação e informações de gestão de casos para algumas das populações mais vulneráveis da América. Milhares de paróquias mantêm dados adicionais sobre as mesmas famílias em padrões de doação, participação sacramental e engajamento comunitário.


Dados Eclesiais: O Patrimônio Compartilhado da Igreja

Uma categoria distinta de administração de dados diz respeito à representação digital de realidades que pertencem à Igreja universal e não são dados privados, mas patrimônio compartilhado.

Domínio O que Deve Ser Representado Estado Atual
Liturgia O Calendário Romano Geral, calendários próprios, classificações de festas, ciclos sazonais Múltiplas implementações independentes com identificadores incompatíveis
Escritura Sagrada Edições e traduções aprovadas da Vulgata até as línguas vernáculas modernas Nenhum registro compartilhado de edições; cada aplicação inventa suas próprias referências
Documentos Magisteriais Encíclicas, constituições apostólicas, decretos conciliares, instruções de dicastérios Nenhum esquema de identificador padrão para tipo, emissor ou nível de autoridade
Estruturas Canônicas Dioceses, eparquias, paróquias, institutos religiosos, incluindo entidades históricas Cada banco de dados usa sua própria numeração; não existe um diretório digital canônico
Registros Sacramentais Registros de batismo, confirmação, casamento, ordenação mantidos em sistemas de registro diocesano Os bancos de dados diocesanos são mutuamente incompatíveis; não há padrão de troca de dados

Esses dados não enfrentam restrições de privacidade — o Calendário Romano Geral é público, os textos da Escritura Sagrada são publicados, os documentos do Magistério estão disponíveis livremente. O que enfrenta é um déficit de padronização. A própria compreensão da Igreja sobre suas estruturas, ritos e tradições não possui uma expressão digital autoritativa sobre a qual os projetos de software possam se basear. Cada projeto que precisa referenciar uma celebração litúrgica, uma edição da Bíblia ou um documento magisterial deve criar sua própria classificação do zero.

A consequência é a fragmentação documentada no memorando acompanhante sobre governança digital católica em escala: dezenas de projetos independentes digitalizando as mesmas realidades compartilhadas de maneiras que não podem interagir, não podem ser validadas em conjunto e não podem atender à necessidade da Igreja universal por uma infraestrutura digital coerente.

A infraestrutura de dados confiável para dados eclesiais significa padrões canônicos compartilhados — desenvolvidos por autoridades eclesiais, especialistas acadêmicos e tecnólogos especializados trabalhando juntos — que dão ao patrimônio compartilhado da Igreja uma única representação digital autoritativa.


Dados Sintéticos para Desenvolvimento de IA

Para dados institucionais sensíveis, uma solução técnica específica ultrapassou o limite de produção: dados sintéticos confiáveis.

Dados sintéticos são dados gerados algoritmicamente que refletem as propriedades estatísticas, distribuições e relações de um conjunto de dados real sem conter registros reais de indivíduos reais. Uma coorte de pacientes sintéticos extraída dos registros eletrônicos de saúde de um sistema hospitalar preserva os padrões clínicos, distribuições demográficas, relações de comorbidade e taxas de resultados da população real enquanto não contém pacientes reais. Nenhum registro individual pode ser rastreado até uma pessoa real porque nenhum registro individual de uma pessoa real foi usado para gerá-lo.

A distinção entre dados sintéticos e dados anonimizados é consequente. Conjuntos de dados anonimizados removem ou mascaram campos identificáveis, mas os registros subjacentes ainda correspondem a indivíduos reais, e ataques de reidentificação demonstraram que a anonimização sozinha oferece proteção insuficiente para populações sensíveis. Dados sintéticos geram novos registros a partir de distribuições aprendidas. O risco de reidentificação é dramaticamente reduzido quando os conjuntos de dados são totalmente sintéticos, porque registros sintéticos não têm contrapartes no mundo real, mas a privacidade ainda requer um design cuidadoso e testes independentes antes que os dados possam ser confiáveis para uso consequente.

A validação da qualidade é o requisito crítico de governança. Um conjunto de dados sintético é valioso para o treinamento de IA apenas se preservar com precisão as propriedades estatísticas dos dados de origem. As estruturas de validação medem a fidelidade (o grau em que as distribuições sintéticas correspondem às distribuições reais) e a privacidade (o grau em que os registros sintéticos resistem a ataques de inferência de associação). Ambas as dimensões requerem validação rigorosa e independente antes que os dados sintéticos possam ser confiáveis para o desenvolvimento de IA de consequências.

O sinal de mercado

Dois sinais de mercado estabelecem que os dados sintéticos passaram de uma infraestrutura experimental para uma infraestrutura de produção.

Sinal Organização Ano Significado
NVIDIA adquire Gretel NVIDIA / Gretel 2025 A aquisição de mais de $320M posiciona a geração de dados sintéticos como infraestrutura fundamental para IA empresarial, não como uma ferramenta de privacidade de nicho
VA implementa MDClone nacionalmente Administração de Saúde dos Veteranos 2020–presente Demonstra dados sintéticos de saúde em escala de produção sob supervisão regulatória federal

A NVIDIA adquiriu a Gretel, a principal plataforma de geração de dados sintéticos, por mais de $320 milhões em 2025.7 A tese de aquisição da NVIDIA era explícita: os dados sintéticos são infraestrutura essencial para o desenvolvimento de IA em indústrias regulamentadas onde os dados reais são legalmente inacessíveis ou praticamente indisponíveis na escala que o treinamento de IA requer.

O Departamento de Assuntos dos Veteranos dos EUA, por meio da Administração de Saúde dos Veteranos, implementou o MDClone como um motor de dados sintéticos para apoiar múltiplos casos de uso clínico e de pesquisa.8 A implementação da VHA demonstrou que a geração de dados sintéticos pode operar em escala de sistema de saúde nacional sob supervisão regulatória federal, com fidelidade validada suficiente para apoiar o desenvolvimento de IA clínica e pesquisa de resultados.

Esses sinais são importantes para instituições católicas porque estabelecem que a tecnologia está pronta para produção e que as questões regulatórias e de governança, embora reais, são solucionáveis.


O que as Instituições Católicas Poderiam Construir

Uma infraestrutura de dados confiável — tanto dados eclesiais padronizados quanto dados institucionais sintéticos — desbloquearia o desenvolvimento tecnológico que atualmente é estruturalmente impossível.

A partir de dados institucionais sintéticos

Caso de Uso Fonte de Dados Aplicações Desbloqueadas
Saúde Cohortes sintéticas de EHR em 650 hospitais IA diagnóstica, operações clínicas, pesquisa populacional multi-sistema
Educação Registros sintéticos de alunos em 5.905 escolas Sistemas de alerta precoce, modelos de retenção, benchmarking em todo o sistema
Serviços Sociais Dados de casos sintéticos em 168 agências de Caridade Eficácia de programas, previsão de sem-teto, modelagem de vulnerabilidade de bairros
Parcerias de Pesquisa Cohortes sintéticas interinstitucionais Estudos do NIH, pesquisa em saúde pública, resultados de populações minoritárias

Cohortes sintéticas de EHR em 650 hospitais permitiriam o desenvolvimento de IA diagnóstica, a otimização das operações clínicas e a pesquisa multi-sistema sobre padrões populacionais sem acionar fluxos de compartilhamento de PHI ou atrasos prolongados de IRB.9 Hospitais católicos atendem desproporcionalmente populações sub-representadas e carentes que conjuntos de dados comerciais de treinamento de IA consistentemente sub-representam. Registros sintéticos de estudantes em 5.905 escolas permitiriam que os escritórios de educação diocesanos construíssem sistemas de alerta precoce para estudantes em risco e benchmarking de desempenho em todo o sistema sem que dados reais de estudantes saíssem de seu sistema de origem.10 Dados sintéticos de gestão de casos em 168 agências da Caridade Católica permitiriam a análise da eficácia dos programas e o aprendizado entre agências sem expor as identidades individuais dos clientes.11

A combinação de dados de serviços sociais com dados da comunidade paroquial cria uma imagem de nível de bairro das necessidades humanas que não tem equivalente secular. Este caso de uso é uma execução técnica direta da Opção Preferencial pelos Pobres da Igreja: sistemas tecnológicos construídos sobre essa infraestrutura veriam e atenderiam os marginalizados sem explorar seus dados, garantindo que as populações mais vulneráveis se beneficiassem do desenvolvimento tecnológico em vez de serem tornadas invisíveis por conjuntos de dados que consistentemente as sub-representam.

Uma obrigação de governança decorre de cada um desses casos de uso. Os princípios da USCCB são diretos: sistemas de tomada de decisão automatizados usados em saúde, educação e serviços sociais podem reforçar preconceitos existentes ou introduzir uma abordagem utilitarista que desloca considerações humanas necessárias.12 A USCCB ensina ainda que a tecnologia deve “suplementar o que os seres humanos fazem, não substituí-los ou seus julgamentos morais.”13 Modelos treinados em dados sintéticos católicos devem ser projetados para suplementar o julgamento de médicos, professores e assistentes sociais, e os critérios de certificação da CDCF para aplicações que utilizam dados sintéticos devem exigir que profissionais humanos mantenham a autoridade final de tomada de decisão.

Instituições católicas dos EUA também atendem grandes populações de descendência latino-americana, particularmente em saúde e serviços sociais. O Conselho Episcopal Latino-Americano e Caribenho pediu que as aplicações de IA sejam criticamente avaliadas em contextos locais específicos para determinar se elas promovem a dignidade humana e o bem comum na prática.14 A estrutura de dados sintéticos federados fornece exatamente o mecanismo necessário para desenvolver e avaliar com segurança a tecnologia que atende essas comunidades demográficas específicas.

De dados eclesiais padronizados

Caso de Uso Fonte de Dados Aplicações Desbloqueadas
Software Litúrgico Identificadores CLEDR compartilhados para todas as celebrações Aplicativos de calendário interoperáveis, ferramentas de lecionário, sistemas de planejamento litúrgico
Aplicações de Escritura Registro compartilhado de edições da Bíblia Católica Ferramentas de referência cruzada, integração de leituras litúrgicas, plataformas catequéticas
Pesquisa Magisterial Identificadores CMDDR compartilhados para documentos da Igreja Ferramentas de citação, bancos de dados de autoridade de ensino, plataformas de pesquisa teológica
Administração Diocesana Identificadores compartilhados para estruturas canônicas Diretórios interdiocesanos, relatórios nacionais, pesquisa histórica

Quando projetos de software católicos se baseiam em identificadores canônicos compartilhados em vez de inventar os seus próprios, a interoperabilidade se torna a norma em vez da exceção. Um aplicativo de calendário litúrgico pode trocar dados com um sistema de gestão paroquial. Uma plataforma catequética pode referenciar os mesmos documentos magisteriais que uma ferramenta de pesquisa teológica. Um banco de dados diocesano pode interagir com um diretório nacional. Cada padrão compartilhado elimina esforços redundantes e garante que a representação digital do patrimônio da Igreja reflita a unidade eclesial do que representa.


A Pilha de Três Camadas

A infraestrutura de dados confiável para o ministério católico opera em três camadas que correspondem aos níveis de capacidade institucional.

Camada Função Usuários Primários Papel da CDCF
Infraestrutura Geradores de dados sintéticos, motores de validação de padrões, controles de pipeline sensíveis a PHI/PII. Lida com geração técnica, validação e verificação de conformidade com padrões. Grandes sistemas de saúde e centros de pesquisa universitária Contribui com especificações de validação e conformidade
Plataforma de Governança Estrutura de governança específica para católicos codificando padrões de validação de qualidade, políticas de administração de dados, esquemas de padrões da CDCF e padrões de controle de acesso. Escritórios de governança diocesana e administradores de dados Administra padrões de validação, critérios de certificação, esquemas
Aplicação Ferramentas prontas: painéis de educação diocesana, ferramentas de avaliação de programas de Caridades, software litúrgico utilizando identificadores padrão da CDCF, integrações de dados paroquiais. Escritórios diocesanos, paróquias, pequenas agências Fornece modelos de aplicação certificados e esquemas padrão

Três Níveis de Dados Católicos

Uma crítica levantada nas discussões da sessão C-DART 1 merece reconhecimento direto: a heterogeneidade dos dados entre instituições católicas legalmente independentes tornaria um comum de dados católicos tecnicamente insustentável. Essa crítica é precisa — mas se aplica a uma categoria de dados, não a todas elas. A arquitetura apropriada depende do tipo de dados que está sendo governado.

Os dados católicos se dividem em três níveis distintos, cada um exigindo um modelo de infraestrutura diferente.

Nível 1: Dados institucionais sensíveis — federados, nunca agrupados

Registros de pacientes, arquivos de alunos, dados de gestão de casos, registros de doações paroquiais e registros sacramentais referentes a indivíduos específicos são dados sensíveis protegidos pela HIPAA, FERPA, normas de privacidade diocesanas e confiança pastoral. Hospitais, escolas e agências de Caridades católicas operam sob diferentes entidades legais, diferentes estruturas regulatórias e diferentes estruturas de governança diocesana. Seus esquemas de dados, qualidade dos dados e normas de governança de dados são incompatíveis de maneiras que produziriam ruído em vez de sinal se combinados de forma ingênua.

Esses dados nunca são objeto de um comum de dados. A resposta arquitetônica é a geração de dados sintéticos federados: cada instituição gera conjuntos de dados sintéticos localmente a partir de seus próprios dados de origem, e apenas os conjuntos de dados sintéticos — que não contêm registros individuais reais — se movem entre instituições ou se tornam disponíveis para pesquisa e desenvolvimento de IA. Cada instituição mantém controle total sobre seus dados de origem.

Nível 2: Dados institucionais locais — governados localmente, não um comum

Dados operacionais específicos de uma diocese, sistema escolar ou agência — números de matrícula, modelos de pessoal, dados de instalações, configurações de programas locais — não são sensíveis da mesma forma que registros pessoais, mas são específicos da instituição que os produz. Eles estão sob a governança da instituição local e não são candidatos a um comum de dados.

Esses dados se beneficiam de padrões compartilhados (para que os sistemas diocesanos possam interagir onde necessário), mas permanecem de propriedade local e governados localmente.

Nível 3: Dados da Igreja Universal — um verdadeiro comum de dados

A Liturgia, a estrutura da Sagrada Escritura, os documentos do Magistério, o Direito Canônico, a estrutura organizacional das dioceses e paróquias — essas realidades pertencem à Igreja universal. Elas não são dados privados de nenhuma instituição. Elas se originam da autoridade universal da Igreja e são compartilhadas em todas as dioceses, paróquias e instituições católicas em todo o mundo.

Esses dados são o sujeito natural de um bem comum de dados. A base compartilhada — o Calendário Romano Geral, os livros canônicos da Bíblia, a classificação dos documentos Magisteriais, o diretório das dioceses — pode ser definida, mantida e servida centralmente. Não se trata apenas de definir padrões que projetos independentes implementam localmente; os dados em si podem ser servidos a partir de um bem comum compartilhado, pois representam realidades universais que não pertencem a nenhuma instituição local individualmente.

Adaptações locais existem dentro deste nível: calendários próprios para dioceses e ordens religiosas específicas, traduções vernáculas aprovadas da Escritura e textos litúrgicos, suplementos diocesanos a estruturas canônicas. Essas adaptações estão sob a governança da conferência dos bispos locais ou da diocese que as publicou, e muitas também estão sob direitos autorais — o que serve como um meio legítimo de proteger tanto a autoridade da instituição local quanto os direitos do editor encarregado por essa instituição de produzir a adaptação vernácula, a quem pode ser devida uma compensação.

A arquitetura deve respeitar tanto a jurisdição quanto os direitos autorais. Servir centralmente adaptações locais não requer que material protegido por direitos autorais seja publicado como código aberto. Um modelo híbrido acomoda ambas as realidades:

  1. Opção federada. A instituição local serve suas próprias adaptações localmente, utilizando esquemas padrão do CDCF para interoperabilidade. Os dados nunca saem da infraestrutura da instituição. Isso está sempre disponível como o padrão.
  2. Opção centralizada por acordo. Após um acordo com a instituição local, o CDCF serve a adaptação centralmente enquanto protege os dados protegidos por direitos autorais de acordo com quaisquer normas estabelecidas pelo detentor dos direitos — controles de acesso, termos de licenciamento, requisitos de atribuição ou restrições de distribuição conforme a instituição local considerar adequado.

Ambas as opções operam sob os mesmos padrões e esquemas compartilhados, de modo que projetos de software a jusante interoperam independentemente de uma determinada adaptação ser servida localmente ou centralmente. A distinção é operacional (onde os dados estão hospedados e sob quais termos) em vez de estrutural (como os dados são representados).

Essa distinção é importante porque determina o que o CDCF pode e deve construir. Para dados do Nível 1, o CDCF estabelece padrões de validação para geração de dados sintéticos. Para dados do Nível 2, o CDCF define padrões de interoperabilidade. Para dados do Nível 3, o CDCF pode ir além: pode definir os padrões canônicos, manter os conjuntos de dados autoritativos e servir a base compartilhada como infraestrutura operacional para todo o ecossistema de software católico — com adaptações locais servidas centralmente onde os acordos permitem, ou federadas onde não permitem.


O Papel do CDCF Através dos Níveis de Dados

Os estatutos do CDCF o encarregam de “coordenar, desenvolver, administrar e disseminar software de código aberto, repositórios de dados, padrões técnicos e plataformas digitais”, e seu manifesto descreve um “bem comum de construtores” dedicado a agregar, avaliar e compartilhar recursos para a missão digital da Igreja Católica. O modelo de dados em três níveis se mapeia diretamente nesse estatuto — com o papel do CDCF aumentando desde a definição de padrões para dados sensíveis, passando por padrões de interoperabilidade para dados locais, até a administração operacional de dados para o patrimônio compartilhado da Igreja universal.

Nível de Dados Papel do CDCF
Nível 1: Dados institucionais sensíveis Define padrões de validação e critérios de certificação para geração de dados sintéticos. Estabelece limites de fidelidade e privacidade. Não retém dados.
Nível 2: Dados institucionais locais Define padrões de interoperabilidade e convenções de esquema. Não retém dados.
Nível 3: Dados da Igreja Universal Define padrões canônicos, mantém conjuntos de dados autoritativos e serve a base compartilhada com adaptações locais contribuídas.

Para o Nível 1, a CDCF contribui com expertise em governança: limites de fidelidade e privacidade que um conjunto de dados sintéticos deve atender para certificação, o que um processo de geração de dados sintéticos deve demonstrar para receber a certificação da CDCF (paralelamente aos critérios de avaliação de projetos) e convenções de esquema que permitem que conjuntos de dados sintéticos de diferentes instituições sejam combinados ou comparados para pesquisa interinstitucional. Padrões compartilhados evitam que cada instituição resolva o mesmo problema de forma independente.

Para o Nível 2, a CDCF contribui com padrões de interoperabilidade: esquemas e convenções comuns que permitem que sistemas governados localmente troquem dados quando necessário, sem exigir que esses sistemas unam seus dados ou cedam a governança a uma autoridade central.

Para o Nível 3, a contribuição da CDCF é qualitativamente diferente. A Fundação está posicionada não apenas para definir os identificadores canônicos e representações de dados para as realidades da vida católica — celebrações litúrgicas, edições da Escritura, documentos magisteriais, estruturas canônicas — mas para manter e servir esses conjuntos de dados como infraestrutura operacional. O Calendário Romano Geral, por exemplo, não é meramente um padrão a ser implementado localmente; é um conjunto de dados compartilhado que pode ser servido centralmente, com calendários próprios locais contribuídos pelas dioceses e ordens religiosas que os governam. O mesmo se aplica a um registro de edições da Bíblia Católica, uma classificação de documentos magisteriais ou um diretório de dioceses e paróquias. A CDCF pode servir como a base universal e, por acordo com as instituições locais que as governam, incorporar e servir as adaptações locais — cumprindo seu papel estatutário como guardiã de repositórios de dados e criando um verdadeiro bem comum de dados para o patrimônio compartilhado da Igreja.


Relação com a CDCF

A pesquisa documentada aqui apoia ambos os pilares da missão da CDCF.

Avaliação de projetos. O critério 7 dos Critérios de Avaliação de Projetos da CDCF aborda diretamente a administração de dados: um projeto que lida com dados de instituições católicas carrega uma obrigação para com essas instituições e para com as populações que elas servem, e os termos sob os quais esses dados são utilizados devem ser divulgados e avaliados como parte da revisão de graduação. Uma infraestrutura de dados sintéticos confiáveis é o que torna possível o desenvolvimento responsável de IA em grande escala — uma instituição que implementa geração de dados sintéticos validados pode desenvolver ferramentas de IA para seu próprio uso e contribuir para o desenvolvimento compartilhado de IA católica sem a exposição legal e o ônus de governança que o uso de dados institucionais reais exigiria.

Programa de padrões. O programa de padrões da CDCF aborda diretamente o desafio da padronização de dados eclesiais. Ao estabelecer identificadores canônicos compartilhados para celebrações litúrgicas (CLEDR), documentos magisteriais (CMDDR), edições do Missal Romano (CRMETDR) e futuros padrões para dioceses, edições da Escritura e estruturas canônicas, o programa de padrões cria o vocabulário digital autoritativo que os projetos de software católicos necessitam.

Os três memorandos de pesquisa (fragmentação, governança como código e infraestrutura de dados confiáveis) formam um argumento integrado. A fragmentação estabelece por que a governança compartilhada e os padrões são urgentes. Governança como código fornece a arquitetura de aplicação. A infraestrutura de dados confiáveis fornece a base de dados — tanto dados institucionais sintéticos quanto dados eclesiais padronizados — que permite que as instituições católicas desenvolvam tecnologia digna dessa arquitetura de governança.


Bibliografia


  1. Associação Católica de Saúde dos Estados Unidos, Cuidados de Saúde Católicos nos Estados Unidos (Washington, DC: Associação Católica de Saúde, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  2. Associação Católica de Saúde dos Estados Unidos, Cuidados de Saúde Católicos nos Estados Unidos (Washington, DC: Associação Católica de Saúde, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  3. CommonSpirit Health, Declarações Financeiras Consolidadas Auditadas até e para os Anos Encerrados em 30 de Junho de 2024 e 2023 (Chicago: CommonSpirit Health, 2024), https://www.commonspirit.org/content/dam/shared/en/pdfs/investor-resources/2024-CommonSpirit-Health-Annual-Report.SECURED.pdf.↩︎

  4. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  5. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  6. Catholic Charities USA, Pathways Forward: 2024 Annual Report (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  7. Paresh Dave, “Nvidia Reportedly Acquires Synthetic Data Startup Gretel,” TechCrunch, March 19, 2025, https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/. NVIDIA declined official comment; no corporate press release has been issued.↩︎

  8. U.S. Department of Veterans Affairs, Veterans Health Administration, “Synthetic Data to Improve Veteran Care,” VA News, December 2020, https://news.va.gov/81908/synthetic-data-improve-veteran-care/.↩︎

  9. Catholic Health Association of the United States, Catholic Health Care in the United States (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎

  10. National Catholic Educational Association, United States Catholic Elementary and Secondary Schools 2023–2024: The Annual Statistical Report on Schools, Enrollment and Staffing (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎

  11. Catholic Charities USA, Pathways Forward: 2024 Annual Report (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎

  12. United States Conference of Catholic Bishops, Joint Letter on Artificial Intelligence Principles and Priorities, June 9, 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  13. United States Conference of Catholic Bishops, Joint Letter on Artificial Intelligence Principles and Priorities, June 9, 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎

  14. Latin American and Caribbean Episcopal Council (CELAM), Inteligencia Artificial: Una mirada pastoral desde América Latina y el Caribe (Bogotá: CELAM, May 2025), https://adn.celam.org/celam-presenta-documento-inedito-sobre-inteligencia-artificial-una-mirada-pastoral-desde-america-latina-y-el-caribe/.↩︎