Infraestructura de Datos Confiable para el Ministerio Católico

Tipo de documento	Memorando de investigación
Estado	Borrador en trabajo — Discusión C-DART 1 de EE. UU.
Relación	Investigación suplementaria que subyace a CDCF Criterios de Evaluación de Proyectos v0.2

Tabla de Contenidos

El Argumento Central
El Desafío de la Administración de Datos Católicos
Datos Institucionales: Escala y Sensibilidad
Datos Eclesiales: El Patrimonio Compartido de la Iglesia
Datos Sintéticos para el Desarrollo de IA
Lo que las Instituciones Católicas Podrían Construir
La Pilas de Tres Capas
Tres Niveles de Datos Católicos
El Rol de CDCF a Través de los Niveles de Datos
Relación con el CDCF
Bibliografía

El Argumento Central

Las instituciones católicas colectivamente poseen una de las mayores concentraciones de responsabilidades de administración de datos en América — y uno de los cuerpos más ricos de datos eclesiales compartidos en el mundo. Estos dos dominios de datos son distintos en carácter pero enfrentan el mismo problema estructural: la ausencia de una infraestructura compartida para gobernarlos, estandarizarlos e intercambiarlos.

Datos institucionales — registros de pacientes, archivos de estudiantes, datos de gestión de casos, compromiso parroquial — son sensibles, personalmente identificables y legalmente protegidos. Sirven a las mismas poblaciones superpuestas en atención médica, educación, servicios sociales y vida parroquial de una manera que ninguna institución secular puede replicar. Esa visión interdominio es operativamente invaluable y casi completamente inaccesible para el desarrollo tecnológico, porque los datos están protegidos por HIPAA, FERPA, normas de privacidad diocesanas y la confianza pastoral de las personas a las que concierne.

Datos eclesiales — la Liturgia, la Sagrada Escritura, documentos magisteriales, estructuras canónicas — pertenecen a la Iglesia universal. No son datos privados, sino patrimonio compartido, y su desafío no es la privacidad, sino la estandarización. Docenas de proyectos independientes digitalizan estas realidades con identificadores, modelos de datos y esquemas de clasificación incompatibles, produciendo fragmentación donde la unidad de la Iglesia exige coherencia.

Ambos dominios de datos requieren infraestructura confiable: marcos de gobernanza, estándares de validación y protocolos de interoperabilidad que permitan a las instituciones católicas administrar sus datos de manera responsable, intercambiarlos donde sea apropiado y construir tecnología que sirva a sus misiones. Este memorando aborda cómo se puede desarrollar esa infraestructura, con especial atención al papel de los datos sintéticos en desbloquear el desarrollo de IA a partir de conjuntos de datos institucionales sensibles.

El Desafío de la Administración de Datos Católicos

Las instituciones católicas enfrentan un desafío de datos dual que ninguna otra clase de institución comparte.

Por un lado, poseen enormes cantidades de datos institucionales sensibles a través de entidades legalmente independientes que no pueden compartirlos — incluso cuando sirven a las mismas poblaciones y persiguen la misma misión. Una familia que recibe atención en un hospital católico, educa a sus hijos en una escuela católica, recibe servicios de Caridades Católicas y participa en la vida parroquial aparece en cuatro sistemas de datos católicos separados. Ninguna institución secular tiene esa visión interdominio de las mismas poblaciones superpuestas. Esa visión es precisamente lo que hace que los datos institucionales católicos sean singularmente valiosos para el desarrollo tecnológico, y precisamente lo que hace que sus obligaciones de gobernanza sean más serias.

Por otro lado, ellos administran colectivamente las representaciones digitales de realidades que pertenecen a la Iglesia universal: el Calendario Romano, las ediciones de la Sagrada Escritura, los documentos del Magisterio, la estructura organizativa de las diócesis y parroquias, pero sin estándares compartidos sobre cómo se identifican y representan esas realidades en código. Cada proyecto de software litúrgico, cada aplicación bíblica, cada base de datos diocesana ha tenido que inventar su propio modelo de datos para el mismo patrimonio compartido.

El primer desafío requiere infraestructura que preserve la privacidad. El segundo requiere infraestructura de estandarización. Ambos requieren la misma respuesta institucional: marcos de gobernanza compartida desarrollados colaborativamente por instituciones de la Iglesia con la asistencia de tecnólogos especializados.

Datos Institucionales: Escala y Sensibilidad

La escala de la administración de datos institucionales católicos en los Estados Unidos es sustancial.

Dominio	Escala	Tipo de Datos	Protección Legal
Salud	650 hospitales · 2,200+ instalaciones · 1 de cada 7 pacientes en EE. UU. · 19M visitas de emergencia/año	EHR, resultados clínicos, datos demográficos	HIPAA
Educación	5,905 escuelas · 1.68M estudiantes · 150,000+ personal	Rendimiento académico, comportamiento, datos familiares, registros sacramentales	FERPA
Servicios Sociales y Parroquias	168 agencias · 28M comidas · 295,000 colocaciones de vivienda de emergencia	Inmigración, consejería, vivienda, gestión de casos, participación parroquial	Normas de privacidad diocesanas, confianza pastoral

La atención médica católica es el grupo más grande de proveedores de atención médica sin fines de lucro en los Estados Unidos: 650 hospitales y más de 2,200 instalaciones que cuidan a uno de cada siete pacientes estadounidenses diariamente, con aproximadamente 19 millones de visitas de emergencia y 5.6 millones de admisiones hospitalarias anualmente.¹ Los tres sistemas de salud católicos más grandes (CommonSpirit Health, Ascension y Trinity Health) operan colectivamente más de 370 hospitales con ingresos combinados que superan los 90 mil millones de dólares.² ³ Estos datos están protegidos por HIPAA y son en gran medida inaccesibles para el desarrollo tecnológico interinstitucional sin procesos extendidos de IRB y acuerdos de intercambio de datos que rara vez escalan.

La educación católica inscribe a 1.68 millones de estudiantes en 5,905 escuelas con más de 150,000 personal profesional.⁴ Estos registros protegidos por FERPA incluyen rendimiento académico, datos de comportamiento, información familiar y, de manera única, registros sacramentales. La tendencia acelerada hacia la gestión centralizada diocesana, que ha crecido del 2.4 por ciento de las escuelas primarias en 1990 al 18 por ciento en 2023, crea tanto oportunidades como riesgos: la centralización permite análisis a nivel de sistema, pero concentra datos sensibles de maneras que amplifican las obligaciones de gobernanza.⁵

Los servicios sociales y parroquias católicas abarcan 168 agencias de Caridades Católicas que sirvieron más de 28 millones de comidas y proporcionaron vivienda de emergencia a 295,000 personas en 2024, mientras respondían a 52 desastres.⁶ Sus datos incluyen registros de inmigración, registros de consejería, datos de vivienda e información de gestión de casos para algunas de las poblaciones más vulnerables de América. Miles de parroquias tienen datos adicionales sobre las mismas familias en patrones de donación, participación sacramental y compromiso comunitario.

Datos Eclesiales: El Patrimonio Compartido de la Iglesia

Una categoría distinta de administración de datos se refiere a la representación digital de realidades que pertenecen a la Iglesia universal y no son datos privados, sino patrimonio compartido.

Dominio	Lo que debe ser representado	Estado actual
Liturgia	El Calendario Romano General, calendarios propios, clasificaciones de fiestas, ciclos estacionales	Múltiples implementaciones independientes con identificadores incompatibles
Escritura Sagrada	Ediciones y traducciones aprobadas desde la Vulgata hasta las lenguas vernáculas modernas	No hay un registro compartido de ediciones; cada aplicación inventa sus propias referencias
Documentos Magisteriales	Encíclicas, constituciones apostólicas, decretos conciliares, instrucciones de dicasterios	No hay un esquema de identificador estándar para tipo, emisor o nivel de autoridad
Estructuras Canónicas	Diócesis, eparquias, parroquias, institutos religiosos, incluyendo entidades históricas	Cada base de datos utiliza su propia numeración; no existe un directorio digital canónico
Registros Sacramentales	Registros de bautismo, confirmación, matrimonio, ordenación mantenidos a través de sistemas de registro diocesanos	Las bases de datos diocesanas son mutuamente incompatibles; no hay un estándar de intercambio de datos

Estos datos no enfrentan restricciones de privacidad: el Calendario Romano General es público, los textos de la Escritura Sagrada están publicados, los documentos del Magisterio están disponibles libremente. Lo que enfrenta es un déficit de estandarización. La propia comprensión de la Iglesia de sus estructuras, ritos y tradiciones no tiene una expresión digital autoritativa sobre la cual los proyectos de software puedan construir. Cada proyecto que necesita referirse a una celebración litúrgica, una edición de la Biblia o un documento magisterial debe crear su propia clasificación desde cero.

La consecuencia es la fragmentación documentada en el memorando complementario sobre la gobernanza digital católica a gran escala: docenas de proyectos independientes digitalizando las mismas realidades compartidas de maneras que no pueden interoperar, no pueden ser validadas conjuntamente y no pueden servir a la necesidad de la Iglesia universal de una infraestructura digital coherente.

Una infraestructura de datos confiable para datos eclesiales significa estándares canónicos compartidos, desarrollados por autoridades eclesiales, expertos académicos y tecnólogos especializados trabajando juntos, que dan a la herencia compartida de la Iglesia una única representación digital autoritativa.

Datos Sintéticos para el Desarrollo de IA

Para datos institucionales sensibles, una solución técnica específica ha cruzado el umbral de producción: datos sintéticos confiables.

Los datos sintéticos son datos generados algorítmicamente que reflejan las propiedades estadísticas, distribuciones y relaciones de un conjunto de datos real sin contener ningún registro real de individuos reales. Una cohorte de pacientes sintéticos extraída de los registros de salud electrónicos de un sistema hospitalario preserva los patrones clínicos, distribuciones demográficas, relaciones de comorbilidad y tasas de resultados de la población real mientras contiene cero pacientes reales. Ningún registro individual puede ser rastreado hasta una persona real porque no se utilizó ningún registro individual de una persona real para generarlo.

La distinción entre datos sintéticos y datos anonimizados es significativa. Los conjuntos de datos anonimizados eliminan o enmascaran campos identificativos, pero los registros subyacentes aún corresponden a individuos reales, y los ataques de reidentificación han demostrado que la anonimización por sí sola proporciona una protección insuficiente para poblaciones sensibles. Los datos sintéticos generan nuevos registros a partir de distribuciones aprendidas. El riesgo de reidentificación se reduce drásticamente cuando los conjuntos de datos son completamente sintéticos, porque los registros sintéticos no tienen contrapartes en el mundo real, pero la privacidad aún requiere un diseño cuidadoso y pruebas independientes antes de que los datos puedan ser confiables para un uso significativo.

La validación de calidad es el requisito crítico de gobernanza. Un conjunto de datos sintético es valioso para el entrenamiento de IA solo si preserva con precisión las propiedades estadísticas de los datos de origen. Los marcos de validación miden la fidelidad (el grado en que las distribuciones sintéticas coinciden con las distribuciones reales) y la privacidad (el grado en que los registros sintéticos resisten ataques de inferencia de membresía). Ambas dimensiones requieren una validación rigurosa e independiente antes de que los datos sintéticos puedan ser confiables para el desarrollo de IA de consecuencias significativas.

La señal del mercado

Dos señales del mercado establecen que los datos sintéticos han pasado de una infraestructura experimental a una de calidad de producción.

Señal	Organización	Año	Significado
NVIDIA adquiere Gretel	NVIDIA / Gretel	2025	La adquisición de más de $320 millones posiciona la generación de datos sintéticos como infraestructura empresarial fundamental de IA, no como una herramienta de privacidad de nicho
VA despliega MDClone a nivel nacional	Administración de Salud de Veteranos	2020–presente	Demuestra datos de salud sintéticos a escala de producción bajo supervisión regulatoria federal

NVIDIA adquirió Gretel, la principal plataforma de generación de datos sintéticos, por más de $320 millones en 2025.⁷ La tesis de adquisición de NVIDIA fue explícita: los datos sintéticos son una infraestructura esencial para el desarrollo de IA en industrias reguladas donde los datos reales son legalmente inaccesibles o prácticamente no disponibles a la escala que requiere el entrenamiento de IA.

El Departamento de Asuntos de Veteranos de EE. UU., a través de la Administración de Salud de Veteranos, ha desplegado MDClone como un motor de datos sintéticos para apoyar múltiples casos de uso clínicos y de investigación.⁸ El despliegue de la VHA demostró que la generación de datos sintéticos puede operar a escala del sistema de salud nacional bajo supervisión regulatoria federal, con una fidelidad validada suficiente para apoyar el desarrollo de IA clínica y la investigación de resultados.

Estas señales son importantes para las instituciones católicas porque establecen que la tecnología está lista para producción y que las cuestiones regulatorias y de gobernanza, aunque reales, son solucionables.

Lo que las Instituciones Católicas Podrían Construir

Una infraestructura de datos confiable —tanto datos eclesiales estandarizados como datos institucionales sintéticos— desbloquearía el desarrollo tecnológico que actualmente es estructuralmente imposible.

A partir de datos institucionales sintéticos

Caso de Uso	Fuente de Datos	Aplicaciones Desbloqueadas
Salud	Cohortes de EHR sintéticos en 650 hospitales	IA diagnóstica, operaciones clínicas, investigación poblacional multi-sistema
Educación	Registros de estudiantes sintéticos en 5,905 escuelas	Sistemas de alerta temprana, modelos de retención, evaluación comparativa a nivel del sistema
Servicios Sociales	Datos de casos sintéticos en 168 agencias de Caridades	Efectividad de programas, predicción de la falta de vivienda, modelado de vulnerabilidad vecinal
Asociaciones de Investigación	Cohortes sintéticas interinstitucionales	Estudios de NIH, investigación en salud pública, resultados de poblaciones minoritarias

Los cohortes de EHR sintéticos en 650 hospitales permitirían el desarrollo de IA diagnóstica, la optimización de operaciones clínicas y la investigación multi-sistema sobre patrones poblacionales sin activar flujos de trabajo de compartición de PHI ni demoras prolongadas en el IRB.⁹ Los hospitales católicos sirven desproporcionadamente a poblaciones subrepresentadas y desatendidas que los conjuntos de datos comerciales de entrenamiento de IA consistentemente subrepresentan. Los registros sintéticos de estudiantes en 5,905 escuelas permitirían a las oficinas de educación diocesanas construir sistemas de alerta temprana para estudiantes en riesgo y establecer puntos de referencia de rendimiento a nivel del sistema sin que los datos reales de los estudiantes abandonen jamás su sistema de origen.¹⁰ Los datos sintéticos de gestión de casos en 168 agencias de Caridades Católicas permitirían el análisis de la efectividad de programas y el aprendizaje inter-agencial sin exponer las identidades de los clientes individuales.¹¹

La combinación de datos de servicios sociales con datos de comunidades parroquiales crea una imagen a nivel de vecindario de la necesidad humana que no tiene equivalente secular. Este caso de uso es una ejecución técnica directa de la Opción Preferencial por los Pobres de la Iglesia: los sistemas tecnológicos construidos sobre esta infraestructura verían y servirían a los marginados sin explotar sus datos, asegurando que las poblaciones más vulnerables se beneficien del desarrollo tecnológico en lugar de ser invisibilizadas por conjuntos de datos que consistentemente las subrepresentan.

Una obligación de gobernanza sigue de cada uno de estos casos de uso. Los principios de la USCCB son directos: los sistemas de toma de decisiones automatizados utilizados en atención médica, educación y servicios sociales pueden reforzar sesgos existentes o introducir un enfoque utilitario que desplaza consideraciones humanas necesarias.¹² La USCCB enseña además que la tecnología debe “complementar lo que hacen los seres humanos, no reemplazarlos ni sus juicios morales.”¹³ Los modelos entrenados con datos sintéticos católicos deben ser diseñados para complementar el juicio de médicos, maestros y trabajadores sociales, y los criterios de certificación de la CDCF para aplicaciones que utilizan datos sintéticos deben requerir que los profesionales humanos mantengan la autoridad de toma de decisiones final.

Las instituciones católicas de EE. UU. también sirven a grandes poblaciones de ascendencia latinoamericana, particularmente en atención médica y servicios sociales. El Consejo Episcopal Latinoamericano y del Caribe ha llamado a que las aplicaciones de IA sean evaluadas críticamente en contextos locales particulares para determinar si avanzan la dignidad humana y el bien común en la práctica.¹⁴ El marco de datos sintéticos federados proporciona exactamente el mecanismo necesario para desarrollar y evaluar de manera segura la tecnología que sirve a estas comunidades demográficas específicas.

De datos eclesiales estandarizados

Caso de Uso	Fuente de Datos	Aplicaciones Desbloqueadas
Software Litúrgico	Identificadores CLEDR compartidos para todas las celebraciones	Aplicaciones de calendario interoperables, herramientas de leccionario, sistemas de planificación litúrgica
Aplicaciones de Escritura	Registro compartido de ediciones de la Biblia católica	Herramientas de referencia cruzada, integración de lecturas litúrgicas, plataformas catequéticas
Investigación Magisterial	Identificadores CMDDR compartidos para documentos de la Iglesia	Herramientas de citación, bases de datos de autoridad docente, plataformas de investigación teológica
Administración Diocesana	Identificadores compartidos para estructuras canónicas	Directorios interdiocesanos, informes nacionales, investigación histórica

Cuando los proyectos de software católicos se basan en identificadores canónicos compartidos en lugar de inventar los propios, la interoperabilidad se convierte en la norma en lugar de ser la excepción. Una aplicación de calendario litúrgico puede intercambiar datos con un sistema de gestión parroquial. Una plataforma catequética puede hacer referencia a los mismos documentos magisteriales que una herramienta de investigación teológica. Una base de datos diocesana puede interoperar con un directorio nacional. Cada estándar compartido elimina el esfuerzo redundante y asegura que la representación digital del patrimonio de la Iglesia refleje la unidad eclesial de lo que representa.

La Pilastra de Tres Capas

La infraestructura de datos confiable para el ministerio católico opera a través de tres capas que corresponden a los niveles de capacidad institucional.

Capa	Función	Usuarios Principales	Rol del CDCF
Infraestructura	Generadores de datos sintéticos, motores de validación de estándares, controles de tuberías sensibles a PHI/PII. Maneja la generación técnica, validación y verificación de conformidad con los estándares.	Grandes sistemas de salud y centros de investigación universitaria	Contribuye con especificaciones de validación y conformidad
Plataforma de Gobernanza	Marco de gobernanza específico para católicos que codifica estándares de validación de calidad, políticas de administración de datos, esquemas de estándares del CDCF y patrones de control de acceso.	Oficinas de gobernanza diocesana y administradores de datos	Administra estándares de validación, criterios de certificación, esquemas
Aplicación	Herramientas listas para usar: paneles de educación diocesana, herramientas de evaluación de programas de Caridades, software litúrgico que utiliza identificadores estándar del CDCF, integraciones de datos parroquiales.	Oficinas diocesanas, parroquias, pequeñas agencias	Proporciona plantillas de aplicación certificadas y esquemas estándar

Tres Niveles de Datos Católicos

Una crítica planteada en las discusiones de la sesión C-DART 1 merece un reconocimiento directo: la heterogeneidad de datos entre instituciones católicas legalmente independientes haría que un común de datos católicos fuera técnicamente insostenible. Esa crítica es precisa, pero se aplica a una categoría de datos, no a todos ellos. La arquitectura apropiada depende del tipo de datos que se estén gobernando.

Los datos católicos se dividen en tres niveles distintos, cada uno requiriendo un modelo de infraestructura diferente.

Nivel 1: Datos institucionales sensibles — federados, nunca agrupados

Los registros de pacientes, archivos de estudiantes, datos de gestión de casos, registros de donaciones parroquiales y registros sacramentales relacionados con individuos específicos son datos sensibles protegidos por HIPAA, FERPA, normas de privacidad diocesanas y confianza pastoral. Los hospitales, escuelas y agencias de Caridades católicas operan bajo diferentes entidades legales, diferentes marcos regulatorios y diferentes estructuras de gobernanza diocesana. Sus esquemas de datos, calidad de datos y normas de gobernanza de datos son incompatibles de maneras que producirían ruido en lugar de señal si se combinaran de manera ingenua.

Estos datos nunca son objeto de un común de datos. La respuesta arquitectónica es la generación de datos sintéticos federados: cada institución genera conjuntos de datos sintéticos localmente a partir de sus propios datos fuente, y solo los conjuntos de datos sintéticos — que no contienen registros individuales reales — se mueven entre instituciones o se ponen a disposición para investigación y desarrollo de IA. Cada institución mantiene el control total sobre sus datos fuente.

Nivel 2: Datos institucionales locales — gobernados localmente, no un común

Los datos operativos específicos de una diócesis, sistema escolar o agencia — cifras de matrícula, modelos de personal, datos de instalaciones, configuraciones de programas locales — no son sensibles de la misma manera que los registros personales, pero son específicos de la institución que los produce. Caen bajo la gobernanza de la institución local y no son candidatos para un común de datos.

Estos datos se benefician de estándares compartidos (para que los sistemas diocesanos puedan interoperar donde sea necesario) pero permanecen en propiedad y gobernanza local.

Nivel 3: Datos de la Iglesia Universal — un verdadero común de datos

La Liturgia, la estructura de la Sagrada Escritura, los documentos del Magisterio, el Derecho Canónico, la estructura organizativa de las diócesis y parroquias — estas realidades pertenecen a la Iglesia universal. No son datos privados de ninguna institución. Se originan de la autoridad universal de la Iglesia y se comparten en cada diócesis, parroquia e institución católica en todo el mundo.

Estos datos son el sujeto natural de un commons de datos. La base compartida — el Calendario Romano General, los libros canónicos de la Biblia, la clasificación de los documentos del Magisterio, el directorio de diócesis — puede ser definida, mantenida y servida de manera central. No se trata meramente de definir estándares que los proyectos independientes implementan localmente; los datos en sí pueden ser servidos desde un commons compartido, porque representan realidades universales que no pertenecen a ninguna institución local individualmente.

Existen adaptaciones locales dentro de este nivel: calendarios propios para diócesis y órdenes religiosas específicas, traducciones vernáculas aprobadas de las Escrituras y textos litúrgicos, suplementos diocesanos a las estructuras canónicas. Estas adaptaciones están bajo la gobernanza de la conferencia de obispos local o diócesis que las publicó, y muchas también están bajo derechos de autor — lo que sirve como un medio legítimo para proteger tanto la autoridad de la institución local como los derechos del editor encargado por esa institución de producir la adaptación vernácula, a quien puede corresponder una compensación adecuada.

La arquitectura debe respetar tanto la jurisdicción como los derechos de autor. Servir centralmente las adaptaciones locales no requiere que el material protegido por derechos de autor se publique como código abierto. Un modelo híbrido acomoda ambas realidades:

Opción federada. La institución local sirve sus propias adaptaciones localmente, utilizando esquemas estándar de CDCF para la interoperabilidad. Los datos nunca salen de la infraestructura de la institución. Esto siempre está disponible como la opción predeterminada.
Opción centralizada por acuerdo. Tras un acuerdo con la institución local, el CDCF sirve la adaptación de manera central mientras protege los datos protegidos por derechos de autor de acuerdo con cualquier norma establecida por el titular de los derechos — controles de acceso, términos de licencia, requisitos de atribución, o restricciones de distribución según lo considere adecuado la institución local.

Ambas opciones operan bajo los mismos estándares y esquemas compartidos, por lo que los proyectos de software posteriores interoperan independientemente de si una adaptación dada se sirve localmente o de manera central. La distinción es operativa (dónde se alojan los datos y bajo qué términos) más que estructural (cómo se representan los datos).

Esta distinción importa porque determina lo que el CDCF puede y debe construir. Para los datos de Nivel 1, el CDCF establece estándares de validación para la generación de datos sintéticos. Para los datos de Nivel 2, el CDCF define estándares de interoperabilidad. Para los datos de Nivel 3, el CDCF puede ir más allá: puede definir los estándares canónicos, mantener los conjuntos de datos autoritativos y servir la base compartida como infraestructura operativa para todo el ecosistema de software católico — con adaptaciones locales servidas de manera central donde los acuerdos lo permitan, o federadas donde no lo hagan.

El Rol del CDCF a Través de los Niveles de Datos

Los estatutos del CDCF le encargan “coordinar, desarrollar, administrar y difundir software de código abierto, repositorios de datos, estándares técnicos y plataformas digitales,” y su manifiesto describe un “commons de constructores” dedicado a agregar, verificar y comunalizar recursos para la misión digital de la Iglesia Católica. El modelo de datos de tres niveles se mapea directamente a esa carta — con el rol del CDCF escalando desde la definición de estándares para datos sensibles, a través de estándares de interoperabilidad para datos locales, hasta la administración operativa de datos para el patrimonio compartido de la Iglesia universal.

Nivel de Datos	Rol del CDCF
Nivel 1: Datos institucionales sensibles	Define estándares de validación y criterios de certificación para la generación de datos sintéticos. Establece umbrales de fidelidad y privacidad. No retiene datos.
Nivel 2: Datos institucionales locales	Define estándares de interoperabilidad y convenciones de esquema. No retiene datos.
Nivel 3: Datos de la Iglesia Universal	Define estándares canónicos, mantiene conjuntos de datos autoritativos y sirve la base compartida con adaptaciones locales contribuidas.

Para el Nivel 1, el CDCF contribuye con experiencia en gobernanza: los umbrales de fidelidad y privacidad que un conjunto de datos sintéticos debe cumplir para la certificación, lo que un proceso de generación de datos sintéticos debe demostrar para recibir la certificación del CDCF (paralelamente a los criterios de evaluación de proyectos) y las convenciones de esquema que permiten que conjuntos de datos sintéticos de diferentes instituciones se combinen o comparen para la investigación interinstitucional. Los estándares compartidos evitan que cada institución resuelva el mismo problema de manera independiente.

Para el Nivel 2, el CDCF contribuye con estándares de interoperabilidad: esquemas y convenciones comunes que permiten a los sistemas gobernados localmente intercambiar datos donde sea necesario, sin requerir que esos sistemas agrupen sus datos o cedan la gobernanza a una autoridad central.

Para el Nivel 3, la contribución del CDCF es cualitativamente diferente. La Fundación está posicionada no solo para definir los identificadores canónicos y representaciones de datos para las realidades de la vida católica —celebraciones litúrgicas, ediciones de las Escrituras, documentos magisteriales, estructuras canónicas— sino para mantener y servir esos conjuntos de datos como infraestructura operativa. El Calendario Romano General, por ejemplo, no es meramente un estándar que debe implementarse localmente; es un conjunto de datos compartido que puede ser servido centralmente, con calendarios propios locales aportados por las diócesis y órdenes religiosas que los gobiernan. Lo mismo se aplica a un registro de ediciones de la Biblia católica, una clasificación de documentos magisteriales o un directorio de diócesis y parroquias. El CDCF puede servir como la base universal y, mediante acuerdo con las instituciones locales que las gobiernan, incorporar y servir las adaptaciones locales —cumpliendo su papel charterizado como administrador de repositorios de datos y creando un verdadero commons de datos para el patrimonio compartido de la Iglesia.

Relación con el CDCF

La investigación documentada aquí apoya ambos pilares de la misión del CDCF.

Evaluación de proyectos. El Criterio 7 de los Criterios de Evaluación de Proyectos del CDCF aborda directamente la administración de datos: un proyecto que maneja datos de instituciones católicas tiene una obligación hacia esas instituciones y hacia las poblaciones que sirven, y los términos bajo los cuales se utilizan esos datos deben ser divulgados y evaluados como parte de la revisión de graduación. La infraestructura de datos sintéticos confiables es lo que hace posible el desarrollo responsable de IA a gran escala: una institución que despliega generación de datos sintéticos validados puede desarrollar herramientas de IA para su propio uso y contribuir al desarrollo compartido de IA católica sin la exposición legal y la carga de gobernanza que requeriría el uso de datos institucionales reales.

Programa de estándares. El programa de estándares del CDCF aborda directamente el desafío de la estandarización de datos eclesiales. Al establecer identificadores canónicos compartidos para celebraciones litúrgicas (CLEDR), documentos magisteriales (CMDDR), ediciones del Misal Romano (CRMETDR) y futuros estándares para diócesis, ediciones de las Escrituras y estructuras canónicas, el programa de estándares crea el vocabulario digital autoritativo que los proyectos de software católicos necesitan.

Los tres memorandos de investigación (fragmentación, gobernanza como código e infraestructura de datos confiables) forman un argumento integrado. La fragmentación establece por qué la gobernanza y los estándares compartidos son urgentes. La gobernanza como código proporciona la arquitectura de aplicación. La infraestructura de datos confiables proporciona la base de datos —tanto datos institucionales sintéticos como datos eclesiales estandarizados— que permite a las instituciones católicas desarrollar tecnología digna de esa arquitectura de gobernanza.

Bibliografía

Asociación de Salud Católica de los Estados Unidos, Cuidado de Salud Católico en los Estados Unidos (Washington, DC: Asociación de Salud Católica, 2024), https://www.chausa.org/about/facts—statistics.↩︎
Asociación de Salud Católica de los Estados Unidos, Cuidado de Salud Católico en los Estados Unidos (Washington, DC: Asociación de Salud Católica, 2024), https://www.chausa.org/about/facts—statistics.↩︎
CommonSpirit Health, Estados Financieros Consolidados Auditados a partir de y para los Años Terminados el 30 de junio de 2024 y 2023 (Chicago: CommonSpirit Health, 2024), https://www.commonspirit.org/content/dam/shared/en/pdfs/investor-resources/2024-CommonSpirit-Health-Annual-Report.SECURED.pdf.↩︎
Asociación Nacional de Educación Católica, Escuelas Católicas de Educación Primaria y Secundaria de los Estados Unidos 2023–2024: El Informe Estadístico Anual sobre Escuelas, Inscripción y Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
Asociación Nacional de Educación Católica, Escuelas Católicas de Educación Primaria y Secundaria de los Estados Unidos 2023–2024: El Informe Estadístico Anual sobre Escuelas, Inscripción y Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
Catholic Charities USA, Caminos hacia Adelante: Informe Anual 2024 (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎
Paresh Dave, “Nvidia Adquiere Supuestamente la Startup de Datos Sintéticos Gretel,” TechCrunch, 19 de marzo de 2025, https://techcrunch.com/2025/03/19/nvidia-reportedly-acquires-synthetic-data-startup-gretel/. NVIDIA declinó hacer comentarios oficiales; no se ha emitido ningún comunicado de prensa corporativo.↩︎
Departamento de Asuntos de Veteranos de EE. UU., Administración de Salud de Veteranos, “Datos Sintéticos para Mejorar la Atención a los Veteranos,” VA News, diciembre de 2020, https://news.va.gov/81908/synthetic-data-improve-veteran-care/.↩︎
Asociación de Salud Católica de los Estados Unidos, Cuidado de Salud Católico en los Estados Unidos (Washington, DC: Catholic Health Association, 2024), https://www.chausa.org/about/facts—statistics.↩︎
Asociación Nacional de Educación Católica, Escuelas Católicas de Educación Primaria y Secundaria de los Estados Unidos 2023–2024: El Informe Estadístico Anual sobre Escuelas, Inscripción y Personal (Arlington, VA: NCEA, 2024), https://www.ncea.org/NCEA/NCEA/Who_We_Are/About_Catholic_Schools/Catholic_School_Data/Catholic_School_Data.aspx.↩︎
Catholic Charities USA, Caminos hacia Adelante: Informe Anual 2024 (Alexandria, VA: Catholic Charities USA, 2025), https://www.catholiccharitiesusa.org/publications/2024-annual-report/.↩︎
Conferencia de Obispos Católicos de los Estados Unidos, Carta Conjunta sobre los Principios y Prioridades de la Inteligencia Artificial, 9 de junio de 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎
Conferencia de Obispos Católicos de los Estados Unidos, Carta Conjunta sobre los Principios y Prioridades de la Inteligencia Artificial, 9 de junio de 2025, https://www.usccb.org/resources/joint-letter-artificial-intelligence-principles-and-priorities.↩︎
Consejo Episcopal Latinoamericano y del Caribe (CELAM), Inteligencia Artificial: Una mirada pastoral desde América Latina y el Caribe (Bogotá: CELAM, mayo de 2025), https://adn.celam.org/celam-presenta-documento-inedito-sobre-inteligencia-artificial-una-mirada-pastoral-desde-america-latina-y-el-caribe/.↩︎