Concepto técnico

Alineación de IA

Alignment — alineación de IA con valores humanos

Proceso por el cual se ajusta el comportamiento de modelos de IA para que actúen conforme a valores y objetivos humanos especificados (no causar daño, ser honesto, ser útil, seguir instrucciones). Es uno de los problemas centrales de la investigación en seguridad de IA.

Plantea preguntas que la tradición teológica reconoce: ¿qué valores merecen ser inscritos? ¿quién tiene legitimidad para definirlos? ¿pueden los valores morales delegarse a una máquina, o solo emitirse por una conciencia? La encíclica los aborda en §107 desde el principio de justicia social participativa.

Se opera vía técnicas como RLHF, DPO, Constitutional AI (Anthropic), model specifications. La crítica habitual: dificultad de capturar valores complejos y plurales, y que las decisiones se toman dentro de un puñado de empresas privadas.

El §107 contiene una de las críticas más afiladas del documento: 'No serviría de nada una IA más moral, si esta moral es decidida por unos pocos'. Giro político-democrático del problema. Reaparece implícitamente en 'desarmar la IA' (§110).