⬢ Concepto técnico

Alineación de IA

Alignment — alineación de IA con valores humanos

Definición

Proceso por el cual se ajusta el comportamiento de modelos de IA para que actúen conforme a valores y objetivos humanos especificados (no causar daño, ser honesto, ser útil, seguir instrucciones). Es uno de los problemas centrales de la investigación en seguridad de IA.

Glosa teológica

Plantea preguntas que la tradición teológica reconoce: ¿qué valores merecen ser inscritos? ¿quién tiene legitimidad para definirlos? ¿pueden los valores morales delegarse a una máquina, o solo emitirse por una conciencia? La encíclica los aborda en §107 desde el principio de justicia social participativa.

Glosa técnica

Se opera vía técnicas como RLHF, DPO, Constitutional AI (Anthropic), model specifications. La crítica habitual: dificultad de capturar valores complejos y plurales, y que las decisiones se toman dentro de un puñado de empresas privadas.

Tratamiento en la encíclica

El §107 contiene una de las críticas más afiladas del documento: 'No serviría de nada una IA más moral, si esta moral es decidida por unos pocos'. Giro político-democrático del problema. Reaparece implícitamente en 'desarmar la IA' (§110).

Apariciones en el texto 1

§107 No serviría de nada una IA más moral, si esta moral es decidida por unos pocos.

Conceptos relacionados

Referencias externas

↗
Stuart Russell — Human Compatible (2019)
Tratamiento académico clásico del problema de alineación.
↗
Timnit Gebru et al. — Stochastic Parrots (2021)
Crítica fundacional sobre quién decide los valores y datos.
↗
Anthropic — Constitutional AI
Una de las técnicas concretas de alineación.