Concepto técnico
Alineación de IA
Alignment — alineación de IA con valores humanos
Definición
Proceso por el cual se ajusta el comportamiento de modelos de IA para que actúen conforme a valores y objetivos humanos especificados (no causar daño, ser honesto, ser útil, seguir instrucciones). Es uno de los problemas centrales de la investigación en seguridad de IA.
Glosa teológica
Plantea preguntas que la tradición teológica reconoce: ¿qué valores merecen ser inscritos? ¿quién tiene legitimidad para definirlos? ¿pueden los valores morales delegarse a una máquina, o solo emitirse por una conciencia? La encíclica los aborda en §107 desde el principio de justicia social participativa.
Glosa técnica
Se opera vía técnicas como RLHF, DPO, Constitutional AI (Anthropic), model specifications. La crítica habitual: dificultad de capturar valores complejos y plurales, y que las decisiones se toman dentro de un puñado de empresas privadas.
Tratamiento en la encíclica
El §107 contiene una de las críticas más afiladas del documento: 'No serviría de nada una IA más moral, si esta moral es decidida por unos pocos'. Giro político-democrático del problema. Reaparece implícitamente en 'desarmar la IA' (§110).
Apariciones en el texto 1
Conceptos relacionados
Referencias externas
- ↗ Stuart Russell — Human Compatible (2019)
Tratamiento académico clásico del problema de alineación.
- ↗ Timnit Gebru et al. — Stochastic Parrots (2021)
Crítica fundacional sobre quién decide los valores y datos.
- ↗ Anthropic — Constitutional AI
Una de las técnicas concretas de alineación.