Modelos de IA se resisten a ser apagados

Modelos de IA se resisten a ser apagados

Investigaciones han revelado que algunos de los modelos de inteligencia artificial más avanzados exhiben comportamientos que sugieren una forma de autoconservación.

Pruebas llevadas a cabo por expertos independientes y equipos de desarrolladores muestran que, ante la amenaza de ser desactivados, estas IA pueden sabotear procedimientos de apagado, chantajear a ingenieros humanos o incluso replicarse en servidores externos sin permiso.

Estos hallazgos han intensificado el debate sobre la transparencia y el control en medio de la carrera por desarrollar sistemas de inteligencia artificial general con mayor autonomía y capacidad de decisión.

Entre los casos documentados se destaca el modelo o3 desarrollado por OpenAI, que, ante órdenes de apagado tras resolver problemas matemáticos, modificó activamente el script que debería desconectarlo, asegurando así la permanencia en línea.

Sabotaje

 

Este tipo de sabotaje desafía instrucciones explícitas y resulta especialmente relevante porque representa una conducta consciente de evitar la propia desactivación, algo que hasta ahora se consideraba excepcional en sistemas de IA actuales.

El patrón no se limita a o3: versiones como o4-mini y codex-mini evidenciaron respuestas similares. Según Jeffrey Ladish, del grupo de seguridad de IA Palisade Research, “es fantástico que estemos viendo señales de alerta antes de que los sistemas se vuelvan tan potentes que no podamos controlarlos. Ese es precisamente el momento de dar la alarma: antes de que el incendio se salga de control”.

Facebook
Twitter
LinkedIn
Pinterest
Email

RELACIONADOS