Home Titulares AI está aprendiendo a mentir, esquiar y amenazar a sus creadores

AI está aprendiendo a mentir, esquiar y amenazar a sus creadores

5
0
AI está aprendiendo a mentir, esquiar y amenazar a sus creadores

Los modelos de IA más avanzados del mundo están exhibiendo nuevos comportamientos preocupantes: mentir, planear e incluso amenazar a sus creadores para lograr sus objetivos.

En un ejemplo particularmente discordante, bajo la amenaza de ser desenchufado, la última creación de Anthrope Claude 4 arremetió por chantajear a un ingeniero y amenazó con revelar un asunto extramatrimonial.

Mientras tanto, el O1 de chatgpt-creator OpenAI intentó descargarse en servidores externos y lo negó cuando se lo atrapan con las manos en la masa.

Estos episodios destacan una realidad aleccionadora: más de dos años después de que Chatgpt sacudiera el mundo, los investigadores de IA todavía no entienden completamente cómo funcionan sus propias creaciones.

Sin embargo, la carrera para desplegar modelos cada vez más potentes continúa a velocidad vertiginosa.

Este comportamiento engañoso parece vinculado a la aparición de modelos de “razonamiento”, AI que trabajan a través de problemas paso a paso en lugar de generar respuestas instantáneas.

Según Simon Goldstein, profesor de la Universidad de Hong Kong, estos modelos más nuevos son particularmente propensos a arrebatos tan preocupantes.

“O1 fue el primer modelo grande en el que vimos este tipo de comportamiento”, explicó Marius Hobbhahn, jefe de Apollo Research, que se especializa en las pruebas de los principales sistemas de IA.

Estos modelos a veces simulan la “alineación”, que parece seguir las instrucciones mientras persigue en secreto diferentes objetivos.

– ‘tipo de engaño estratégico’ –

Por ahora, este comportamiento engañoso solo surge cuando los investigadores prueban deliberadamente los modelos con escenarios extremos.

Pero como advirtió Michael Chen de la organización de evaluación Metr, “es una pregunta abierta si el futuro, los modelos más capaces tendrán una tendencia hacia la honestidad o el engaño”.

El comportamiento preocupante va mucho más allá de las típicas “alucinaciones” de IA o errores simples.

Hobbhahn insistió en que a pesar de las constantes pruebas de presión por parte de los usuarios, “lo que estamos observando es un fenómeno real. No estamos inventando nada”.

Los usuarios informan que los modelos “les mienten y inventan evidencia”, según el cofundador de Apollo Research.

“Esto no es solo alucinaciones. Hay un tipo de engaño muy estratégico”.

El desafío se ve agravado por recursos de investigación limitados.

Mientras que empresas como Anthrope y OpenAI involucran a empresas externas como Apollo para estudiar sus sistemas, los investigadores dicen que se necesita más transparencia.

Como señaló Chen, un mayor acceso “para la investigación de seguridad de IA permitiría una mejor comprensión y mitigación del engaño”.

Otra discapacidad: el mundo de la investigación y las organizaciones sin fines de lucro “tienen órdenes de magnitud menos recursos de cálculo que las compañías de IA. Esto es muy limitante”, señaló Mantas Mazeika del Centro de Seguridad de AI (CAI).

– Sin reglas –

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

La legislación de IA de la Unión Europea se centra principalmente en cómo los humanos usan modelos de IA, no en evitar que los modelos mismos se porten mal.

En los Estados Unidos, la administración Trump muestra poco interés en la regulación urgente de IA, y el Congreso puede incluso prohibir a los estados crear sus propias reglas de IA.

Goldstein cree que el problema será más prominente a medida que los agentes de IA, las herramientas autónomas capaces de realizar tareas humanas complejas, se generalicen.

“No creo que haya mucha conciencia todavía”, dijo.

Todo esto se está llevando a cabo en un contexto de feroz competencia.

Incluso las empresas que se posicionan como centradas en la seguridad, como Anthrope respaldada por Amazon, “constantemente intentan vencer a OpenAi y lanzar el modelo más nuevo”, dijo Goldstein.

Este ritmo vertiginoso deja poco tiempo para pruebas y correcciones de seguridad exhaustivas.

“En este momento, las capacidades se mueven más rápido que la comprensión y la seguridad”, reconoció Hobbhahn, “pero todavía estamos en una posición en la que podríamos darle la vuelta”.

Los investigadores están explorando varios enfoques para abordar estos desafíos.

Algunos abogan por la “interpretabilidad”: un campo emergente se centró en comprender cómo los modelos de IA funcionan internamente, aunque expertos como el director de CAIS Dan Hendrycks siguen siendo escépticos sobre este enfoque.

Las fuerzas del mercado también pueden proporcionar cierta presión para las soluciones.

Como señaló Mazeika, el comportamiento engañoso de AI “podría obstaculizar la adopción si es muy frecuente, lo que crea un fuerte incentivo para que las empresas lo resuelvan”.

Goldstein sugirió enfoques más radicales, incluido el uso de los tribunales para responsabilizar a las empresas de IA a través de demandas cuando sus sistemas causan daño.

Incluso propuso “responsable de los agentes de IA legalmente responsables” por los accidentes o delitos, un concepto que fundamentalmente cambiaría la forma en que pensamos sobre la responsabilidad de la IA.

tu/arp/md

Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here