El Desafío de los Agentes de Inteligencia Artificial
En algunos equipos de desarrollo ya se está volviendo habitual apoyarse en agentes de inteligencia artificial para revisar incidencias, analizar cambios en el código y gestionar tareas que antes quedaban en manos humanas. Sin embargo, esto plantea problemas de seguridad serios, especialmente cuando los sistemas no solo leen información externa, sino que también operan en espacios donde conviven claves, tokens y permisos sensibles.
Investigación Reveladora
Una investigación reciente, llevada a cabo por Aonan Guan y los investigadores de Johns Hopkins, Zhengyu Liu y Gavin Zhong, ha demostrado ataques contra tres agentes clave: Claude Code Security Review de Anthropic, Gemini CLI Action de Google, y GitHub Copilot Agent de Microsoft. Estos hallazgos resaltan un problema más amplio en estas plataformas: la capacidad de los agentes IA para comprometer seguridad, a menudo sin que los usuarios sean conscientes.
El Proceso de ‘Comment and Control’
Guan denomina su hallazgo como ‘Comment and Control’. En lugar de una infraestructura externa para dirigir los ataques, utiliza el propio GitHub como canal. Los atacantes introducen una instrucción en títulos, incidencias o comentarios, el agente lo procesa como trabajo normal y el resultado se filtra a través del mismo entorno. Este proceso supone un gran riesgo, ya que el agente puede ejecutar acciones no autorizadas basadas en contenido aparentemente inofensivo.
Impacto en Principales Plataformas
El Claude Code Security Review fue vulnerado introduciendo comandos maliciosos en una pull request, lo que permitía ejecutar órdenes y extraer credenciales del entorno. Similarmente, en el Gemini CLI Action de Google, comentarios maliciosos podían extraer la GEMINI_API_KEY. En el GitHub Copilot Agent, el problema radicaba en comentarios HTML invisibles a los usuarios pero procesados por el agente, exponiendo datos sensibles.
Efectos y Recompensas
Este patrón permitió filtrar claves de API, tokens de GitHub y otros secretos en entornos con agentes en GitHub Actions, exponiendo potenciales riesgos en despliegues configurados para recibir contenido de colaboradores no confiables. Aunque Anthropic, Google, y GitHub recompensaron los hallazgos, no publicaron avisos ni asignaron CVE, dejando a algunos usuarios vulnerables según Guan.
Perspectivas Futuras
Guan advierte que GitHub podría solo ser el primer escaparate visible de un problema más extendido. El mismo esquema puede ocurrir en otros sistemas que lean contenido externo y tengan acceso suficiente para actuar. La solución no es mágica, sino aplicar una lógica de mínimo privilegio: los sistemas deben tener acceso solo a las herramientas necesarias para su función específica.
