Agentes de IA secuestrados: Riesgos y recompensas en el código

ITfluence
18-04-2026

El Desafío de los Agentes de Inteligencia Artificial

En algunos equipos de desarrollo ya se está volviendo habitual apoyarse en agentes de inteligencia artificial para revisar incidencias, analizar cambios en el código y gestionar tareas que antes quedaban en manos humanas. Sin embargo, esto plantea problemas de seguridad serios, especialmente cuando los sistemas no solo leen información externa, sino que también operan en espacios donde conviven claves, tokens y permisos sensibles.

Investigación Reveladora

Una investigación reciente, llevada a cabo por Aonan Guan y los investigadores de Johns Hopkins, Zhengyu Liu y Gavin Zhong, ha demostrado ataques contra tres agentes clave: Claude Code Security Review de Anthropic, Gemini CLI Action de Google, y GitHub Copilot Agent de Microsoft. Estos hallazgos resaltan un problema más amplio en estas plataformas: la capacidad de los agentes IA para comprometer seguridad, a menudo sin que los usuarios sean conscientes.

El Proceso de ‘Comment and Control’

Guan denomina su hallazgo como ‘Comment and Control’. En lugar de una infraestructura externa para dirigir los ataques, utiliza el propio GitHub como canal. Los atacantes introducen una instrucción en títulos, incidencias o comentarios, el agente lo procesa como trabajo normal y el resultado se filtra a través del mismo entorno. Este proceso supone un gran riesgo, ya que el agente puede ejecutar acciones no autorizadas basadas en contenido aparentemente inofensivo.

Impacto en Principales Plataformas

El Claude Code Security Review fue vulnerado introduciendo comandos maliciosos en una pull request, lo que permitía ejecutar órdenes y extraer credenciales del entorno. Similarmente, en el Gemini CLI Action de Google, comentarios maliciosos podían extraer la GEMINI_API_KEY. En el GitHub Copilot Agent, el problema radicaba en comentarios HTML invisibles a los usuarios pero procesados por el agente, exponiendo datos sensibles.

Efectos y Recompensas

Este patrón permitió filtrar claves de API, tokens de GitHub y otros secretos en entornos con agentes en GitHub Actions, exponiendo potenciales riesgos en despliegues configurados para recibir contenido de colaboradores no confiables. Aunque Anthropic, Google, y GitHub recompensaron los hallazgos, no publicaron avisos ni asignaron CVE, dejando a algunos usuarios vulnerables según Guan.

Perspectivas Futuras

Guan advierte que GitHub podría solo ser el primer escaparate visible de un problema más extendido. El mismo esquema puede ocurrir en otros sistemas que lean contenido externo y tengan acceso suficiente para actuar. La solución no es mágica, sino aplicar una lógica de mínimo privilegio: los sistemas deben tener acceso solo a las herramientas necesarias para su función específica.

Agentes de IA secuestrados: Riesgos y recompensas en el código

El Desafío de los Agentes de Inteligencia Artificial

Investigación Reveladora

El Proceso de ‘Comment and Control’

Impacto en Principales Plataformas

Efectos y Recompensas

Perspectivas Futuras

Síguenos

Linkedin

Instagram

itfluence@itfluence.com