Google search engine
Google search engine
Google search engine
Home Ciencia & Tecnología Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de...

Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de la ciencia. Las tres empresas acabaron pagando

0
2
Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de la ciencia. Las tres empresas acabaron pagando
Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de la ciencia. Las tres empresas acabaron pagando

Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de la ciencia. Las tres empresas acabaron pagando

En algunos equipos de desarrollo ya se está volviendo habitual apoyarse en agentes de inteligencia artificial para revisar incidencias, analizar cambios en el código y moverse por tareas que antes quedaban en manos humanas. El problema aparece cuando esos sistemas no solo leen información que puede venir de fuera, sino que además operan en espacios donde conviven claves, tokens y permisos sensibles. Eso es lo que pone sobre la mesa una investigación reciente: no estamos simplemente ante una herramienta útil que puede equivocarse, sino ante una arquitectura que también puede volverse peligrosa si se despliega sin límites muy claros.

La alarma la ha encendido Aonan Guan y los investigadores de Johns Hopkins Zhengyu Liu y Gavin Zhong tras demostrar ataques contra tres agentes desplegados en la mencionada plataforma: Claude Code Security Review, de Anthropic, Gemini CLI Action, de Google, y GitHub Copilot Agent, una herramienta de GitHub bajo Microsoft. Según su documentación, los fallos fueron comunicados de forma coordinada y acabaron en recompensas económicas pagadas por las compañías, pero lo relevante es que apuntan a un problema más amplio.

Así lograron torcer a los agentes desde dentro

El nombre que Guan le pone al hallazgo ayuda bastante a entender de qué va todo esto: “Comment and Control”. La idea es sencilla de explicar, aunque el fondo no lo sea tanto. En vez de montar una infraestructura externa para dirigir el ataque, el propio GitHub hace de canal de entrada y de salida: el atacante deja la instrucción en un título, una incidencia o un comentario, el agente la procesa como si formara parte del trabajo normal y el resultado termina reapareciendo dentro de ese mismo entorno. Todo queda en casa, y precisamente ahí está la clave del problema.

Y ese “todo queda en casa” no es un detalle menor, sino la base de lo que describe la investigación. Los tres agentes comparten una lógica muy parecida: leen contenido normal de GitHub, lo incorporan como contexto de trabajo y, a partir de ahí, ejecutan acciones dentro de flujos automatizados. El choque aparece porque ese mismo espacio no solo contiene texto enviado por terceros, sino también herramientas, permisos y secretos que el agente necesita para operar.

El primer caso que detalla Guan afecta a Claude Code Security Review, una acción de GitHub de Anthropic pensada para revisar cambios de código y buscar posibles fallos de seguridad. Hasta aquí, todo entra dentro de lo esperable. El problema, según explica el investigador, es que bastaba con introducir instrucciones maliciosas en el título de una pull request, que es la solicitud que alguien envía para proponer cambios en un proyecto, para que el agente ejecutara comandos y devolviera el resultado como si formara parte de su revisión. Después, el equipo logró ir un paso más allá y demostrar que también podía extraer credenciales del entorno.

Lo interesante es que el mismo esquema también apareció en los otros dos servicios, aunque con matices. En Google, Gemini CLI Action podía ser empujado a revelar la GEMINI_API_KEY a partir de instrucciones coladas en una incidencia y en sus comentarios; en GitHub Copilot Agent, la variante era todavía más preocupante, porque el ataque se escondía en un comentario HTML que una persona no veía en pantalla, pero el agente sí procesaba cuando otra persona lo asignaba al caso. En ambos escenarios, el fondo volvía a ser el mismo: contenido aparentemente normal que acababa torciendo el comportamiento del sistema hasta exponer credenciales o información sensible dentro del propio GitHub.

Claude Code Api Key Leak

Guan asegura que el patrón permitió filtrar claves de API, tokens de GitHub y otros secretos expuestos en el entorno donde corría el agente, es decir, justo las credenciales que luego pueden abrir la puerta a acciones bastante más delicadas. ¿A quién afecta esto? Sobre todo a repositorios que ejecutan agentes en GitHub Actions sobre contenido enviado por colaboradores no fiables y, además, les dan acceso a secretos o herramientas potentes. El propio investigador matiza que el riesgo depende mucho de la configuración: por defecto GitHub no expone secretos a las pull requests desde forks, pero sí existen despliegues que abren esa puerta.

Y aquí aparece otra capa del asunto, menos técnica pero igual de importante. Según publicó The Register, Anthropic, Google y GitHub acabaron pagando recompensas por los hallazgos, pero ninguna de las tres había publicado avisos públicos ni asignado CVE en el momento de esa información. Guan fue bastante claro al respecto: dijo saber “con certeza” que algunos usuarios seguían anclados a versiones vulnerables y advirtió de que, sin una comunicación visible, muchos podían no enterarse nunca de que estaban expuestos o incluso siendo atacados. Así que aunque hubo mitigaciones y cambios en documentación o en el tratamiento interno de los reportes, no existó un aviso público equivalente para todos los posibles afectados.

  • Anthropic resolvió el caso el 25 de noviembre de 2025 y pagó 100 dólares
  • Google recompensó el hallazgo el 20 de enero de 2026 con 1.337 dólares
  • GitHub cerró el caso el 9 de marzo de 2026 con un pago de 500 dólares

Lo que vuelve este caso especialmente delicado es que GitHub no parece el final del camino, sino más bien el primer escaparate visible. Guan sostiene que el mismo patrón probablemente puede reproducirse en otros agentes que trabajan con herramientas y secretos dentro de flujos automáticos, y ahí menciona desde bots conectados a Slack hasta agentes de Jira, correo o automatización de despliegues. La lógica vuelve a ser la misma: si el sistema tiene que leer contenido externo para hacer su trabajo y, además, cuenta con acceso suficiente para actuar, el terreno queda abonado para que alguien intente torcerlo desde dentro.

La conclusión a la que llega Guan no pasa por vender una solución mágica, sino por volver a una idea bastante clásica en seguridad: dar a cada sistema solo lo imprescindible para hacer su trabajo. Si un agente revisa código, no debería tener acceso a herramientas o secretos que no necesita; si se limita a resumir incidencias, tampoco tendría sentido que pudiera escribir en GitHub o tocar credenciales sensibles. Por eso insiste en pensar estos despliegues con lógica de mínimo privilegio y listas de permisos muy cerradas.

Imágenes | DC Studio | Aonan Guan

En Xataka | La IA es crucial para el ejército de EEUU. Así que está nombrando tenientes generales a líderes de OpenAI y Palantir


La noticia

Han secuestrado agentes de Anthropic, Google y Microsoft por el bien de la ciencia. Las tres empresas acabaron pagando

fue publicada originalmente en

Xataka

por
Javier Marquez

.

Fuente: www.xataka.com