Un continente hundido que aprendió a arreglar bugs mejor que los humanos - Atlantis.

24 de septiembre de 2025

PorHackingteamoficial

Cargando visitas...

0 seguidores

Un continente hundido que aprendió a arreglar bugs mejor que los humanos - Atlantis.

Imagina una IA que toma 54 millones de líneas de código, se sumerge en ellas y encuentra bugs mientras duermes. ¿Suena a ciencia ficción? No, es el equipo Atlantis, ganador del DARPA AIxCC.

Anteriormente vistieron un análisis interesante de Roboduck, una herramienta con agentes para AppSec. Pero Atlantis va más allá. Ha demostrado que la IA realmente puede cerrar vulnerabilidades casi como un profesional. Como un barista profesional que prepara café según una receta: casi perfecto, pero a veces una gota fuera de lugar.

Atlantis no es un sistema monolítico, sino un conjunto de sistemas. Varios agentes independientes resuelven una tarea y sus errores se compensan entre sí. Incluye agentes para C y Java, módulos para fuzzing, agentes de parcheo que generan correcciones por sí mismos y un servicio para informes bonitos en SARIF.

¿Cómo funciona el sistema? Encuentra un bug, el sistema pasa el contexto, el agente de parcheo propone una corrección, el código se recompila, se verifica y, si el bug desaparece, la corrección se registra en el informe. Todo esto se escala en la nube en Azure a través de Kubernetes. Y sí, el presupuesto era limitado: de 💵50k para LLM 💵29k se destinaron a agentes de parcheo y agentes que trabajaban con varios lenguajes. Consume mucho, pero funciona eficazmente.

Los agentes en este caso no reemplazan el fuzzing, sino que lo mejoran📦. Ayudaron a crear "envoltorios" para funciones para que el fuzzer pudiera probar el código, indicaron lugares vulnerables y propusieron correcciones. Los métodos clásicos asumieron el trabajo pesado, revisando cada línea.

El resultado es bastante interesante: se encontraron 77 % de bugs, se corrigió el 61 %. De los agentes de parcheo: Multilenguaje — 69,2 %, C — 16,8 %, Java — 14 %.

Una característica especial es el BGA (Blob Generation Agent), que no solo inventaba datos para el fuzzer, sino que creaba exploits que se convertían en diccionarios para buscar vulnerabilidades. Los días cero se escondieron del miedo en un viejo armario de madera tras esta noticia.

Fue divertido y aterrador. Uno de los componentes fallaba si encontraba la palabra "fuzz" en la ruta. En las pruebas todo estaba bien, pero en la fase final la tubería se detuvo. Lo arreglaron literalmente un par de horas antes del plazo. Y los bugs nocturnos en la infraestructura Kubernetes hacían que el equipo cazara errores en modo ninja.

Actualmente, proyectos así muestran que el futuro cercano de AppSec está en sistemas híbridos. Cuando la inteligencia humana, la potencia de los LLM y las técnicas clásicas comprobadas se unen, los bugs desaparecen más rápido, con mayor precisión y fiabilidad que nunca. Y, honestamente, esto es solo el comienzo.

¡Comparte este artículo!

Comentarios (0)

Cargando comentarios...

Un continente hundido que aprendió a arreglar bugs mejor que los humanos - Atlantis.

¡Comparte este artículo!

Comentarios (0)

Deja tu comentario