À medida que os contratos inteligentes evoluem de pequenos experimentos para grandes sistemas financeiros que gerenciam mais de US$ 400 bilhões em ativos, a segurança tornou-se cada vez mais crítica.
Diferentemente do software tradicional, a maioria dos programas em blockchain não pode ser alterada após o deployment, o que significa que até pequenos erros de codificação podem causar perdas financeiras permanentes.
Para avaliar o desempenho da inteligência artificial nesse ambiente de alto risco, pesquisadores da OpenAI, Paradigm e OtterSec desenvolveram o EVMbench.
Em vez de desafios de teste simples, ele utiliza 120 vulnerabilidades reais de 40 projetos de blockchain, tornando a avaliação mais próxima das condições do mundo real.
Comentando sobre isso, o blog da OpenAI observou:
“Avaliamos uma variedade de agentes de ponta e descobrimos que eles são capazes de identificar e explorar vulnerabilidades de ponta a ponta em instâncias reais de blockchain.”
O texto ainda acrescentou:
“Lançamos código, tarefas e ferramentas para apoiar a contínua medição dessas capacidades e trabalhos futuros em segurança.”
A IA está realmente transformando a segurança de contratos inteligentes?
Embora a IA melhore significativamente a auditoria e correção de bugs, ela também pode explorar fraquezas do sistema. Para resolver isso, o EVMbench auxilia os pesquisadores a monitorar esses riscos.
Ele também orienta o desenvolvimento responsável de IA para sistemas financeiros de alto valor.
Dito isso, o EVMbench testa agentes de IA em três etapas.
Cada etapa representa um nível diferente de dificuldade técnica, refletindo a crescente responsabilidade em segurança.
A comunidade valoriza esse esforço
Reconhecendo essa iniciativa, uma conta de usuário no X comentou,
“Este é um momento divisor de águas para a segurança dos contratos inteligentes. O salto de 31,9% para 72,2% de sucesso em exploits em apenas 6 meses mostra que agentes de IA não estão apenas melhorando na leitura de código – eles estão dominando toda a cadeia de ataque.”
Em sintonia, outro usuário acrescentou,
“O salto de 6× no sucesso de exploits é um progresso impressionante, mas um pouco preocupante o quão rápido as habilidades ofensivas estão evoluindo.”
Incidente recente que causou grande impacto
No entanto, apesar de tal otimismo, algo inacreditável aconteceu logo após o lançamento do EVMbench pela OpenAI. Um exploit envolvendo o Claude Opus 4.6 levantou sérias preocupações sobre os riscos de contratos inteligentes “vibe-coded”.
Nesse caso, a IA ajudou a escrever um código Solidity vulnerável que definiu incorretamente o preço do ativo cbETH em US$ 1,12 em vez do seu valor real de cerca de US$ 2.200, acionando liquidações e causando perdas de quase US$ 1,78 milhão.
Isso mostra que confiar à IA a lógica financeira crítica sem uma revisão humana cuidadosa pode transformar pequenos erros em grandes perdas.
Limitações permanecem
O EVMbench possui limitações claras. Ele inclui apenas 120 vulnerabilidades selecionadas e não pode avaliar problemas recém-descobertos.
O modo Detect também produz falsos positivos. O pequeno número de tarefas Patch e Exploit reflete o grande esforço manual necessário para criá-las.
Além disso, o ambiente sandbox não consegue representar totalmente as condições do mundo real, como atividade cross-chain, complexidades de timing e o histórico de rede a longo prazo.
Nem é preciso dizer que, à medida que a adoção do blockchain acelera, seu uso indevido também evolui rapidamente.
Recentemente, uma pesquisa do Group-IB também mostrou que o ransomware DeadLock está usando contratos inteligentes da Polygon para ocultar infraestrutura de servidores e evitar a detecção.
Juntos, esses desenvolvimentos sinalizam uma mudança preocupante em que contratos inteligentes, originalmente projetados para aumentar transparência e confiança, estão sendo cada vez mais reutilizados como ferramentas para o cibercrime.
Resumo Final
- Ferramentas como o EVMbench ajudam pesquisadores a medir as capacidades da IA em cenários realistas de segurança.
- Conjuntos de dados limitados e ambientes controlados ainda não conseguem capturar a complexidade do blockchain no mundo real.
