Seiring kontrak pintar berkembang dari eksperimen kecil menjadi sistem keuangan besar yang mengelola lebih dari $400 miliar aset, keamanan menjadi semakin krusial.
Berbeda dengan perangkat lunak tradisional, sebagian besar program blockchain tidak dapat diubah setelah diterapkan, yang berarti bahkan kesalahan pengkodean kecil pun dapat menyebabkan kerugian finansial permanen.
Untuk mengevaluasi bagaimana kecerdasan buatan berperforma di lingkungan berisiko tinggi ini, peneliti dari OpenAI, Paradigm, dan OtterSec mengembangkan EVMbench.
Alih-alih tantangan uji sederhana, EVMbench menggunakan 120 kerentanan nyata dari 40 proyek blockchain, sehingga evaluasi lebih mendekati kondisi dunia nyata.
Mengenai hal tersebut, postingan blog OpenAI mencatat,
“Kami mengevaluasi berbagai agen terdepan dan menemukan bahwa mereka mampu menemukan dan mengeksploitasi kerentanan secara end-to-end terhadap instance blockchain secara langsung.”
Lebih lanjut ditambahkan,
“Kami merilis kode, tugas, dan alat untuk mendukung pengukuran berkelanjutan atas kapabilitas ini dan pekerjaan keamanan di masa depan.”
Apakah AI benar-benar mengubah keamanan kontrak pintar?
Sementara AI sangat meningkatkan audit dan perbaikan bug, AI juga dapat mengeksploitasi kelemahan sistem. Untuk mengatasinya, EVMbench membantu peneliti melacak risiko-risiko ini.
EVMbench juga membimbing pengembangan AI yang bertanggung jawab untuk sistem keuangan bernilai tinggi.
Seperti yang disebutkan, EVMbench menguji agen AI dalam tiga tahap.
Setiap tahap mewakili tingkat kesulitan teknis yang berbeda, mencerminkan tanggung jawab keamanan yang semakin besar.
Komunitas mengapresiasi upaya ini
Mengapresiasi langkah ini, sebuah akun X mencatat,
“Ini adalah momen penting bagi keamanan kontrak pintar. Lompatan dari 31,9% menjadi 72,2% keberhasilan eksploitasi hanya dalam 6 bulan menunjukkan agen AI bukan hanya semakin baik membaca kode—mereka menguasai seluruh rantai serangan.”
Sesuai pendapat serupa, pengguna lain menambahkan,
“Lompatan 6× dalam keberhasilan eksploitasi adalah kemajuan luar biasa, tapi agak mengkhawatirkan betapa cepatnya kemampuan ofensif berkembang.”
Insiden terbaru yang menghebohkan
Namun, meski ada optimisme tersebut, sesuatu yang luar biasa terjadi tak lama setelah OpenAI meluncurkan EVMbench. Sebuah eksploitasi yang melibatkan Claude Opus 4.6 menimbulkan kekhawatiran serius tentang risiko kontrak pintar “vibe-coded”.
Dalam kasus ini, AI membantu menulis kode Solidity yang rentan yang secara keliru menetapkan harga aset cbETH pada $1,12 daripada nilai sebenarnya sekitar $2.200, memicu likuidasi dan menyebabkan kerugian hampir $1,78 juta.
Hal ini menunjukkan bahwa mempercayakan AI dengan logika keuangan kritis tanpa tinjauan manusia yang cermat dapat mengubah kesalahan kecil menjadi kerugian besar.
Keterbatasan tetap ada
EVMbench memiliki keterbatasan yang jelas. EVMbench hanya mencakup 120 kerentanan yang telah dikurasi dan tidak dapat mengevaluasi isu-isu yang baru ditemukan.
Mode Deteksi juga menghasilkan false positive. Sementara jumlah tugas Patch dan Exploit yang sedikit mencerminkan besarnya upaya manual yang diperlukan untuk membuatnya.
Selain itu, lingkungan sandbox gagal sepenuhnya mewakili kondisi dunia nyata seperti aktivitas lintas rantai, kompleksitas waktu, dan riwayat jaringan jangka panjang.
Tak perlu dikatakan lagi, seiring adopsi blockchain semakin cepat, penyalahgunaannya pun berkembang dengan laju yang sama.
Baru-baru ini, riset dari Group-IB juga menunjukkan bahwa ransomware DeadLock menggunakan smart contract Polygon untuk menyembunyikan infrastruktur server dan menghindari deteksi.
Bersama-sama, perkembangan ini menandakan pergeseran yang mengkhawatirkan di mana kontrak pintar, yang awalnya dirancang untuk meningkatkan transparansi dan kepercayaan, kini semakin banyak digunakan sebagai alat kejahatan siber.
Ringkasan Akhir
- Alat seperti EVMbench membantu peneliti mengukur kemampuan AI dalam pengaturan keamanan yang realistis.
- Dataset terbatas dan lingkungan terkontrol masih gagal menangkap kompleksitas blockchain dunia nyata.
