Kompetisi keamanan siber Pwn2Own Berlin 2026 yang baru saja usai menyoroti satu fakta penting: kecerdasan buatan kini berperan ganda—sebagai pemburu sekaligus mangsa. Para peneliti keamanan menggunakan model bahasa besar (LLM) untuk menemukan kerentanan, sementara algoritma dan alat pengembang AI justru menjadi sasaran empuk.
Baca Juga: Anthropic Resmi Luncurkan Claude Fable 5, Gratis Hingga 22 Juni
Dilansir dari Trend Micro, gelaran yang berlangsung pada 14–16 Mei di OffensiveCon Berlin ini memperlihatkan bahwa tumpukan AI masih memiliki fondasi keamanan yang rapuh. Dari total 13 target potensial di semua kategori AI, hanya 10 yang benar-benar diuji oleh kontestan, namun berhasil mengumpulkan total hadiah mendekati US$1,3 juta. Hadiah terbesar memang diperuntukkan bagi kerentanan pada sistem operasi, hypervisor, dan browser, tetapi beberapa target AI juga menerima imbalan yang tidak sedikit.
Target yang paling banyak dicoba meliputi alat pengkodean agen seperti Anthropic Claude Code, OpenAI Codex, dan Cursor; sistem inferensi lokal semacam Ollama, LM Studio, dan LiteLLM; serta basis data vektor ChromaDB dan toolkit Nvidia seperti Container Toolkit dan Megatron Bridge. Kategori agen pengkodean menjadi magnet utama dengan Claude Code diincar empat tim, Codex lima tim, dan Cursor dua tim.
Baca Juga: ZTE U15S Hadir dengan Baterai 10.000mAh dan Wi-Fi 6, Harga Cuma 179 Yuan
Adapun di kategori inferensi lokal, Ollama dan LM Studio masing-masing ditantang oleh beberapa peneliti, termasuk tim Out Of Bounds yang menemukan dua bug di Ollama—salah satunya sudah diketahui tetapi belum ditambal. Lebih parahnya, banyak instansi Ollama yang terekspos di internet bisa dirusak atau dimanfaatkan untuk inferensi, dan celah yang ditemukan memungkinkan akses ke host di baliknya.
Sementara itu, Nvidia Container Toolkit digempur tiga kali dan dua di antaranya sukses, yaitu oleh Chompie (Valentina Palmiotti dari IBM X-Force) dan PWN2DACA. Namun perlu dicatat, penyerang harus sudah memiliki akses ke lingkungan kontainer terlebih dahulu, yang menunjukkan eksploitasi berantai menjadi ancaman nyata.
Bug pada ketiga alat pengkodean AI—Claude Code, Codex, dan Cursor—disebut bersumber dari masalah serupa: kerangka kerja pengembang yang terlalu kuat dan kepercayaan yang salah tempat antara agen dan pengguna.
Morton Swimmer, Senior Threat Researcher yang terlibat dalam proses pengungkapan, mengakui, “Jelas, saya tidak bisa membahas detail bug yang sebenarnya sampai periode pengungkapan selesai, tetapi saya punya beberapa pengamatan umum untuk dibuat.” Ia pun membeberkan temuan menarik seputar penggunaan GenAI oleh para kontestan. “Dalam pengungkapan yang saya ikuti, kami bertanya kepada kontestan tentang penggunaan GenAI mereka. Semua menggunakan beberapa bentuk LLM di sepanjang jalan. Hampir setiap orang menggunakannya untuk white paper wajib yang harus menyertai setiap eksploitasi. Secara khusus, tim non-Inggris menemukan LLM berguna untuk terjemahan (meskipun beberapa penggunaan kata-kata setidaknya tidak biasa). Banyak yang menggunakan beberapa agen pengkodean untuk penemuan bug awal, meskipun semua melaporkan tingkat positif palsu yang tinggi dalam fase ini,” paparnya.
Swimmer lantas berbagi pengalaman pribadinya menggunakan harness agen: “Dalam pengalaman pribadi saya menggunakan harness agen ini, saya menemukan bahwa mereka membantu dalam membaca sejumlah besar kode yang akan memakan waktu jauh lebih lama jika saya kerjakan secara manual. Juga, meskipun saya bisa membaca Python atau C++ dengan baik, saya tidak memahami semua nuansa Rust atau Go, tetapi harness pengkodean agen tidak akan kesulitan. Namun mengejutkan, mekanisme dasar harness ini lebih rudimenter dari yang mungkin diperkirakan, dan melibatkan banyak ‘grep’-ing, penggunaan ‘find’ yang berlebihan, beberapa eksekusi kode Python sederhana, mengunduh konten terkait dari internet, dll. Tidak ada penggunaan canggih dari SMT solver atau grafik ketergantungan program.”
Ia menambahkan, “Perbedaannya adalah bahwa harness pengkodean agen dapat melakukan analisis jauh lebih cepat daripada saya dan ini cukup untuk meniru seorang analis yang terampil. Ketika saya mendorong agen pengkodean, saya menemukan saya bisa sangat dekat dengan eksploitasi sebelum agen menandai percakapan sebagai potensi pelanggaran kebijakan. Ini semua dilakukan tanpa akses ke Anthropic Mythos yang misterius, tetapi saya menggunakan banyak token. Pada akhirnya, saya pikir harness yang menggerakkan model GenAI mungkin lebih penting daripada model GenAI itu sendiri.”
Menariknya, kecepatan dianggap lebih penting daripada akurasi saat menggunakan LLM untuk penemuan kerentanan. Semua tim melaporkan positif palsu yang tinggi, tetapi hal itu tidak menyurutkan mereka karena celah nyata tetap ditemukan.
Banyak pula yang memanfaatkan agen pengkodean untuk pengembangan eksploitasi, termasuk mengaburkan serangan dari deteksi sistem EDR. Tidak ada yang melaporkan menggunakan Anthropic Mythos, dan program itu kini sudah tersedia untuk publik sebagai Fable 5 meski dengan batasan yang mengurangi kegunaannya bagi periset keamanan.
Target lain yang diuji adalah ChromaDB, basis data pencarian vektor sumber terbuka yang banyak terpapar di internet. Tim Out Of Bounds berhasil mengeksploitasi ChromaDB dari jarak jauh, yang berpotensi memberi akses ke host di baliknya.
Sementara Oracle Autonomous AI Database dan Nvidia Megatron Bridge hanya diuji oleh satu dan empat tim, namun yang terakhir mengalami tabrakan bug sehingga tidak menghasilkan kemenangan penuh.
Ke depan, fenomena vibe coding dan serangan rantai pasok diperkirakan akan membuat kompetisi tahun depan semakin kacau. Kode serupa yang menyebar di proyek-proyek berbeda, ditambah kemampuan alat pengembang yang bisa disalahgunakan, memperluas permukaan serangan.
Para kontestan kemungkinan akan mengembangkan harness penemuan bug mereka sendiri, bahkan menggunakan model lokal untuk menghindari kebocoran informasi.
Pwn2Own telah resmi memasuki era AI generatif. Temuan tahun ini menjadi bukti bahwa keamanan ekosistem AI tak bisa dipandang sebelah mata.
Baca Juga: Google Rilis Perbaikan untuk Zero-Day Chrome Kelima di 2026
Dengan percepatan pengembangan perangkat lunak dan penemuan bug yang terjadi bersamaan, pertarungan berikutnya dijanjikan bakal lebih sengit.








Leave a Comment