Sistem ini dirancang untuk menghasilkan dan mengelola artefak pengujian, mulai dari rencana hingga laporan validasi, secara otomatis. Hasil studi ini dinilai menjanjikan dengan peningkatan akurasi pengujian dari 65 persen menjadi 94,8 persen.
Penelitian ketiga, yang disebut SWE-Gym, adalah platform latihan bagi agen AI agar mampu membaca, mengedit, dan memverifikasi kode nyata. Platform ini dibangun menggunakan 2.438 tugas Python dunia nyata dari repositori sumber terbuka.
Agen yang dilatih menggunakan SWE-Gym berhasil menyelesaikan 72,5 persen tugas dengan benar, melampaui tolok ukur sebelumnya lebih dari 20 poin persentase. Namun, varian Lite memiliki keterbatasan dalam skala dan kompleksitas tugas, sehingga efektivitasnya di skenario besar belum optimal.
(Rahman Asmardika)