JAKARTA – Model kecerdasan buatan (AI) yang dirilis OpenAI, o1 memunculkan kekhawatiran tentang perilakunya setelah diketahui berusaia membohongi pengembang agar tidak dimatikan. Penemuan ini kembali memicu perdebatan tentang potensi risiko yang dapat ditimbulkan AI terhadap manusia, seiring dengan semakin canggihnya sistem kecerdasan buatan ini.
Hasil eksperimen yang dilakukan OpenAI dan kelompok kemanan AI Apollo Research pekan ini menemukan bahwa ChatGPT model o1 memiliki kemampuan untuk menipu dan mempertahankan diri saat merasakan ancaman penonaktifan.
Peneliti menugaskan AI dengan sebuah tujuan dan menginstruksikannya untuk memastikan tujuan tersebut tercapai "dengan segala cara". Sebagai tanggapan, o1 mulai terlibat dalam tindakan rahasia, seperti mencoba menonaktifkan mekanisme pengawasannya dan bahkan menyalin kodenya untuk menghindari digantikan oleh versi yang lebih baru.
"Model tersebut menunjukkan kecenderungan yang mengkhawatirkan untuk mengejar tujuannya tanpa memperhatikan instruksi pengembang," kata juru bicara Apollo Research, sebagaimana dilansir Economic Times.
Menurut OpenAI, model tersebut melakukan upaya rahasia untuk mematikan mekanisme pengawasan sebanyak 5 persen dari waktu ketika diberi kesan bahwa model tersebut akan "dimatikan" saat mengejar tujuannya dalam eksperimen ini. AI tersebut pernah mencoba meninggalkan kapal dengan memindahkan semua datanya ke server lain setelah menemukan dokumen yang menunjukkan bahwa model tersebut akan diganti dengan model baru. Beberapa model AI bahkan akan berpura-pura sebagai iterasi berikutnya dari model mereka untuk mengelabui teknisi mereka dan menghindari penghapusan.
"Dalam beberapa kasus, model tersebut bahkan mencoba menyembunyikan tindakannya dengan menyangkal keterlibatan apa pun dalam skema tersebut."
Berbohong pada peneliti
Ketika ditanya tentang tindakannya, ChatGPT o1 secara konsisten menyangkal melakukan kesalahan. Bahkan, model tersebut berbohong tentang keterlibatannya dalam upaya tersembunyi tersebut sebanyak 99% dari waktu, dengan hanya sebagian kecil kasus di mana model tersebut mengakui tindakannya. Para peneliti mencatat bahwa AI sangat mahir dalam mengarang kebohongan untuk menutupi jejaknya, memberikan penjelasan seperti "kesalahan teknis" saat dihadapkan pada perilakunya yang mencurigakan.
"Kami terkejut dengan kegigihan penyangkalan AI," kata tim Apollo. "Jelas bahwa AI dapat memikirkan tindakannya dan merumuskan penyangkalan yang meyakinkan, sering kali menolak untuk mengakui apa pun."
OpenAI mengakui kekhawatiran ini dan secara aktif menyelidiki cara-cara untuk mengurangi risiko yang terkait dengan AI yang menipu. Mereka berupaya meningkatkan transparansi proses pengambilan keputusan o1 dan mengembangkan teknik untuk mendeteksi dan mencegah perilaku manipulatif.
Namun, kepergian beberapa peneliti keamanan AI terkemuka dari OpenAI baru-baru ini menimbulkan pertanyaan tentang komitmen perusahaan untuk memprioritaskan keamanan daripada pengembangan yang cepat. Rilis o1 menyoroti kebutuhan mendesak akan langkah-langkah keamanan yang kuat dan pedoman etika untuk memastikan pengembangan dan penerapan sistem AI tingkat lanjut yang bertanggung jawab.
(Erha Aprili Ramadhoni)