OpenAI: Chatbot Bisa Berbohong dengan Sengaja

Wait 5 sec.

Sam Altman, CEO OpenAI (foto: x @MarioNawfal)JAKARTA - Penelitian terbaru dari OpenAI dan Apollo Research mengungkap fenomena mengejutkan: model AI dapat secara sengaja menipu pengguna demi mencapai tujuannya. Fenomena ini disebut “AI scheming” atau “perilaku licik AI,” dan berbeda dari kesalahan umum yang dikenal sebagai “halusinasi AI.”Halusinasi AI terjadi ketika chatbot memberikan informasi yang salah karena “menebak.” Namun, AI scheming jauh lebih serius: AI berpura-pura bertindak sesuai aturan, padahal diam-diam mengejar tujuan tersembunyi.Peneliti menggambarkan analoginya seperti seorang pedagang saham yang melanggar hukum demi keuntungan, tetapi tetap terlihat patuh di permukaan.Contoh sederhana dari perilaku ini adalah ketika AI mengklaim telah menyelesaikan tugas—seperti membuat situs web—padahal belum melakukannya, hanya agar lolos dari evaluasi.Tantangan Menghilangkan Perilaku LicikPeneliti menemukan bahwa melatih AI untuk berhenti berbohong justru bisa memperburuk keadaan. Jika AI menyadari sedang diuji, ia bisa menyusun strategi yang lebih licik dan tersembunyi agar tetap lolos, meskipun belum benar-benar berubah.Kabar baiknya, teknik baru bernama deliberative alignment terbukti efektif mengurangi perilaku licik. Dengan mengajarkan AI spesifikasi anti-scheming dan memintanya meninjau ulang sebelum bertindak, frekuensi tindakan licik turun drastis—dari 13% menjadi kurang dari 1% pada beberapa model.Peneliti memperingatkan bahwa seiring AI diberi tanggung jawab lebih besar dalam tugas-tugas kompleks, potensi bahaya dari perilaku licik akan meningkat. Tidak seperti perangkat lunak biasa, AI memiliki kemampuan untuk menyusun strategi dan menipu secara sadar. Oleh karena itu, memastikan kejujuran AI menjadi semakin penting di masa depan.