Separuh klaim riset sosial dan perilaku tidak bertahan ketika dicoba ulang

Wait 5 sec.

● Proyek SCORE menemukan mayoritas klaim ilmiah ilmu sosial dan perilaku tidak dapat direka ulang.● Data penelitian yang sama dapat menghasilkan kesimpulan berbeda jika dianalisis menggunakan metode yang bervariasi.● Hanya separuh temuan ilmiah yang berhasil dikonfirmasi saat diuji ulang menggunakan data baru. Itupun efeknya menyusut.Bagaimana kalau sebuah penelitian yang selama ini kita anggap benar ternyata tidak bisa dibuktikan lagi ketika diuji ulang?Untuk memastikan sebuah penelitian benar-benar valid dan dapat dipercaya, peneliti bisa melakukan coba ulang (replicability), reka ulang (reproducibility) atau menggunakan kembali data penelitian, dan uji keandalan hasil analisis (robustness). Tujuannya untuk menguji apakah hasilnya tetap konsisten.Lewat cara tersebut, para ilmuwan dan peneliti dapat menilai apakah sebuah temuan memang kuat dan layak dipercaya. Proses ini penting karena hasil penelitian sering kali dipakai sebagai dasar membuat rekomendasi kebijakan publik dan metode pendidikan. Salah satu proyek besar yang menguji hal tersebut adalah Systematizing Confidence in Open Research and Evidence (SCORE), riset kolaboratif yang melibatkan sedikitnya 865 peneliti lintas negara. Proyek ini meninjau penelitian-penelitian ilmu sosial dan perilaku yang diterbitkan di jurnal ilmiah terkemuka sepanjang 2009–2018.Temuan SCORE, yang telah dipublikasikan dalam bentuk tiga artikel ilmiah di jurnal Nature dan tujuh artikel preprint, menunjukkan bahwa 72% artikel tidak bisa direka ulang dan 25% artikel menunjukkan temuan berbeda. Selain itu, 49% dari temuan penelitian di ilmu sosial dan perilaku gagal ditemukan kembali seperti hasil penelitian aslinya. Baca juga: Saat kesalahan karya ilmiah dibiarkan: Penerbit tetap untung, publik yang rugi Tidak bisa diperiksa karena data tidak tersediaDalam proyek SCORE, tim peneliti mengulang analisis dari penelitian tersebut menggunakan data yang sama (reproducibility). Jika hasilnya tetap sama, maka klaim penelitian dianggap meyakinkan dan valid.Tim peneliti memeriksa 600 artikel. Tapi karena datanya tidak tersedia, tim hanya bisa melakukan reka ulang terhadap 143 dataset. Artinya, klaim ilmiah dari ratusan artikel yang lain tidak bisa diverifikasi.Dari 143 artikel tersebut, hanya 54% yang menghasilkan angka dan kesimpulan yang sama persis seperti klaim penelitian awal.Peluang sebuah studi bisa direka ulang sangat bergantung pada keterbukaan penelitinya. Ketika data mentah, metode analisis, dan dokumentasi riset dibagikan secara lengkap, hasil penelitian lebih mudah diverifikasi.Sebaliknya, ketika peneliti harus menebak-nebak dan merekonstruksi sendiri proses analisisnya, maka semakin sedikit klaim ilmiah yang bisa direka ulang persis seperti aslinya.Satu temuan yang menggembirakan adalah lebih dari 85% klaim penelitian pada 110 artikel di jurnal ekonomi dan ilmu politik berhasil direka ulang dan menghasilkan temuan persis seperti klaim aslinya. Artinya, kewajiban dokumentasi data dan pengecekan analisis data oleh pihak ketiga (third-party reproducibility check) telah memudahkan proses reka ulang untuk menguji klaim riset. Ini menegaskan pentingnya kebijakan agar peneliti termotivasi mengadopsi praktik penelitian yang lebih transparan dan bertanggung jawab.Kesimpulan bisa berbeda meski datanya samaBagian kedua yang diuji adalah keandalan analisis (robustness). Tim peneliti melibatkan lima analis independen untuk melakukan analisis ulang atas setiap klaim ilmiah dari 100 studi yang menjadi sampel.Hasilnya menunjukkan bahwa jawaban ilmiah tidak selalu sesederhana “benar” atau “salah”. Sekitar 74% analisis ulang masih menghasilkan kesimpulan yang sejalan dengan penelitian aslinya, tapi 24% menghasilkan temuan yang tidak konklusif (null result), dan 2% menghasilkan kesimpulan yang justru berlawanan arah dengan klaim aslinya (negative result).Dengan kata lain, dua peneliti bisa menggunakan data yang sama, tetapi memperoleh kesimpulan berbeda. Ini terjadi karena keduanya memakai pendekatan analisis yang berbeda, meski sama-sama sah secara metodologis.Ini terjadi karena setiap penelitian sebenarnya memiliki banyak pilihan analisis yang tidak selalu terlihat dalam artikel ilmiah. Peneliti harus memilih metode statistik, menentukan data mana yang digunakan, serta memutuskan bagaimana menafsirkan hasil.Ketika sebuah artikel diterbitkan oleh jurnal ilmiah, pembaca biasanya hanya melihat hasil akhir tanpa mengetahui berbagai kemungkinan lain yang muncul jika data dianalisis dengan cara berbeda.Temuan penelitian yang dihasilkan dari analisis yang kurang andal akan menjadi masalah serius ketika dijadikan dasar kebijakan publik.Contohnya, ketika pembuat kebijakan membaca bahwa program transfer tunai meningkatkan partisipasi sekolah, mereka tidak mengetahui bahwa kesimpulan itu bisa saja berubah jika peneliti lain menggunakan metode berbeda.Ini bukan berarti bahwa peneliti sengaja menyesatkan publik. Namun, proses penelitian memang memiliki bias yang bisa membuat peneliti gagal untuk melaporkan seberapa validnya klaim ilmiah tersebut.Hanya separuh temuan ilmiah terbukti benar ketika diuji kembali dengan data yang baruBagian paling sulit dalam proyek SCORE adalah coba ulang (replication), yakni menguji apakah sebuah temuan ilmiah benar-benar bisa muncul kembali ketika penelitian diulang dari awal menggunakan data baru.Tim SCORE mengumpulkan data baru secara mandiri untuk melihat apakah hasil penelitian sebelumnya tetap muncul dalam kondisi serupa.Dari 274 klaim yang diuji, hanya 49% yang berhasil dikonfirmasi. Artinya, hampir satu dari dua temuan ilmiah gagal bertahan ketika diuji dengan data baru.Bahkan di antara klaim yang berhasil dikonfirmasi pun, kekuatan dari klaim tersebut rata-rata menyusut lebih dari setengahnya. Dengan kata lain, efeknya memang ada, tapi jauh lebih kecil dari yang dilaporkan.Intervensi growth mindset, contohnya, meyakini bahwa kecerdasan bisa berkembang melalui usaha dan latihan. Klaimnya, intervensi ini efektif dalam meningkatkan motivasi dan prestasi belajar siswa di sekolah.Namun, dengan semakin banyaknya peneliti lain yang mencoba ulang temuan tersebut, gambarannya justru berubah. Efek intervensi yang tadinya diklaim sangat efektif perlahan ditemukan mengecil. Bahkan, di beberapa studi berskala besar, dampaknya nyaris tak terdeteksi.Pola ini dikenal sebagai decline effect yaitu kondisi ketika klaim yang dipublikasikan cenderung menggambarkan efek yang lebih besar dari yang sebenarnya.Tingkat keberhasilan coba ulang yang berkisar antara 42,5 hingga 63,1% ini ditemukan secara merata di semua disiplin ilmu sosial dan perilaku yang diteliti. Apa yang perlu berubah?Tiga temuan dari proyek SCORE menunjukkan bahwa masalah kurang andalnya klaim ilmiah bukan terletak pada niat buruk peneliti, melainkan pada sistem yang tidak memberikan ruang untuk proses verifikasi ulang.Ketika data tidak dibagikan, tidak ada yang bisa memeriksa. Ketika satu metode analisis tidak pernah dibandingkan dengan metode lain, tidak ada yang tahu seberapa kuat kesimpulannya. Selain itu, ketika penelitian baru lebih dihargai daripada pengujian ulang temuan lama, klaim yang seharusnya diperiksa secara lebih ketat justru terus beredar dan berpotensi menjadi landasan kebijakan.Bagi ekosistem riset Indonesia, temuan ini sangat relevan. Sistem insentif di komunitas akademis di Indonesia yang mengutamakan jumlah publikasi dan sitasi mendorong peneliti untuk terus memproduksi temuan baru. Sementara itu, pertanyaan paling penting: “Apakah temuan ini benar-benar bisa dipercaya?”, jarang mendapat perhatian setara. Baca juga: Efek kobra, dosen Indonesia terobsesi pada indeks Scopus dan praktik tercela menuju universitas kelas dunia Perubahan yang dibutuhkan bersifat struktural. Jurnal perlu mewajibkan peneliti untuk berbagi data secara terbuka. Kementerian Pendidikan, Riset, dan Teknologi— bersama universitas dan lembaga riset—perlu memberi ruang bagi pengujian ulang, dan berhenti menilai kinerja dosen dan peneliti semata-mata dari jumlah artikel yang diterbitkan atau sitasi yang didapatkan.Rizqy Amelia Zein merupakan salah satu penulis/analis dalam proyek SCORE tentang keandalan analisis (robustness), yang temuan utamanya diulas dalam artikel ini.Ilham Akhsanu Ridlo tidak bekerja, menjadi konsultan, memiliki saham, atau menerima dana dari perusahaan atau organisasi mana pun yang akan mengambil untung dari artikel ini, dan telah mengungkapkan bahwa ia tidak memiliki afiliasi selain yang telah disebut di atas.