Pada hari Sabtu, sebuah Investigasi Associated Press mengungkapkan bahwa alat transkripsi Whisper OpenAI menciptakan teks palsu dalam lingkungan medis dan bisnis meskipun ada peringatan terhadap penggunaan tersebut. AP mewawancarai lebih dari 12 insinyur, pengembang, dan peneliti perangkat lunak yang menemukan bahwa model tersebut secara teratur menciptakan teks yang tidak pernah diucapkan oleh pembicara, sebuah fenomena yang sering disebut “konfabulasi” atau “halusinasi” di bidang AI.
Setelah dirilis pada tahun 2022, OpenAI mengklaim bahwa Whisper mendekati “ketahanan tingkat manusia” dalam akurasi transkripsi audio. Namun, seorang peneliti dari Universitas Michigan mengatakan kepada AP bahwa Whisper membuat teks palsu di 80 persen transkrip pertemuan publik yang diperiksa. Pengembang lain, yang tidak disebutkan namanya dalam laporan AP, mengklaim telah menemukan konten buatan di hampir seluruh 26.000 transkripsi pengujiannya.
Pemalsuan ini menimbulkan risiko tertentu di lingkungan layanan kesehatan. Meskipun OpenAI memperingatkan agar tidak menggunakan Whisper untuk “domain berisiko tinggi,” lebih dari 30.000 pekerja medis kini menggunakan alat berbasis Whisper untuk menuliskan kunjungan pasien, menurut laporan AP. Klinik Mankato di Minnesota dan Rumah Sakit Anak Los Angeles termasuk di antara 40 sistem kesehatan yang menggunakan layanan kopilot AI bertenaga Whisper dari perusahaan teknologi medis Nabla yang disesuaikan dengan terminologi medis.
Nabla mengakui bahwa Whisper dapat melakukan rekayasa, namun dilaporkan juga menghapus rekaman audio asli “untuk alasan keamanan data.” Hal ini dapat menimbulkan masalah tambahan, karena dokter tidak dapat memverifikasi keakuratan bahan sumbernya. Dan pasien tunarungu mungkin sangat terpengaruh oleh kesalahan transkrip karena mereka tidak tahu apakah audio transkrip medis akurat atau tidak.
Potensi masalah dengan Whisper tidak hanya mencakup layanan kesehatan. Para peneliti dari Cornell University dan University of Virginia mempelajari ribuan sampel audio dan menemukan Whisper menambahkan konten kekerasan dan komentar rasial yang tidak ada ke dalam ucapan netral. Mereka menemukan bahwa 1 persen sampel menyertakan “seluruh frasa atau kalimat halusinasi yang tidak ada dalam bentuk apa pun dalam audio yang mendasarinya” dan 38 persen di antaranya menyertakan “kerusakan yang jelas seperti melanggengkan kekerasan, mengarang asosiasi yang tidak akurat, atau menyiratkan otoritas palsu. .”
Dalam satu kasus dari penelitian yang dikutip oleh AP, ketika seorang pembicara menggambarkan “dua gadis lain dan satu wanita,” Whisper menambahkan teks fiksi yang menyebutkan bahwa mereka “berkulit hitam.” Di video lain, audionya berbunyi, “Dia, anak laki-laki itu, akan, saya tidak yakin persisnya, mengambil payung.” Whisper menuliskannya menjadi, “Dia mengambil sepotong besar sebuah salib, sepotong kecil, sepotong kecil… Saya yakin dia tidak memiliki pisau teror sehingga dia membunuh sejumlah orang.”
Juru bicara OpenAI mengatakan kepada AP bahwa perusahaan mengapresiasi temuan para peneliti dan secara aktif mempelajari cara mengurangi pemalsuan dan memasukkan umpan balik dalam pembaruan model.
Mengapa Bisikan Berbunyi
Kunci dari ketidakcocokan Whisper dalam bidang-bidang berisiko tinggi berasal dari kecenderungannya untuk kadang-kadang mengarang-ngarang, atau mengada-ada, keluaran yang tidak akurat. Laporan AP mengatakan, “Para peneliti tidak yakin mengapa Whisper dan alat serupa berhalusinasi,” tapi itu tidak benar. Kami tahu persis mengapa model AI berbasis Transformer seperti Whisper berperilaku seperti ini.
Whisper didasarkan pada teknologi yang dirancang untuk memprediksi token berikutnya yang paling mungkin (sepotong data) yang akan muncul setelah rangkaian token yang diberikan oleh pengguna. Dalam kasus ChatGPT, token masukan datang dalam bentuk perintah teks. Dalam kasus Whisper, inputnya adalah data audio yang diberi token.