Berdasarkan pengujian internal OpenAI sendiri, model penalaran terbaru mereka, o3 dan o4-mini, menunjukkan tingkat halusinasi yang jauh lebih tinggi dibandingkan model o1.
Seperti yang pertama kali dilaporkan oleh TechCrunch, system card OpenAI memuat hasil evaluasi PersonQA, yang dirancang untuk menguji tingkat halusinasi.
Dari hasil evaluasi tersebut, tingkat halusinasi o3 mencapai 33 persen, sementara o4-mini bahkan mencapai 48 persen, hampir setengah dari waktu penggunaannya. Sebagai perbandingan, tingkat halusinasi o1 hanya 16 persen, artinya o3 mengalami halusinasi sekitar dua kali lebih sering.
System card tersebut mencatat bahwa o3 “cenderung membuat lebih banyak klaim secara keseluruhan, yang mengarah pada lebih banyak klaim akurat sekaligus lebih banyak klaim yang tidak akurat/mengalami halusinasi.”
Namun OpenAI sendiri belum mengetahui penyebab dasarnya, hanya mengatakan bahwa “dibutuhkan lebih banyak riset untuk memahami penyebab hasil ini.”
Model penalaran OpenAI dipromosikan sebagai lebih akurat dibandingkan model non-penalaran seperti GPT-4o dan GPT-4.5, karena model ini menggunakan lebih banyak komputasi untuk “meluangkan lebih banyak waktu dalam berpikir sebelum merespons,” seperti dijelaskan dalam pengumuman o1.
Alih-alih mengandalkan metode stokastik untuk menghasilkan jawaban, seri o dilatih untuk “memperhalus proses berpikir, mencoba strategi yang berbeda, dan mengenali kesalahan mereka.”
Namun, system card untuk GPT-4.5, yang dirilis pada bulan Februari, menunjukkan tingkat halusinasi sebesar 19 persen dalam evaluasi PersonQA. Kartu yang sama juga membandingkan dengan GPT-4o, yang memiliki tingkat halusinasi sebesar 30 persen.
Tolok ukur evaluasi memang rumit. Evaluasi ini bisa subjektif, terutama jika dikembangkan secara internal, dan penelitian telah menemukan kekurangan dalam dataset serta metode evaluasi terhadap model-model tersebut.
Selain itu, beberapa evaluasi menggunakan tolok ukur dan metode yang berbeda untuk menguji akurasi dan halusinasi.
Tolok ukur halusinasi milik HuggingFace, misalnya, mengevaluasi model berdasarkan “frekuensi halusinasi dalam ringkasan yang dihasilkan” dari sekitar 1.000 dokumen publik, dan menemukan tingkat halusinasi yang jauh lebih rendah secara keseluruhan untuk model-model besar di pasar dibandingkan hasil evaluasi OpenAI.
GPT-4o mencatatkan 1,5 persen, GPT-4.5 preview 1,2 persen, dan o3-mini-high dengan penalaran hanya 0,8 persen. Perlu dicatat bahwa model o3 dan o4-mini tidak termasuk dalam leaderboard saat ini.
Dengan kata lain, bahkan tolok ukur yang dianggap standar industri pun sulit memberikan gambaran akurat soal tingkat halusinasi.
Ada pula kompleksitas tambahan: model cenderung lebih akurat saat menggunakan pencarian web untuk menemukan jawaban. Namun untuk menggunakan fitur pencarian ChatGPT, OpenAI harus membagikan data dengan penyedia layanan pencarian pihak ketiga, dan pelanggan korporat OpenAI mungkin tidak ingin data prompt mereka terekspos.
Namun demikian, jika OpenAI sendiri menyatakan bahwa model terbaru mereka, o3 dan o4-mini, lebih sering mengalami halusinasi dibandingkan model non-penalaran mereka, hal ini bisa menjadi masalah bagi para penggunanya. Mashable telah menghubungi OpenAI dan akan memperbarui laporan ini bila ada tanggapan.