OpenAI secara resmi meluncurkan GPT-5, menjanjikan model AI yang lebih cepat dan lebih canggih untuk mendukung ChatGPT.
Perusahaan AI ini mengklaim performa mutakhir di berbagai bidang seperti matematika, pemrograman, penulisan, dan saran kesehatan. OpenAI dengan bangga menyebut tingkat halusinasi GPT-5 menurun dibandingkan model sebelumnya.
Secara spesifik, GPT membuat klaim keliru sebanyak 9,6 persen, dibandingkan 12,9 persen pada GPT-4o. Menurut dokumen system card GPT-5, tingkat halusinasinya 26 persen lebih rendah dibandingkan GPT-4o.
Selain itu, GPT-5 menghasilkan 44 persen lebih sedikit respons yang mengandung setidaknya satu kesalahan fakta besar.
Meskipun itu kemajuan yang signifikan, artinya sekitar satu dari 10 respons GPT-5 masih berpotensi mengandung halusinasi. Hal ini menjadi perhatian, apalagi OpenAI menyoroti sektor kesehatan sebagai salah satu kasus penggunaan yang menjanjikan untuk model baru ini.
Bagaimana GPT-5 Mengurangi HalusinasiHalusinasi merupakan masalah yang menjengkelkan bagi peneliti AI. Model bahasa besar (LLM) dilatih untuk memprediksi kata berikutnya yang paling mungkin, berdasarkan data dalam jumlah besar yang digunakan saat pelatihan.
Artinya, LLM terkadang dapat menghasilkan kalimat dengan percaya diri, meskipun sebenarnya tidak akurat atau bahkan omong kosong.
Banyak yang berasumsi bahwa seiring peningkatan model melalui data yang lebih baik, metode pelatihan yang lebih efektif, dan daya komputasi yang lebih besar, tingkat halusinasi akan menurun.
Namun, peluncuran model reasoning o3 dan o4-mini oleh OpenAI justru menunjukkan tren mengkhawatirkan yang bahkan tak sepenuhnya bisa dijelaskan oleh para penelitinya: kedua model tersebut berhalusinasi lebih sering daripada pendahulunya, o1, GPT-4o, dan GPT-4.5.
Beberapa peneliti berpendapat halusinasi adalah sifat bawaan LLM, bukan sekadar bug yang bisa dihilangkan.
Meski begitu, GPT-5 terbukti lebih jarang berhalusinasi dibandingkan model sebelumnya menurut system card-nya. OpenAI menguji GPT-5 dan versi dengan kemampuan reasoning tambahan, disebut GPT-5-thinking, melawan model reasoning o3 serta model tradisional GPT-4o.
Salah satu faktor penting dalam mengukur tingkat halusinasi adalah memberi model akses ke web. Umumnya, model menjadi lebih akurat ketika bisa mengambil jawaban dari sumber data online yang valid, dibanding hanya mengandalkan data pelatihannya. Berikut tingkat halusinasi model saat diberi akses browsing:
- GPT-5: 9,6 persen
- GPT-5-thinking: 4,5 persen
- o3: 12,7 persen
- GPT-4o: 12,9 persen
Dalam system card, OpenAI juga menguji berbagai versi GPT-5 menggunakan prompt yang lebih terbuka dan kompleks. Hasilnya, GPT-5 dengan kemampuan reasoning jauh lebih jarang berhalusinasi dibandingkan model reasoning sebelumnya seperti o3 dan o4-mini.
Secara teori, model reasoning lebih akurat karena menggunakan daya komputasi tambahan untuk memecahkan pertanyaan, itulah sebabnya tingkat halusinasi o3 dan o4-mini yang tinggi cukup membingungkan.
Secara keseluruhan, GPT-5 tampil cukup baik ketika terhubung ke web. Namun, hasil uji lain menunjukkan cerita berbeda. OpenAI menguji GPT-5 pada tolok ukur internal bernama Simple QA, kumpulan pertanyaan fakta dengan jawaban singkat yang dirancang untuk mengukur akurasi model dalam menjawab.
Dalam pengujian ini, GPT-5 tidak diberi akses internet, dan hasilnya terlihat jelas. Tingkat halusinasi melonjak:
- GPT-5 utama: 47 persen
- GPT-5-thinking: 40 persen
- o3: 46 persen
- GPT-4o: 52 persen
GPT-5-thinking sedikit lebih baik daripada o3, sementara GPT-5 versi standar justru 1 persen lebih tinggi dari o3, namun masih beberapa poin di bawah GPT-4o. Memang, tingkat halusinasi dalam uji Simple QA tinggi di semua model, tapi itu bukan kabar yang menenangkan.
Pengguna tanpa akses pencarian web akan menghadapi risiko halusinasi dan ketidakakuratan yang jauh lebih besar. Jadi, jika menggunakan ChatGPT untuk hal yang benar-benar penting, pastikan modelnya dapat mencari di internet atau lakukan pencarian sendiri.
Pengguna Cepat Menemukan Halusinasi GPT-5Meski tingkat ketidakakuratan GPT-5 secara umum dilaporkan lebih rendah, salah satu demo peluncuran justru memperlihatkan kesalahan memalukan.
Beth Barnes, pendiri dan CEO lembaga riset AI nonprofit METR, menemukan kesalahan pada demo GPT-5 yang menjelaskan cara kerja pesawat terbang. GPT-5 menyebutkan miskonsepsi umum terkait Bernoulli Effect, yang menjelaskan aliran udara di sekitar sayap pesawat. Tanpa masuk ke detail teknis aerodinamika, interpretasi GPT-5 terbukti keliru.