Model AI dengan Tingkat Halusinasi Terendah

Oleh: Hobon.id (08/05/2026)

Jika kita pernah mengajukan pertanyaan faktual kepada asisten AI dan menerima jawaban yang percaya diri, detail, dan sepenuhnya dibuat-buat — kita telah mengalami halusinasi AI secara langsung. Model tersebut tidak tahu bahwa ia salah. Ia tidak menandai ketidakpastian atau mengakui adanya celah dalam pengetahuannya. Ia menghasilkan respons yang terdengar masuk akal dengan nada percaya diri yang sama seperti yang digunakannya ketika ia benar, dan kita tidak memiliki cara yang andal untuk membedakannya saat itu.

Di sini, kami akan menyusun data tolok ukur halusinasi terbaru yang tersedia hingga saat ini, menjelaskan apa yang sebenarnya diukur oleh setiap tolok ukur dan di mana keterbatasannya dan memprofilkan model dengan rekam jejak konsistensi faktual terkuat.

Advertisement:

Apa Itu Halusinasi AI dan Mengapa Terjadi?

Halusinasi dalam AI mengacu pada kejadian di mana model bahasa menghasilkan informasi yang salah, dibuat-buat, atau tidak didukung oleh bukti yang tersedia — disajikan dengan keyakinan yang sama seperti yang digunakannya untuk keluaran yang akurat. Istilah ini berasal dari psikologi, di mana halusinasi menggambarkan persepsi sesuatu yang tidak ada. Dalam AI, paralelnya adalah menghasilkan teks tentang sesuatu yang tidak benar.

Akar penyebabnya adalah arsitektur. LLM pada dasarnya adalah mesin prediksi, bukan basis pengetahuan. Mereka menghasilkan teks dengan memprediksi kata berikutnya yang paling mungkin secara statistik berdasarkan pola yang dipelajari dari data pelatihan. Mereka tidak "memahami" kebenaran — mereka memprediksi kemungkinan. Ketika model menemukan celah dalam data pelatihannya atau menghadapi pertanyaan yang ambigu, ia mengisi celah tersebut dengan fabrikasi yang terdengar masuk akal daripada mengakui ketidakpastian.

Realitas arsitektur ini memiliki konsekuensi yang mengganggu yang dikonfirmasi oleh penelitian MIT pada Januari 2025. Ketika model AI mengalami halusinasi, mereka cenderung menggunakan bahasa yang lebih percaya diri daripada ketika memberikan informasi faktual. Model 34% lebih cenderung menggunakan frasa seperti "pasti," "tentunya," dan "tanpa ragu" ketika menghasilkan informasi yang salah. Paradoks intinya adalah semakin salah AI, semakin yakin kedengarannya. Sebuah model paling percaya diri ketika paling salah — bukan karena menipu, tetapi karena proses prediksi statistik yang menghasilkan teks yang terdengar percaya diri adalah proses yang sama yang menghasilkan informasi palsu ketika pengetahuan tidak ada.

Ini bukan sekadar kesalahan pelatihan. Halusinasi AI semakin dipandang sebagai hal yang melekat pada desain model probabilistik, bukan hanya kesalahan pelatihan. Penelitian matematika yang diterbitkan pada tahun 2025 oleh Karpowicz menunjukkan melalui tiga kerangka kerja pembuktian yang berbeda bahwa halusinasi tidak dapat sepenuhnya dihilangkan dari model bahasa probabilistik — hanya dapat dikurangi, dikelola, dan dimitigasi.

Lanskap Tolok Ukur

Salah satu hal terpenting yang perlu dipahami tentang tolok ukur halusinasi adalah bahwa angka tersebut tidak berarti tanpa menentukan dari tolok ukur mana angka tersebut berasal. Model yang sama akan menunjukkan tingkat halusinasi yang sangat berbeda tergantung pada apa yang diukur, bagaimana cara mengukurnya, dan apakah akses pencarian web diaktifkan. Tidak ada satu tolok ukur pun yang mencakup seluruh cakupan bagaimana model gagal dalam fakta. TruthfulQA menguji apakah model mengulang kesalahpahaman umum. SimpleQA menyelidiki ingatan faktual bentuk pendek. FACTS Grounding mengukur kesetiaan pada dokumen sumber yang diberikan. Papan peringkat Vectara melacak halusinasi waktu ringkasan. AA-Omniscience menghukum jawaban yang salah dan memberi penghargaan atas abstain.

Memahami setiap tolok ukur sangat penting untuk menafsirkan hasil secara bermakna.

Papan Peringkat Vectara HHEM

Papan Hughes Hallucination Evaluation Model (HHEM) Vectara adalah tolok ukur halusinasi yang paling banyak dirujuk di industri ini. Papan peringkat ini mengukur perilaku spesifik yang penting secara praktis, yaitu seberapa sering model memasukkan informasi palsu saat meringkas dokumen yang diberikan kepadanya. Ini secara langsung analog dengan bagaimana AI digunakan dalam sistem RAG (Retrieval Augmented Generation), yaitu tulang punggung pencarian AI perusahaan, bot dukungan pelanggan, dan alat analisis dokumen.

Papan peringkat asli, yang dirilis dua tahun lalu, menjadi tolok ukur utama untuk mengukur tingkat halusinasi dalam AI generatif. Papan peringkat yang diperbarui membentuk dasar baru: papan peringkat ini didasarkan pada kumpulan data yang jauh lebih besar yang lebih mencerminkan data perusahaan nyata, dan mencakup lebih dari 7.700 artikel yang mencakup berbagai domain seperti hukum, kedokteran, keuangan, pendidikan, dan teknologi. Papan peringkat ini dirancang untuk menguji konsistensi faktual di seluruh teks yang lebih panjang dan lebih kompleks.

SimpleQA dan PersonQA (OpenAI)

SimpleQA adalah tolok ukur pengingatan fakta OpenAI yang menggunakan pertanyaan singkat dan dapat dijawab secara pasti. Dirancang dengan kumpulan pertanyaan yang dirahasiakan untuk mencegah kontaminasi data pelatihan. PersonQA secara khusus berfokus pada pertanyaan tentang individu — kategori di mana model bahasa sangat rentan terhadap halusinasi karena detail biografis tentang individu jarang ditemukan dalam data pelatihan dibandingkan dengan informasi tentang institusi dan peristiwa.

FACTS Grounding (Google DeepMind)

FACTS Grounding mengukur apakah respons yang dihasilkan model didukung oleh dokumen sumber yang disediakan — dimensi kesetiaan dari aplikasi AI yang berbasis dokumen. Untuk aplikasi berbasis dokumen (ringkasan, tinjauan kontrak, RAG): Fokus pada skor FACTS Grounding dan Vectara HHEM. Lebih disukai model yang mendapat skor di atas 78% pada FACTS Grounding.

AA-Omniscience (Artificial Analysis)

AA-Omniscience memberikan penalti untuk jawaban yang salah dan memberi penghargaan untuk abstain yang tepat — mengukur tidak hanya apakah model memberikan jawaban yang benar tetapi juga apakah model tersebut tahu kapan tidak menjawab. Tolok ukur ini menangkap dimensi praktis penting yang luput dari metrik akurasi murni: model yang secara percaya diri berhalusinasi lebih berbahaya daripada model yang mengakui ketidakpastian, meskipun keduanya sama-sama sering salah.

Model dengan Tingkat Halusinasi Terendah Saat Ini

Dengan lanskap tolok ukur yang telah ditetapkan, data kinerja dapat diinterpretasikan secara bermakna.

Google Gemini 2.0 Flash: Terbaik dalam Ringkasan Berbasis Data

Pada dataset asli Vectara HHEM, pemimpin kinerja tetap luar biasa. Gemini-2.0-Flash-001 milik Google mencatat tingkat halusinasi AI terendah sebesar 0,7% pada April 2025 pada tolok ukur Vectara, menjadikannya model bahasa besar yang paling konsisten secara faktual yang diuji hingga saat ini. Empat model sekarang berada di bawah ambang batas 1%.

Model Gemini milik Google mendominasi tiga posisi teratas pada dataset asli Vectara. Keluarga GPT OpenAI berada di antara 0,8% dan 2,0%. Bahkan yang berkinerja terburuk pun tetap di bawah 15% pada tolok ukur yang lebih mudah ini.

Angka 0,7% pada peringkasan berbasis data sungguh mengesankan — artinya dalam simulasi peringkasan dokumen gaya RAG, Gemini 2.0 Flash menambahkan informasi yang tidak didukung oleh dokumen sumber dalam kurang dari 1 dari 100 ringkasan. Untuk aplikasi perusahaan di mana AI digunakan untuk meringkas kontrak hukum, catatan medis, pengungkapan keuangan, atau dokumen dukungan pelanggan, tingkat kesetiaan terhadap materi sumber ini memiliki nilai operasional yang nyata.

Namun, model yang sama menceritakan kisah yang berbeda pada tolok ukur lainnya. Tidak ada satu model pun yang mendominasi semua domain pengetahuan. Gemini 3 Pro mencapai akurasi tertinggi (53%) dengan selisih yang besar — tetapi juga menunjukkan tingkat halusinasi 88% pada AA-Omniscience. Ini berarti bahwa ketika tidak mengetahui jawabannya, ia mengarang jawaban 88% dari waktu daripada mengakui ketidakpastian. Akurasi tinggi ditambah halusinasi tinggi sama dengan model yang tahu banyak tetapi terus-menerus berbohong tentang apa yang tidak diketahuinya.

Profil yang terbagi ini — sangat baik dalam meringkas berdasarkan fakta, tetapi kurang baik dalam mengingat fakta secara terbuka ketika jawabannya tidak ada di depan mata — menggambarkan mengapa memahami konteks penerapan sebelum memilih model berdasarkan tolok ukur halusinasi sangat penting.

OpenAI GPT-4.1 dan Keluarga GPT

OpenAI secara konsisten kuat di seluruh keluarga GPT-4, berkisar dari 0,8% hingga 2,0% pada dataset asli Vectara. Model penalaran o3-mini-high dari OpenAI mencapai 0,8%, menunjukkan bahwa kemampuan penalaran dapat mengurangi halusinasi pada tugas-tugas berbasis fakta jika diterapkan dengan benar.

Pada SimpleQA, GPT-4.1 mencapai akurasi 40,4%, menempatkannya di antara yang berkinerja terbaik dalam mengingat fakta bentuk pendek bersama Gemini 2.5 Pro dengan 53,0% dan keluarga Qwen3 235B dengan 50,6%.

Pembaruan Vectara April 2026 memperkenalkan poin data yang penting tentang model OpenAI yang lebih baru: OpenAI GPT-5.4 nano masuk ke peringkat teratas dengan angka yang jauh lebih tinggi yaitu 3,1% dibandingkan dengan GPT-4.1 sebesar 2,0%, memperkuat pola bahwa varian OpenAI yang lebih kecil dan lebih baru seringkali mengalami halusinasi lebih banyak daripada model dasar yang lebih lama — konsisten dengan "pajak penalaran" yang dibahas dalam literatur penelitian.

"Reasoning tax" adalah salah satu temuan yang paling berlawanan dengan intuisi dalam penelitian halusinasi. Model yang lebih mumpuni tidak selalu mengalami halusinasi lebih sedikit. Tingkat halusinasi AI terdepan pada tahun 2026 berada di antara 3,1% dan 19,1% tergantung pada model, keluarga tugas, dan konfigurasi penalaran — jauh lebih baik daripada angka dasar tahun 2024 sebesar 15-45% tetapi jauh dari nol.

Model Claude: Sebaran yang Mengejutkan

Model Claude dari Anthropic menunjukkan sebaran kinerja yang lebih luas daripada yang mungkin disarankan oleh posisi pemasarannya. Model Claude menunjukkan sebaran yang mengejutkan: Claude-3.7-Sonnet dengan 4,4% cukup baik, tetapi Claude-3-Opus dengan 10,1% sangat tinggi pada dataset asli Vectara.

Generasi model yang lebih baru menunjukkan peningkatan dalam konteks tertentu. Claude 4.6 Sonnet mencapai tingkat halusinasi sekitar 3% pada benchmark Vectara, sehingga menjadikannya model dengan kinerja terbaik dalam evaluasi spesifik tersebut menurut analisis ModelLabs Maret 2026.

Pada akurasi percakapan yang ditinjau oleh rekan sejawat, Claude menunjukkan salah satu kinerja relatif terkuatnya. Pada benchmark percakapan HalluHard dengan pencarian web diaktifkan, Claude Opus 4.5 mencapai 30% halusinasi — kinerja terbaik dalam skenario percakapan realistis di antara model yang diuji. Selain itu, dalam pengujian tinjauan rekan sejawat multi-model, tingkat deteksi Claude untuk kesalahan substansial turun menjadi 26,4% pada giliran yang berisiko tinggi — tingkat terendah dari kelima penyedia yang diuji, menunjukkan lebih sedikit kesalahan yang dapat ditinjau oleh rekan sejawat dalam konteks tersebut. Kesimpulan praktis untuk Claude adalah bahwa ia berkinerja relatif lebih baik pada tugas percakapan dan penalaran dengan akses ke alat atau pencarian web, dan relatif kurang baik pada peringkasan murni tanpa konteks.

Model Grok: Kinerja Bergantung pada Tolok Ukur

Model Grok dari xAI mungkin menunjukkan variasi tolok ukur yang paling dramatis dibandingkan keluarga model utama lainnya. Pada beberapa tolok ukur, kinerjanya kompetitif. Pada tolok ukur lainnya, khususnya yang menguji akurasi kutipan dan pengetahuan spesifik individu, mereka menunjukkan tingkat yang mengkhawatirkan.

Tingkat halusinasi terendah untuk model penalaran pada AA-Omniscience pada April 2026 dicapai oleh Grok 4.20 sebesar 17%. Ini kompetitif dengan model kelas penalaran lainnya pada tolok ukur spesifik tersebut.

Namun, Grok-4 sebesar 4,8% pada dataset asli Vectara jauh lebih tinggi daripada pesaingnya di GPT dan Gemini — hampir 7 kali lipat tingkat halusinasi dari model Gemini terbaik. Dan dalam sebuah studi Columbia Journalism Review yang berfokus pada akurasi kutipan berita, Grok-3 mengalami halusinasi yang mengejutkan sebesar 94% dari waktu. Tingkat halusinasi kutipan 94% dalam konteks jurnalistik menunjukkan sistem yang pada dasarnya tidak dapat diandalkan untuk kasus penggunaan spesifik tersebut.

Menurut tolok ukur tahun 2026 yang mencakup 37 model, grok-4 mencapai tingkat halusinasi terendah sebesar 15% pada tugas analisis terstruktur, menjadikannya model paling andal pada tolok ukur khusus tersebut. Sekelompok model terkemuka termasuk gpt-4.1, gemini-3-pro-preview, dan claude-opus-4.1 menunjukkan kinerja yang kuat dengan tingkat halusinasi 17% pada evaluasi yang sama.

DeepSeek dan Model Open Source

Model DeepSeek telah menarik perhatian yang signifikan karena kinerja kompetitifnya relatif terhadap biaya pelatihannya. Pada tolok ukur halusinasi, mereka menempati peringkat menengah. Dalam tolok ukur 5.000 prompt yang dilakukan pada April 2026 yang mencakup ingatan faktual, akurasi kutipan, dan referensi kode, DeepSeek V4 menunjukkan tingkat halusinasi dasar sebesar 12,7% pada tugas-tugas faktual, yang turun menjadi 10,4% dengan pemikiran yang diperluas diaktifkan.

Data menunjukkan korelasi yang jelas antara ukuran model dan tingkat halusinasi: model di bawah 7 miliar parameter rata-rata memiliki tingkat halusinasi 15-30%; model antara 7-70 miliar parameter rata-rata 5-15%; model di atas 70 miliar parameter rata-rata 1-5%. Model yang dilatih pada dataset yang lebih berkualitas dan lebih beragam cenderung mengalami halusinasi lebih sedikit. Menurut penelitian dari MIT pada awal tahun 2025, model yang dilatih pada kumpulan data yang dikurasi dengan cermat menunjukkan pengurangan halusinasi sebesar 40% dibandingkan dengan model yang dilatih pada data internet mentah.

Hubungan antara ukuran dan halusinasi ini berarti bahwa model open source yang lebih kecil, meskipun memiliki keunggulan dalam hal privasi dan biaya, secara inheren membawa risiko kesalahan faktual yang lebih tinggi yang harus dikelola melalui desain sistem.

Paradoks Model Penalaran

Salah satu temuan terpenting dan paling tidak terduga dalam penelitian halusinasi saat ini adalah apa yang mulai disebut para peneliti sebagai "reasoning tax", yaitu pengamatan bahwa model yang dirancang khusus untuk penalaran yang diperluas terkadang mengalami halusinasi lebih banyak pada tugas-tugas berbasis fakta daripada rekan-rekan mereka yang tidak menggunakan penalaran.

Model penalaran o3 dari OpenAI mengalami halusinasi 33% dari waktu pada PersonQA, dua kali lipat dari tingkat pendahulunya, o1.

Papan peringkat Vectara yang diperbarui mengungkapkan temuan penting: model penalaran dan berpikir sebenarnya berkinerja lebih buruk pada ringkasan berbasis fakta. Model seperti GPT-5, Claude Sonnet 4.5, Grok-4, dan Gemini-3-Pro — yang dipasarkan sebagai "penalaran" yang kuat — semuanya melampaui tingkat halusinasi 10% pada tolok ukur yang lebih sulit. Hipotesisnya: model penalaran menginvestasikan upaya komputasi untuk "memikirkan" jawaban, yang terkadang menyebabkan mereka terlalu banyak berpikir dan menyimpang dari materi sumber daripada hanya berpegang pada teks yang diberikan.

Mekanisme ini layak dipahami dengan cermat. Ketika sebuah model penalaran diminta untuk meringkas sebuah dokumen, ia tidak hanya mengekstrak dan menyusun ulang apa yang ada di depannya. Ia mengaktifkan proses penalaran rantai pikirannya, menghubungkan pengetahuan yang terkait, menyimpulkan implikasi, dan menghasilkan apa yang diyakininya sebagai ringkasan yang paling lengkap dan mendalam. Dalam proses ini, ia menambahkan informasi yang tidak ada dalam dokumen sumber — dan penambahan itulah yang membentuk halusinasi pada tolok ukur yang berbasis fakta.

Ironinya terlihat dan informatif: semakin mumpuni penalaran model tersebut, semakin besar kemungkinan ia melampaui teks sumber, dan melampaui teks sumber dalam konteks ringkasan berbasis fakta adalah definisi halusinasi pada tolok ukur ini.

Pemikiran yang diperluas secara konsisten mengurangi separuh tingkat halusinasi pada tugas mengingat fakta — GPT-5.5 Pro turun dari 8,3% menjadi 4,2%, Claude Opus 4.7 dari 9,4% menjadi 5,1%, DeepSeek V4 dari 12,7% menjadi 10,4%. Mekanismenya adalah koreksi diri selama penelusuran penalaran. Namun, peningkatan pada pengingatan fakta ini tidak berlaku untuk peringkasan berbasis fakta, di mana proses penalaran yang sama yang mengoreksi kesalahan faktual menyebabkan model menambahkan fakta di luar sumber.

Implikasi praktisnya langsung: jika aplikasi Anda berbasis dokumen — RAG, peringkasan, tinjauan kontrak — model yang lebih kecil dan lebih terfokus mungkin lebih bermanfaat bagi Anda daripada model penalaran terdepan yang terbesar. Pilihan model harus didorong oleh jenis tugas, bukan oleh peringkat kemampuan umum model tersebut.

Analisis Mendalam Benchmark: Model Mana yang Unggul di Setiap Evaluasi

Memahami kinerja model memerlukan pengamatan setiap benchmark secara terpisah dan memahami konteks penerapan mana yang paling sesuai.

Pada Vectara HHEM (Ringkasan Berbasis Data)

Pada dataset asli, Gemini 2.0 Flash unggul dengan 0,7%, diikuti oleh model OpenAI dalam kisaran 0,8%–2,0%. Pada dataset baru yang lebih sulit dengan 7.700+ dokumen yang lebih panjang, gambaran berubah secara signifikan — semua model penalaran utama melebihi 10%, dan yang berkinerja terbaik adalah model yang lebih kecil dan kurang "mampu" yang tidak mencoba untuk menambah materi sumber.

Temuan yang lebih penting dari papan peringkat yang diperbarui: model terdepan yang berfokus pada penalaran — GPT-5, Claude Sonnet 4.5, dan Grok-4 — semuanya menunjukkan tingkat halusinasi di atas 10% pada dataset yang lebih sulit. Untuk aplikasi RAG dan ringkasan dokumen, ini berarti bahwa model dengan peringkat kemampuan umum yang lebih rendah mungkin lebih disukai jika menunjukkan kesetiaan sumber yang lebih baik.

Pada SimpleQA (Pengingatan Fakta Singkat)

Performa terbaik pada SimpleQA adalah Gemini 2.5 Pro dengan 53,0%, keluarga Qwen3 235B dengan 50,6%, dan GPT-4.1 dengan 40,4%. Rata-rata lapangan sebesar 20,8% berarti Anda harus membangun augmentasi pengambilan ke dalam sistem produksi apa pun daripada hanya mengandalkan pengetahuan parametrik saja.

Rata-rata lapangan SimpleQA sebesar 20,8% adalah data yang mengkhawatirkan. Pada pertanyaan faktual singkat yang dikontrol dengan cermat dengan jawaban yang pasti, model terdepan rata-rata menjawab salah atau menolak untuk menjawab sekitar satu dari lima kali. Ini bukan tolok ukur dengan pertanyaan yang ambigu atau jawaban yang dapat diperdebatkan — ini adalah pertanyaan dengan respons faktual yang tepat. Tingkat kesalahan 20% dalam konteks ini seharusnya menjadi motivasi utama untuk selalu membangun lapisan verifikasi ke dalam sistem AI produksi apa pun.

Pada FACTS Grounding (Google DeepMind)

Untuk aplikasi berbasis dokumen (ringkasan, tinjauan kontrak, RAG), fokuslah pada skor FACTS Grounding dan Vectara HHEM. Lebih disukai model yang mendapat skor di atas 78% pada FACTS Grounding. Hindari model yang terlalu banyak menggunakan penalaran kecuali kita telah menguji perilaku grounding-nya pada jenis dokumen spesifik kita.

Model Gemini Google menunjukkan skor FACTS Grounding terkuat, yang konsisten dengan kinerja Vectara-nya. Korelasi antara kedua tolok ukur ini menunjukkan bahwa kesetiaan pada materi sumber yang diberikan adalah dimensi di mana beberapa model secara sistematis lebih baik daripada yang lain, terlepas dari peringkat kemampuan umum.

Pada AA-Omniscience (Pengetahuan dan Abstensi)

Indeks keandalan pengetahuan terbaik dipegang oleh Gemini 3.1 Pro dengan skor indeks 33 pada AA-Omniscience. Skor faktualitas tertinggi pada penilaian multidimensi adalah Gemini 3 Pro dengan skor 68,8 pada FACTS.

Desain benchmark AA-Omniscience—memberikan penalti untuk jawaban yang salah dan memberi penghargaan untuk abstain yang tepat—menghasilkan skor yang paling bermakna secara praktis untuk aplikasi yang bergantung pada pengetahuan. Model yang mengetahui apa yang tidak diketahuinya dan menolak untuk menjawab dalam kasus-kasus tersebut jauh lebih mudah diterapkan dalam konteks yang berisiko tinggi daripada model yang menjawab dengan percaya diri tanpa memperhatikan keadaan pengetahuannya yang sebenarnya.

Advertisement:

Jadi, pertanyaannya bukanlah "model mana yang tidak mengalami halusinasi?" Pertanyaan yang tepat adalah "sistem mana yang dapat saya rancang yang menjaga kesalahan halusinasi dalam batas yang dapat diterima untuk kasus penggunaan spesifik saya?" Pergeseran kerangka kerja inilah yang menjadi awal keandalan AI praktis.