Game-Translator
Intelligence Report

The 80% Threshold: Recalibrating E5 Large Instruct Models

06 Mar 2026 3 min read

Pesan Buat Diri Sendiri: Jangan Percaya Dokumentasi Mentah-Mentah!

Halo sobat researcher dan hamba QA! Kali ini aku mau berbagi kegagalan yang lumayan memalukan dalam pembangunan pipeline terjemahan aku. Topiknya tentang model Multilingual E5 Large Instruct 2024. Aku baru aja pindah dari LaBSE 2020 (Language-agnostic BERT Sentence Embedding) demi ngejar akurasi masa kini yang katanya lebih 'pintar', eh malah kejebak dalam ilusi kembar si model baru ini.

Selama sebulan terakhir, aku pede banget pake threshold 70% (skor 0.70) buat nentuin apakah sebuah terjemahan itu akurat atau sampah. Kenapa 70%? Karena di dokumentasi resmi Microsoft dan paper aslinya bilang di angka itu kemiripan semantiknya udah kuat! Tapi pas aku cek ulang dataset-nya karena ada keluhan user tentang dialog yang ngalor-ngidul... alangkah kagetnya aku melihat hasil inferensinya.

Analisis Kritis (Sambil Ngelus Dada):

  • Cosine Similarity Flaw: Karena model E5 ini pake contrastive learning dengan suhu rendah, distribusi skornya cenderung numpuk di nilai tinggi (0.7-1.0). Jadi skor 0.8 itu bukan berarti 'Bagus banget', itu cuma 'Okelah'.
  • Halusinasi Dokumen: Dokumentasi model seringkali hanya nguji dataset 'bersih'. Pas masuk dunia nyata (slang game, typo), threshold lama jadi gak berguna.
  • PR Beruntun: Karena kesalahan penentuan batas ini, ribuan baris teks yang sebenernya salah malah masuk ke kategori 'Final'.
  • Waste of Token: Aku rugi duit dan token gara-gara harus recalibrate dari nol lagi demi dapet akurasi yang absolut.

Contoh kegilaannya gini: Kalimat Inggris 'Hello, how are you?' dikasih skor 81% sama model ini padahal terjemahan targetnya adalah 'Selamat makan nasi goreng'. TOLOL ngga tuh? Ini mah bukan mirip semantiknya, tapi emang modelnya terlalu baik hati atau emang lagi lapar AI-nya! Sejak kapan bertanya kabar mirip sama nawarin nasi goreng?

Moral of the story: Jangan jadi kayak mahasiswa magang yang jualan joki skripsi. Uji data kamu sendiri, bikin sanity check secara berkala, sebelum sombong bilang sistemnya udah 99% akurat. Kamu harus set threshold di 80% ke atas kalau mau dapet akurasi yang 'beneran' akurat di E5 Large. Penasaran sama screenshot kelucuannya? Cek aja gambarnya di website, di situ terpampang nyata gimana mobil rusak dibilang kucing lucu dan tetep dapet skor tinggi. Nanges berjamaah dah kita!

Released Archive

Austronesian Showcase

Location
Image
Video