Game-Translator
Intelligence Report

Inside the Workshop: Automated Quality Control through Clustering

21 Feb 2026 3 min read

Intip Dapurnya Translator: Menjaga Kualitas Tanpa Bikin Kantong Jebol

Pernahkah kamu penasaran gimana cara seorang modder solo bisa memoles puluhan ribu baris teks dengan kualitas yang konsisten? Rahasianya bukan ada di kafein yang diminum tiap malam, melainkan di teknik Clustering yang terotomasi. Aku mau sharing hal teknis yang mungkin agak berat, tapi ini penting buat menunjukkan kalau dukungan kalian itu benar-benar digunakan untuk membangun infrastruktur riset yang gokil. Bayangkan, harga API GPT-4 atau model high-end lainnya itu selangit, apalagi buat nerjemahin ribuan dialog RPG. Strategi 'brute-force' (kirim semua teks ke API berbayar) itu bukan cuma nggak cerdas, tapi juga cara cepat menuju kebangkrutan pribadi, WKWKWK.

Solusinya? Aku bikin sistem Quality Control otomatis sendiri. Kunci dari sistem ini adalah jangan pernah menyuapi AI dengan data yang 'kotor' atau ribuan baris data mentah yang nggak diatur. Itu cuma bikin otak AI-nya 'enyek' atau saturasi. AI-nya malah jadi makin goblok karena kehilangan fokus konteks. Melalui teknik Clustering, data teks tadi aku pecah menjadi ribuan fragmen logika yang masing-masing punya identitas matematis tersendiri. Sistem ini membantu aku menemukan 'perwakilan terbaik' dari setiap tipe dialog untuk dipelajari ulang oleh mesin.

Dari sisi matematika, sistem ini mengubah kata-kata kamu jadi angka atau vektor di ruang 768 dimensi. Tapi karena 768 dimensi itu berat banget, aku kompres secara cerdas menjadi 50 dimensi doang biar PC-ku nggak teriak. Ada tiga jalur (route) utama dalam skripku: Jalur HDBSCAN (paling elit, buat datanya padat), Jalur K-Means (buat datanya yang agak mencar), dan Jalur Bucketing (cadangan manual). Proyek *Black Myth Wukong* adalah bukti nyata kesaktian sistem ini; cuma data super elit yang bisa lolos tes akurasi internal skripku.

Optimasi Budget: Mewahnya Terjemahan Harga 1 Dollar

Tahap paling asik itu di ujungnya: dari ratusan kluster tadi, aku cuma perlu benerin secara manual sekitar 300 sampel teks kunci yang benar-benar mewakili gaya bahasa seluruh game. Sampel koreksi manusia yang super-premium inilah yang aku masukin ke proses LoRA Training untuk model AI sebesar 27 miliar parameter. Hasilnya gila, ngab! Aku cuma butuh duit $1 sampe $5 aja per training untuk dapet hasil yang mendekati kerjaan manusia. Meskipun biaya sewa GPU di awal sempet bikin kantong 'boncos' (nangis liat tagihan Cloud GPU!), sekarang 80% prosesnya sudah lancar jaya di mesin offline. Dukungan Trakteer kalian adalah nyawa buat riset begini. Mari kita terus majukan teknologi lokalisasi Indonesia!

Released Archive

Austronesian Showcase

Location
Image
Video