Game-Translator
Intelligence Report

The African Secret of Sulawesi Languages: A Stanza NLP Journey

11 Mar 2026 4 min read

Perjalanan Ajaib di Balik Stanza NLP dan Bahasa Daerah Sulawesi

Halo sobat tech-kreatif! Aku mau berbagi kisah nyata yang lumayan kocak tapi tetap beraroma ilmiah. Tahun 2023 kemarin, ada rekan perjuangan aku yang lagi pusing tujuh keliling ngerjain disertasi S3. Topiknya super ambisius: translasi mesin untuk bahasa low resource dari daerah pedalaman Sulawesi. Kamu tau dikasih data berapa? Cuma 500 baris dataset! Sebagai peneliti, aku pengen ketawa tapi kasihan. Itu mah bukan low-resource lagi, itu namanya no-resource! Teman aku ini masih pakai metode purba kayak TF-IDF dan Word2Vec. Hasilnya? Gak sinkron blas!

Masalah utamanya adalah morfologi bahasa daerah itu ngga sesederhana bahasa Indonesia. Contohnya gini, kata 'diam' jadi 'meneng' di Jawa, terus 'berdiam' jadi 'jumeneng'. Tapi pas 'berdiri' masa mau jadi 'jungadek'? Ya ngga sinkron dong pola imbuhannya! Karena itulah aku langsung suruh dia buang itu mesin model lama dan pindah ke peradaban Stanza NLP yang berbasis PyTorch. Stanza ini jagoan banget buat urusan dependency parsing dan tokenization lintas bahasa. Teknologi ini bukan cuma soal kode, tapi soal gimana mesin bisa ngerti silsilah sebuah kata.

Awalnya kita sempet skeptis karena buat nyari korelasi di dataset sekecil itu butuh keajaiban. Aku akhirnya saranin buat nambahin dataset pancingan pake scraping liar ke artikel-artikel tua dan dokumen pemerintah daerah. Kita dapet sekitar 200.000 baris data sampah yang kemudian kita bersihin pake regex (reguler expression) sampe jempol mau copot. Tapi pas mau ditraining, kita butuh 'pancingan' dari model bahasa yang udah ada buat nentuin part-of-speech (POS) tagging. Di sinilah komedinya dimulai.

Kenapa Harus Stanza?

  • Modular Pipeline: Stanza punya struktur yang rapi banget dari mulai tokenisasi sampai Named Entity Recognition (NER).
  • Deep Learning Backbone: Dibangun di atas PyTorch, jadi akurasinya bukan kaleng-kaleng buat nangkep nuansa bahasa yang aneh-aneh.
  • Antarmuka CoreNLP: Bisa koneksi sama sistem Java, jadi fiturnya makin lengkap buat resolusi koreferensi.
  • Efisiensi GPU: Stanza optimis banget pas dijalani di GPU RTX, bikin inferensi jutaan kata cuma dalam hitungan detik.

Lucunya pas aku cari padanan bahasa, Stanza ngga support bahasa Sulawesi itu secara native. Aku coba download model bahasa Jawa, Melayu, bahkan bahasa New Zealand (semuanya Austronesia). Eh, iseng-iseng aku download bahasa Wolof dari benua Afrika (Senegal). Kamu tau ngga? Pas dites, ternyata labeling paling akurat justru pas pakai model Wolof! Sumpah, aku sama teman aku langsung melongo di depan monitor. Ternyata secara struktur linguistik, bahasa dari Sulawesi ini malah punya 'vibes' yang sama sama bahasa Afrika ketimbang sesama tetangga Austronesia.

Analisis antropologi-linguistik emang kadang nemu anomali kayak gini. Ada kemiripan morfologi dalam penggunaan infleksi yang ngga ditemukan di bahasa Melayu standar. Berkat bantuan Stanza yang udah dilatih pada dataset raksasa ini, teman aku akhirnya lulus S3 dengan akurasi pelabelan mendekati 65%! Lumayan banget buat dataset awal yang sekecil semut itu. Pesannya cuma satu: sains itu seringkali menunjukkan kalau kita semua, dari Sulawesi sampai Afrika, ternyata emang satu frekuensi. Jangan takut nyoba model dari belahan dunia lain, siapa tau datamu jodohnya ada di sana!

Released Archive

Austronesian Showcase

Location
Image
Video