Building Background Stories: The RAG and Context Length Dilemma

#RAG #Metadata #Google T5 #Context Window #AI Benchmarks

Metadata Baru: Tarung Idealisme vs Kenyataan AI yang Pahit

Halo halo sobat tech dan AI antusias! Mohon maaf ya aku sudah agak lama nggak update kabar perkembangan, soalnya belakangan ini lagi serius-seriusnya fokus bikin metadata tipe baru yang namanya background_story buat dipake di dalam sistem RAG (Retrieval Augmented Generation) kebanggaan kita. Di sini kalian bisa mengintip gambar bocoran yang sudah aku lampirkan ya. Jadi intinya sih, fitur background story ini didapet dari kumpulan relationship graph antarkarakter yang sebelumnya sudah aku saring dan ringkas habis-habisan alias summarize agar lebih efisien.

Proses pembuatannya sendiri tuh lumayan berliku dan panjang. Tahap awalnya itu aku ngumpulin dulu semua dialog setiap karakter yang berhasil terdeteksi di dalam dataset yang super luas itu. Setelah terkumpul, aku suruh si Google T5—model AI khusus perangkum—buat ngeringkas isinya jadi poin-poin penting. Pertanyaannya, kenapa sih harus pake diringkas segala? Jawabannya sederhana: Biar aku nggak bangkrut cuma buat bayar tagihan API LLM online kalau cuma buat nyuruh dia baca dialog yang isinya kadang cuma basa-basi nggak penting wkwk. Nah, baru deh setelah diringkas, hasilnya dikirim lagi ke model LLM yang lebih pinter di atasnya buat dirajut jadi sebuah narasi background_story yang cantik dan bermakna.

Gemma dan Misteri 'Batas Ambang Kebusukan' Data

Tapi masalahnya sekarang, aku lagi di fase agak bimbang dan dilematis. Kadang-kadang di jagat teknologi AI itu berlaku sebuah hukum yang aneh: 'Makin banyak konteks yang kamu kasih, belum tentu hasilnya makin bagus; malah bisa jadi makin ancur output-nya'. Masalahnya terletak pada si Gemma, model kesayangan andalan kita. Berdasarkan risetku, performa Gemma ini bagusnya maksimal banget cuma kalau jumlah token inputnya berada di bawah angka 8192 saja. Begitu datanya tembus angka 'keramat' tersebut, entah kenapa hasilnya seringkali jadi 'busuk'—maksudnya jadi ngaco, halusinasi parah, dan nggak keruan lagi alurnya.

Dengan ngasih dia grafik relasi yang super ribet ditambah deskripsi latar belakang yang bloated (kegemukan), risiko yang aku ambil adalah kualitas translasinya malah amsyong atau zonk sama sekali. Ditambah lagi, bikin scoring metric (tolok ukur penilaian) buat narasi deskriptif sepanjang itu tantangannya luar biasa susah bin sulit. Harus pakai logika matematika tingkat tinggi kayaknya biar presisi wkwk. Jadi, jika dalam beberapa hari ke depan eksperimen background story yang rumit ini ternyata gagal membuahkan hasil yang memuaskan, aku sudah siap dengan rencana cadangan (Plan B): balik ke mode grafik relasi yang super simpel saja demi stabilitas.

Opsi Grafik Sederhana (The 'Plain and Fast' Route)

Rencananya sih kalau yang cara deskriptif tadi malah cuma memperkeruh suasana, grafiknya bakal aku sederhanakan lagi secara drastis menjadi sekedar list status sederhana yang kayak begini:

ALLY: 'SEBASTIAN SALLOW, ELEAZAR FIG'
ENEMY: 'OMINIS GAUNT, RANROK'

Ini jauh lebih pendek, simpel, padat, dan yang paling penting: nggak makan banyak jatah token bulanan kita. Tapi ya gitu deh, yang namanya tantangan riset emang mewajibkan kita buat nyoba-nyoba cara yang susah dulu sebelum menyerah ke cara yang gampang, bukan? Yuk, mari kita bereksperimen terus sampai dapet hasil yang 'joss', dan tunggu saja kejutan baru di update perkembangan berikutnya dari markas Karyain!

New Metadata! The Battle Between Visionary RAG and Harsh AI Reality

Hey there, techies and AI geeks! Please forgive my recent silence—I've been deeply immersed in crafting a new form of high-level metadata specifically designed for our RAG (Retrieval Augmented Generation) pipeline. This new data is what we call the background_story, and I’ve included some early leaks in the attached images. At its core, this background story feature is extracted and refined from character relationship graphs that have been extensively condensed and summarized for maximum efficiency.

The creation workflow is quite a saga in itself. The initial phase involves identifying and aggregating every single dialogue segment attributed to each specific character across a massive dataset. Once this raw data is gathered, I deploy Google T5—a specialized summarization AI—to prune the dialogue down to its most significant plot points. You might ask, why go through the trouble of summarizing first? The reason is purely financial: it keeps the costs from spiraling out of control! Paying for high-tier online LLM APIs just to have them parse through irrelevant small talk is just bad business wkwk. Only after this initial thinning do the summaries get fed into a more sophisticated LLM to be woven into an elegant, coherent narrative background story.

The Gemma Problem and the Threshold of 'Input Rot'

However, I am currently facing a significant strategic dilemma. In the unpredictable landscape of Large Language Models, there's often a counter-intuitive rule: 'more context does not necessarily equal a better result.' The challenge lies within the limitations of Gemma, our primary heavy-hitting model. According to my benchmarks, Gemma’s performance remains exceptionally crisp only as long as the token count stays safely below the 8192-token threshold. Once the data breaches that 'sacred' number, the output quality often undergoes what I call 'rot'—becoming increasingly nonsensical, prone to hallucinations, and drifting away from the source material.

By flooding the system with overly complex relationship graphs and bloated backstories, I run the risk of compromising the overall translation quality. Furthermore, developing a reliable scoring metric to evaluate descriptive narratives of this length is proving to be a monumental mathematical headache. It requires a god-tier level of logical precision! Consequently, if this experimental 'bloated graph' approach fails to deliver superior localized strings in the next few tests, I’m fully prepared to execute my contingency Plan B: retreating back to a more minimalist graph structure for the sake of output stability and token economy.

The Minimalist Fallback Strategy

If the descriptive path proves to be more trouble than it’s worth, the character graphs will be stripped back down to a barebones list of statuses like this:

ALLY: 'SALLOW, ELEAZAR'
ENEMY: 'GAUNT, RANROK'

It’s incredibly brief, to-the-point, and occupies a negligible fraction of the token budget. But then again, the heart of research is about exploring the difficult path before settling for the easy one, right? Let's keep the experiments running full steam and see which method earns its place in the pipeline. Stay tuned for the next batch of surprises from the Karyain lab!