Pembacaan Dokumen

URL: /ingest/baca

Tujuan

Setelah seluruh dokumen wajib terpetakan lengkap (lihat halaman Pemetaan Dokumen), AI menjalankan proses pembacaan — mengubah berkas mentah menjadi teks dan struktur yang dapat dimasukkan ke basis data AI untuk evaluasi tahap berikutnya.

Cara Kerja

Pre-parsing — auto-split file besar. Sebelum parsing dimulai, sistem cek ukuran tiap PDF. File ≥ 6 MB otomatis di-split ke bagian-bagian ≤ 5 MB supaya parsing AI ringan dan tidak gagal karena keterbatasan memori GPU. Pembagian table-aware — tidak memecah tabel multi-halaman. Output pakai konvensi nama ..._buku{N}of{M}.pdf (mis. induk_palembang_rpjmd_2025_formal_buku1of3.pdf).
AI membaca tiap dokumen (atau tiap part dari file yang di-split) menggunakan teknik parsing — mengenali bab, subbab, paragraf, tabel, dan elemen struktural lain di dalam dokumen.
Hasil pembacaan dikonversi ke format Markdown (.md) yang sudah terstruktur, kemudian disimpan di media penyimpanan instansi pembina/penyelenggara. Hasil inilah yang nantinya menjadi sumber bukti pada saat evaluasi.
Setiap dokumen (atau part) mendapat skor parsing yang menunjukkan seberapa sempurna AI dapat membacanya.

Halaman ini bersifat pasif — proses berjalan sendiri di belakang layar, halaman hanya menampilkan progres dan hasilnya.

Dokumen Multi-Bagian (Buku I, II, III, dst.)

Beberapa dokumen evaluasi terdiri dari banyak file fisik — baik karena instansi sendiri yang memecah (mis. RPJMD Buku I/II/III), atau karena sistem yang melakukan auto-split di langkah pre-parsing.

Pada tabel skor parsing di halaman ini, dokumen multi-bagian tampil sebagai baris-baris terpisah per part (mis. _buku1of3, _buku2of3, _buku3of3). Tiap part punya skor parsing sendiri — karena AI membaca tiap bagian secara mandiri.

Tapi di tahap berikutnya (Penyimpanan → evaluasi), seluruh part disatukan kembali sebagai satu dokumen logis lewat semantic key dokumen_id. Asesor membaca konteks utuh lintas bagian — tidak ada "RPJMD parsial" hanya karena dokumen di-split jadi banyak file.

Skor Parsing per Dokumen

Tabel di halaman ini menampilkan tiap dokumen dengan skor parsing-nya. Beberapa faktor yang memengaruhi skor:

Faktor	Pengaruh terhadap Skor
Dokumen PDF dengan lapisan teks (bukan gambar)	Skor tinggi
Dokumen merupakan hasil scan gambar	Skor buruk — AI tidak dapat membaca isi
Struktur bab/subbab terdeteksi rapi	Skor tinggi
Banyak halaman tanpa teks, atau tabel rusak	Skor turun
Format & ukuran sesuai ketentuan piloting (PDF, ≤ 5 MB per file/part)	Skor stabil

Ketentuan format mengikuti pedoman pada halaman Daftar Dokumen Wajib: berkas wajib PDF (bukan hasil scan gambar) dengan ukuran maksimal 5 MB per file. Berkas ≥ 6 MB akan otomatis di-split jadi part-part ≤ 5 MB oleh pipeline pre-parse (lihat Lebah #4970 — docexplode).

Chip Filter Status Pembacaan (interaktif)

Di atas tabel terdapat chip ringkasan status pembacaan yang berfungsi sekaligus sebagai filter interaktif (selaras dengan kartu ringkasan di atas: Selesai · Sedang Diproses · Menunggu):

[ Semua 65 ]  [ ✓ Selesai 42 ]  [ ◐ Sedang Diproses 16 ]  [ ○ Menunggu 7 ]

Perilaku:

Klik chip → tabel dipersempit ke baris dengan status pembacaan tersebut (single-select).
Klik chip aktif lagi → kembali ke "Semua" (toggle).
Chip aktif ditampilkan dengan fill solid + border tebal + count weight bold.
Chip default aktif saat halaman dimuat: Semua.

Penggunaan tipikal: klik Selesai untuk filter dokumen yang sudah siap dilanjutkan ke tahap Penyimpanan; klik Menunggu untuk dokumen yang masih antri proses. Skor parsing buruk muncul sebagai metadata per baris (lihat tabel di bawah) — operator menggunakan rekomendasi per dokumen untuk memutuskan re-collect.

Rekomendasi

Setiap dokumen yang mendapat skor parsing buruk akan dilengkapi rekomendasi tindakan. Yang paling sering muncul:

Kumpulkan ulang dokumen dalam format PDF dengan lapisan teks (bukan hasil scan).
Periksa apakah PDF terkunci atau terenkripsi.
~~Pisahkan dokumen yang melebihi batas ukuran menjadi beberapa berkas.~~ → Tidak perlu lagi. File besar (≥ 6 MB) di-split otomatis oleh sistem pre-parsing (lihat langkah 1 di Cara Kerja).

Setelah berkas pengganti tersedia di sumber data, proses pembacaan akan otomatis diulang — operator tidak perlu memicu apa pun dari halaman ini.

Skor Total & Status Kelayakan Lanjut

Selain skor per dokumen, halaman ini menampilkan skor total parsing untuk keseluruhan dokumen instansi. Skor total inilah yang menjadi penentu apakah proses dapat berlanjut:

Skor mencukupi → proses dapat lanjut ke tahap Penyimpanan, kemudian evaluasi.
Skor kurang → instansi diminta memperbaiki dokumen yang bermasalah terlebih dulu.

Status ini diperbarui secara berkala selama proses pembacaan berlangsung.

Bila Dokumen Belum Lengkap

Apabila kelengkapan dokumen di halaman Pemetaan Dokumen belum terpenuhi, proses pembacaan menunggu sampai data lengkap. Halaman ini akan menampilkan pesan singkat beserta tautan kembali ke halaman pemetaan.

Dokumen Perlu Dicek (Quality Flag)

Panel ini di-render saat ada dokumen dengan metadata tidak lengkap atau chunks anomali (per Lebah #5075).

Selain skor parsing, halaman ini menampilkan panel ringkas dokumen yang perlu perhatian — kandidat untuk re-tag atau re-ingest:

Flag	Kriteria	Aksi yang Disarankan
Tidak ter-tag	`doc_type` atau `doc_year` masih `null` di metadata	Tag manual via tahap Pemetaan Dokumen, atau re-ingest dengan metadata yang benar
Chunks anomali rendah	Jumlah chunks < 5 padahal file size > 1 MB (kemungkinan parsing gagal)	Periksa apakah PDF native text atau hasil scan; kumpul ulang format yang benar
Chunks kosong	Status ter-index tapi chunks = 0 (parsing sukses tapi tidak ada teks ter-ekstrak)	Cek apakah PDF cuma image/scan tanpa OCR — kumpul ulang dengan OCR pre-process

Panel ini ringkas (tidak duplikat tabel dokumen utama) — hanya list nama file + flag + tombol cepat "Lihat detail" untuk navigasi ke baris dokumen yang relevan.

Data flag di-compute oleh pipeline ingest + di-refresh saat halaman load.