Sản phẩm · Tinh Lọc

VIDEOVTV24_1995.mpg1.2 TB100%

AUDIOVOV_phát-thanh.wav340 GB64%

DOCVFI_tư-liệu.pdf88 GB31%

ASR · OCR · DIARISATION

→ 00:05.1Thưa quý vị, 28 học sinh…

Cấp 1

Số hoá kho lưu trữ

Âm thanh, video, và kho phát thanh tiếng Việt được phiên âm, phân đoạn cảnh, và gắn nhãn metadata phục vụ truy xuất. Dấu thanh do người chú thích bản ngữ Việt hiệu chỉnh. CER pilot dưới ba phần trăm trên nội dung tin tức trước khi có hiệu chỉnh thủ công.

Dành cho lập chỉ mục thư viện, tìm kiếm nội bộ, và bất kỳ ứng dụng nào cần tài liệu gốc đã được cấu trúc nhưng chưa bổ sung thêm.

Định dạng đầu ra · JSONL · SRT · VTT · Parquet

…bản tin chưa đượchồi loại …vùngngày phát sóng?trong tập tư liệu

VTV24ORG đưa tin tại Nha TrangGEO ngày 14·03·2026DATE

topic:: public-health
region:: South-Central
rag_ready:: true

Cấp 2

Bộ dữ liệu đào tạo LLM

Cấp 1 cộng thêm thực thể có cấu trúc, phân loại chủ đề, và đoạn văn sẵn sàng cho RAG kèm metadata nguồn gốc. Tinh chỉnh cho pretraining và fine-tuning các mô hình ngôn ngữ tiếng Việt.

Chúng tôi chỉ giữ phương pháp luận. Bộ dữ liệu, taxonomy, và xử lý trường hợp đặc biệt thuộc về bạn theo hợp đồng.

Định dạng đầu ra · JSONL · Parquet · HuggingFace Datasets · tuỳ chỉnh

QCuộc kiểm tra diễn ra ở đâu?

AHà Nội

cite · VTV24 · 03:18

Expert AExpert B

tinh-loc-vi0.94VALIDATED

baseline-mux0.71DISPUTED

Cấp 3

Benchmark đánh giá

Cấp 2 cộng thêm xác thực bởi các chuyên gia tiếng Việt độc lập theo lĩnh vực. Cặp hỏi-đáp có nguồn gốc rõ ràng với chuỗi trích dẫn đầy đủ. Nội dung lịch sử gây tranh cãi được hai chuyên gia kiểm tra chéo.

Dành cho đánh giá LLM, công bố benchmark, và bất kỳ tình huống nào mà chi phí của một câu trả lời chưa xác thực là cao.

Định dạng đầu ra · JSONL · định dạng harness đánh giá tuỳ chỉnh