Âm thanh, video, và kho phát thanh tiếng Việt được phiên âm, phân đoạn cảnh, và gắn nhãn metadata phục vụ truy xuất. Dấu thanh do người chú thích bản ngữ Việt hiệu chỉnh. CER pilot dưới ba phần trăm trên nội dung tin tức trước khi có hiệu chỉnh thủ công.
Dành cho lập chỉ mục thư viện, tìm kiếm nội bộ, và bất kỳ ứng dụng nào cần tài liệu gốc đã được cấu trúc nhưng chưa bổ sung thêm.
Định dạng đầu ra · JSONL · SRT · VTT · Parquet
…bản tin chưa đượcphân loại …vùngngày phát sóng?…trùng lặp dữ liệuVTV VOV ???
→
VTV24ORG đưa tin tại Nha TrangGEO ngày 14·03·2026DATE
topic
public-health
region
South-Central
rag_ready
true
Cấp 2
Bộ dữ liệu đào tạo LLM
Cấp 1 cộng thêm thực thể có cấu trúc, phân loại chủ đề, và đoạn văn sẵn sàng cho RAG kèm metadata nguồn gốc. Tinh chỉnh cho pretraining và fine-tuning các mô hình ngôn ngữ tiếng Việt.
Chúng tôi chỉ giữ phương pháp luận. Bộ dữ liệu, taxonomy, và xử lý trường hợp đặc biệt thuộc về bạn theo hợp đồng.
Định dạng đầu ra · JSONL · Parquet · HuggingFace Datasets · tuỳ chỉnh
QCuộc kiểm tra diễn ra ở đâu?
AHà Nội
cite · VTV24 · 03:18
Expert AExpert B
tinh-loc-vi0.94validated
baseline-mux0.71disputed
Cấp 3
Benchmark đánh giá
Cấp 2 cộng thêm xác thực bởi các chuyên gia tiếng Việt độc lập theo lĩnh vực. Cặp hỏi-đáp có nguồn gốc rõ ràng với chuỗi trích dẫn đầy đủ. Nội dung lịch sử gây tranh cãi được hai chuyên gia kiểm tra chéo.
Dành cho đánh giá LLM, công bố benchmark, và bất kỳ tình huống nào mà chi phí của một câu trả lời chưa xác thực là cao.
Định dạng đầu ra · JSONL · định dạng harness đánh giá tuỳ chỉnh