Bỏ qua tới nội dung

Cấp 1

Số hoá kho lưu trữ

Âm thanh, video, và kho phát thanh tiếng Việt được phiên âm, phân đoạn cảnh, và gắn nhãn metadata phục vụ truy xuất. Dấu thanh do người chú thích bản ngữ Việt hiệu chỉnh. CER pilot dưới ba phần trăm trên nội dung tin tức trước khi có hiệu chỉnh thủ công.

Dành cho lập chỉ mục thư viện, tìm kiếm nội bộ, và bất kỳ ứng dụng nào cần tài liệu gốc đã được cấu trúc nhưng chưa bổ sung thêm.

Định dạng đầu ra · JSONL · SRT · VTT · Parquet

Cấp 2

Bộ dữ liệu đào tạo LLM

Cấp 1 cộng thêm thực thể có cấu trúc, phân loại chủ đề, và đoạn văn sẵn sàng cho RAG kèm metadata nguồn gốc. Tinh chỉnh cho pretraining và fine-tuning các mô hình ngôn ngữ tiếng Việt.

Chúng tôi chỉ giữ phương pháp luận. Bộ dữ liệu, taxonomy, và xử lý trường hợp đặc biệt thuộc về bạn theo hợp đồng.

Định dạng đầu ra · JSONL · Parquet · HuggingFace Datasets · tuỳ chỉnh

Cấp 3

Benchmark đánh giá

Cấp 2 cộng thêm xác thực bởi các chuyên gia tiếng Việt độc lập theo lĩnh vực. Cặp hỏi-đáp có nguồn gốc rõ ràng với chuỗi trích dẫn đầy đủ. Nội dung lịch sử gây tranh cãi được hai chuyên gia kiểm tra chéo.

Dành cho đánh giá LLM, công bố benchmark, và bất kỳ tình huống nào mà chi phí của một câu trả lời chưa xác thực là cao.

Định dạng đầu ra · JSONL · định dạng harness đánh giá tuỳ chỉnh