Từ xaĐang tuyển

Kỹ sư Pipeline

Mở email của bạn với vị trí đã được điền sẵn.

AI Pipeline Engineer — Extraction Lead

Địa điểm: Từ xa Loại hợp đồng: Toàn thời gian, có cổ phần dành cho founding-team Báo cáo cho: CEO (technical) + Chief of Staff (operational)

Sứ mệnh của chúng tôi

Chúng tôi đang xây dựng hạ tầng dữ liệu AI giúp các mô hình ngôn ngữ tiếng Việt cạnh tranh đẳng cấp thế giới. Mỗi dataset chúng tôi giao cho khách hàng đều làm AI tiếng Việt mạnh hơn.

Chúng tôi tin rằng AI tiếng Việt xứng đáng có hạ tầng đẳng cấp thế giới — và xứng đáng được xây dựng bởi người Việt, cho người Việt. Chúng tôi muốn AI Việt Nam dẫn đầu, không phải đi theo các thị trường khác.

Tinh Lọc biến kho tài nguyên truyền thông Việt Nam (audio, video, tài liệu, phát sóng truyền hình — bao gồm cả tư liệu lịch sử và hiện đại) thành dữ liệu có cấu trúc, được xác minh, sẵn sàng huấn luyện mô hình. Mỗi dataset bàn giao đều mở rộng năng lực AI tiếng Việt cho toàn ngành.

Chúng tôi đã có khách hàng anchor với khối lượng công việc nhiều năm, và chúng tôi sẽ ra mắt vận hành trong vòng 30 ngày tới. Đây là cơ hội tham gia ở giai đoạn founding-team, không phải vào một công ty đã ổn định.

Vì sao vị trí này quan trọng

Bạn sở hữu Vietnamese extraction pipeline của chúng tôi end-to-end — stack ASR, OCR, speaker diarisation, và entity extraction biến raw audio, video, và tài liệu thành dữ liệu sạch, có cấu trúc, machine-readable. Nó chạy đầu tiên trong workflow, và mọi thứ sau nó đều phụ thuộc vào nó: annotator của chúng tôi review và sửa output của pipeline, nên first-pass accuracy càng cao thì mỗi dataset càng cần ít manual correction.

Điều này khiến đây là vai trò engineering có đòn bẩy cao nhất công ty. Accuracy của pipeline của bạn trực tiếp quyết định cost per processed hour of media (chi phí trên mỗi giờ media đã xử lý) và throughput tổng thể của chúng tôi — cải thiện pipeline thì cả operation nhanh hơn và rẻ hơn cùng một lúc. Bạn sở hữu hệ thống này hoàn toàn: bạn chọn model, design architecture, và ship to production.

Trong Năm 2, nếu execution đạt yêu cầu, bạn mở rộng vào data flywheel của chúng tôi — vòng lặp đưa các human corrections tích lũy quay ngược lại để huấn luyện các automated model tốt hơn (fine-tuning pipelines, evaluation harness, active learning). Đây là phần việc compound đơn vị kinh tế (unit economics) của chúng tôi theo thời gian.

Người chúng tôi đang tìm

Bạn là người:

Có 3-7 năm kinh nghiệm production ML hoặc production data engineering. Bạn đã ship những hệ thống thật chạy trong production — không chỉ notebooks, không chỉ research prototypes. Chúng tôi quan tâm chất lượng những gì bạn đã build và operate, không phải chức danh bạn từng giữ.
Hiểu rõ landscape Vietnamese ASR / OCR / NLP và có quan điểm dựa trên bằng chứng về nó. Speech và text tiếng Việt là một lĩnh vực riêng — các tool English-first generic thường kém hiệu quả trên chúng, và một loạt model Vietnamese-specific đã ra đời để giải quyết điều đó (ChunkFormer, PhoWhisper, Vintern, PaddleOCR, NomNaOCR cho Sino-Nôm, PhoBERT, GLiNER, và các model mới hơn). Bạn nắm landscape này, có quan điểm rõ ràng về việc mỗi lựa chọn phù hợp ở đâu, và — quan trọng nhất — bạn benchmark chứ không phỏng đoán. Bạn sẽ là người ra các quyết định chọn model: việc đánh giá và lựa chọn stack chính là công việc, không phải thứ chúng tôi đã quyết hộ bạn.
Đã build lớp LLM đúng cách. Ở quy mô hàng nghìn giờ media mỗi tháng, sự khác biệt giữa một LLM integration ngây thơ và một cái được engineer kỹ là sự khác biệt giữa một business khả thi và một business phá sản. Bạn tư duy theo per-task cost-routing, prompt-caching, vLLM batch inference, và batching — những cost differentiator của 2026 — và bạn có thể cụ thể về các trade-offs và con số.
Đam mê AI tiếng Việt một cách thực sự. Đây không phải vị trí cho người coi AI tiếng Việt là cơ hội nhanh để làm đẹp CV. Chúng tôi cần người tin rằng AI tiếng Việt phải xuất sắc, và sẵn sàng đầu tư 3-5 năm tiếp theo của sự nghiệp để giúp điều đó xảy ra. Bạn sẽ được hỏi cụ thể về điều này trong phỏng vấn.
Có thể demo một production system end-to-end. Bạn có thể dẫn chúng tôi qua một hệ thống ASR / OCR / document-understanding / NER thật mà bạn đã build — architecture, các metrics (WER / CER / F1), cái gì hỏng, và bạn fix thế nào. Lý thuyết là không đủ; chúng tôi cần practitioner đã ship thật.
Comfortable ở giai đoạn founding-team. Bạn comfortable với việc sở hữu một hệ thống không có scaffolding sẵn — bạn xây scaffolding. Bạn comfortable với việc stack tiến hóa khi AI tiếng Việt dịch chuyển (SOTA tháng 5/2026 sẽ đã thay đổi vào Q4 2026), và với việc ship theo deadline.

Điều chúng tôi KHÔNG tìm kiếm

Để tiết kiệm thời gian của bạn và của chúng tôi, đây là profile sẽ không phù hợp:

Người đề xuất generic stack (Whisper + Tesseract) mà không thừa nhận các tool Vietnamese-specific. Nếu bản năng đầu tiên của bạn với audio tiếng Việt là vanilla Whisper, bạn chưa làm bài — và bạn sẽ mất nhiều tháng học lại những gì cộng đồng AI Việt đã giải xong.
Người coi thường nguồn / cộng đồng tiếng Việt. "Reddit và HN là đủ" là sai cultural fit. Research AI tiếng Việt tốt nhất nằm trên Viblo, trong các paper VLSP, và trong các nhóm AI Việt. Bạn cần đọc nơi công việc thực sự diễn ra.
Người over-engineer. Nếu kế hoạch Day 1 của bạn là rebuild ChunkFormer from scratch, đây không phải vai trò. Chúng tôi ship trên nền các open và internal model tốt nhất, route thông minh, và cải thiện — chúng tôi không rebuild nền móng vì cái tôi.
Người quá academic để ship. Publication record mạnh nhưng chưa từng sở hữu một production system chạy ổn định dưới tải? Bạn sẽ tốt hơn ở một research lab. Chúng tôi cần hệ thống live, observable, và rẻ.
Người short-termist. Người coi AI tiếng Việt là cơ hội nhanh thay vì một ngành dài hạn sẽ không trụ qua các chu kỳ khách hàng 6-18 tháng. Chúng tôi muốn engineer muốn xây ngành này cho đường dài.

Bạn sẽ làm gì

2 tuần đầu

Đọc tài liệu chiến lược + technical (business plan, data flywheel doctrine, extraction-pipeline research + exec plan, decision log); 1-on-1 với CEO + Chief of Staff + co-founders
Set up dev environment và reproduce bench-test pipeline hiện có ở local trên một mẫu broadcast tiếng Việt thật
Benchmark các lựa chọn Vietnamese ASR hàng đầu (ChunkFormer, PhoWhisper, và các model mới hơn) và thiết lập phương pháp model-evaluation của bạn — cái gì đạt chuẩn, và vì sao

Đến Day 30 — sample batch end-to-end đầu tiên

Dựng extraction stack end-to-end — ASR, OCR (gồm cả một sub-layer Sino-Nôm / Hán-Nôm), speaker diarisation, và NER (ứng viên khởi đầu: Vintern-1B / PaddleOCR / NomNaOCR; pyannote / Sortformer; PhoBERT / GLiNER — bạn benchmark và quyết định)
Chạy sample batch end-to-end đầu tiên trên content thật — bằng chứng về throughput và chất lượng của bạn
Dựng lớp LLM (per-task cost-routing, prompt-caching, vLLM batch inference, batching) và chứng minh target cost-per-processed-hour

Day 30-90 — pilot + production

Giao full pilot batch đầu tiên cho khách hàng (~Day 60)
Ship production runbook + observability dashboard để pipeline chạy ổn định và accuracy đo được theo từng task
Chạy weekly sync với Annotation Programme Manager: output extraction của bạn là input của họ — interface quan trọng nhất trong công ty

6-12 tháng

Liên tục benchmark và thay thế các layer khi tool AI tiếng Việt mới ra mắt — sở hữu tính cập nhật của stack
Đẩy cost optimisation: GPU utilisation, chiến lược spot/preemptible, batching, cost per processed hour of media
Duy trì quan hệ với các model author và cộng đồng AI Việt (license negotiation, academic partnerships)

Năm 2 — flywheel infrastructure

Nếu execution đạt yêu cầu: mở rộng thành người sở hữu flywheel infrastructure
Build automated fine-tuning (SFT) pipeline biến corrections tích lũy thành pre-labellers cải tiến V1.x → V2.x
Build evaluation harness (per-task held-out benchmarks, regression prevention) và ML linters (diacritic / NER-consistency / dialect-normalisation checkers)
Build active learning system chọn content informative nhất để label tiếp — tối đa hóa information gain trên mỗi giờ labelling
Tuyển một Junior Pipeline Engineer khi layer scale

Compensation

Thành phần	Chi tiết
Cash base	$3,000-4,500 USD/tháng (71-107 triệu VND) — top of band dành cho ứng viên xuất sắc
Performance bonus	$500-1,000 USD/tháng, target-based
Cổ phần founding-level	Cổ phần founding-level đáng kể, được Vietnamese counsel soạn và convertible thành cổ phần thật khi/nếu pháp nhân được lập
Vesting	4 năm, cliff 1 năm (industry standard)
Benefits luật định	BHXH 17.5% + BHYT 3% + BHTN 1% (employer-side, đầy đủ theo luật Việt Nam)
Lương tháng 13	Standard, accrued throughout year
Thưởng Tết	Tối thiểu 1 tháng lương; có thể nhiều hơn dựa trên performance
Ngân sách hội nghị / học tập	$1,000-2,000/năm (VLSP, khóa học, sách)
Thiết bị	Laptop công ty cung cấp; ngân sách thiết bị remote work

Compute là tài nguyên của công ty, không phải lương cá nhân: bạn sẽ có GPU và ngân sách inference/token mà pipeline cần để đạt mục tiêu chi phí và throughput — do công ty cấp theo nhu cầu công việc.

Nice-to-haves

Tiếng Việt mẹ đẻ hoặc thành thạo
Quan hệ trực tiếp trong cộng đồng AI Việt (VinAI / VinBigData / FPT.AI / Viettel AI / Zalo AI / VietAI / 5CD-AI / Viblo authors)
Publication record tại VLSP / Interspeech / ICASSP về công việc Vietnamese-specific
Kinh nghiệm với academic partnerships (công việc Sino-Nôm / Hán-Nôm là mảng partnership giá trị cao)
Đã làm với long-tail languages (practitioner Indonesian, Khmer, Thai thường có instinct transferable)
Kinh nghiệm long-form document parsing (Marker, MinerU, Docling)

Cách ứng tuyển

Gửi qua email tới contact@coreywilton.org (hoặc qua advisor giới thiệu bạn đến vai trò này):

CV — ngắn gọn, focused vào production ML / data engineering experience
Một đoạn 200-400 từ (tiếng Việt hoặc tiếng Anh) trả lời 3 câu sau:
- Mô tả một model ASR / OCR / NLP cụ thể bạn đã build hoặc fine-tune cho một case low-resource hoặc messy-input — WER / CER / F1 của bạn, cái gì hỏng, và bạn fix thế nào.
- Với hàng nghìn giờ media mỗi tháng, bạn sẽ architect lớp LLM thế nào (routing / caching / batching) để kiểm soát chi phí mà không hy sinh accuracy? Cụ thể về các trade-offs và con số.
- Điều gì cụ thể khiến bạn hào hứng với việc biến truyền thông Việt thành dữ liệu sẵn sàng huấn luyện mô hình (so với một vai trò AI generic), và bài toán kỹ thuật khó nhất bạn dự đoán ở đây là gì?

Chúng tôi sẽ phản hồi trong vòng 5 ngày làm việc cho tất cả ứng viên có chất lượng. Phỏng vấn vòng 1 với CEO (60 phút, video). Vòng 2 với CEO + co-founder (90 phút, video). Offer extended trong vòng 7 ngày sau vòng 2 nếu phù hợp.