Bỏ qua tới nội dung
Từ xaĐang tuyển

Trưởng phòng Vận hành Dữ liệu

Ứng tuyển vị trí này

Mở email của bạn với vị trí đã được điền sẵn.

Trưởng Vận Hành Dữ Liệu — Việt Nam

Địa điểm: Từ xa Loại hợp đồng: Toàn thời gian, có cổ phần dành cho founding-team Báo cáo cho: CEO — và một co-founder người Việt phụ trách chiến lược vận hành tại Việt Nam

Sứ mệnh của chúng tôi

Chúng tôi đang xây dựng hạ tầng dữ liệu AI giúp các mô hình ngôn ngữ tiếng Việt cạnh tranh đẳng cấp thế giới. Mỗi dataset chúng tôi giao cho khách hàng đều làm AI tiếng Việt mạnh hơn.

Chúng tôi tin rằng AI tiếng Việt xứng đáng có hạ tầng đẳng cấp thế giới — và xứng đáng được xây dựng bởi người Việt, cho người Việt. Chúng tôi muốn AI Việt Nam dẫn đầu, không phải đi theo các thị trường khác.

Tinh Lọc biến kho tài nguyên truyền thông Việt Nam (audio, video, tài liệu, phát sóng truyền hình — bao gồm cả tư liệu lịch sử và hiện đại) thành dữ liệu có cấu trúc, được xác minh, sẵn sàng huấn luyện mô hình. Mỗi dataset bàn giao đều mở rộng năng lực AI tiếng Việt cho toàn ngành.

Chúng tôi đã có khách hàng anchor với khối lượng công việc nhiều năm, và chúng tôi sẽ ra mắt vận hành trong vòng 30 ngày tới. Đây là cơ hội tham gia ở giai đoạn founding-team, không phải vào một công ty đã ổn định.

Vì sao vị trí này quan trọng

Tại Tinh Lọc, vận hành CHÍNH LÀ sản phẩm — và data pipeline CHÍNH LÀ vận hành. Bạn sở hữu toàn bộ data operation end-to-end: từ raw content của khách hàng đến trong object storage, qua automated extraction → con người correction và structuring → expert evaluation và QA → structured deliverables giao ngược lại cho khách hàng. Mỗi stage chạy đúng hạn, đúng ngân sách, đúng chất lượng vì bạn đã xây dựng hạ tầng mà nó chạy trên đó.

Đây là xương sống vận hành (operational backbone) mà cả công ty đứng lên trên. Không có production infrastructure sẵn — bạn dựng nó lên. Không có SLAs — bạn thiết kế chúng. Không có incident runbook — bạn viết nó. Bạn xây dựng và sở hữu hạ tầng sản xuất mà phần còn lại của tổ chức vận hành bên trong — đây không phải vai trò hỗ trợ, đây là vai trò sở hữu.

Khi chúng tôi mở rộng từ một founding team nhỏ hiện tại lên 10-15 người trong Năm 1, bạn là người dẫn dắt cỗ máy data-operations của toàn bộ công ty. Quyết định của bạn về infrastructure, throughput, và cost discipline trực tiếp định hình kinh tế đơn vị (unit economics), chất lượng, và khả năng scale của Tinh Lọc. Trong 24-36 tháng, khi công ty mở rộng lên 25-50 người, bạn sở hữu throughput economics của một operation lớn gấp nhiều lần so với lúc bạn bắt đầu.

Bạn sở hữu gì

  • Toàn bộ data flow end-to-end — raw content vào → automated extraction → con người correction và structuring → QA → structured delivery giao ngược lại cho khách hàng. Một hệ thống kết nối, và nó là của bạn.
  • Production infrastructure — object storage, metadata database, Label Studio deployment, workflow orchestration, và observability.
  • Operational SLAs — turnaround per content-hour, accuracy targets, cost-per-processed-hour budgets — và incident response khi một stage gãy.
  • Cost discipline — GPU, storage egress, và annotator-hours được giữ ở mức dự đoán được khi volume tăng.
  • Delivery — datasets ship ra ở những format mà các mô hình thực sự tiêu thụ (JSONL, Parquet, HuggingFace Datasets, custom client formats).
  • Bức tranh vận hành hàng tuần — throughput, accuracy, cost, và queue depth, báo cáo cho CEO.

Người chúng tôi đang tìm

Bạn là người:

  • Có 3-6 năm kinh nghiệm trong data / infrastructure / platform engineering hoặc data-ops — với khát khao grow into toàn bộ scope của Data Operations Lead khi operation scale lên. Bạn đã build hoặc sở hữu các production systems nơi throughput, cost, và quality phải giữ vững cùng lúc. Chúng tôi quan tâm chất lượng của những gì bạn đã xây, không phải số năm kinh nghiệm hay chức danh. Chúng tôi muốn một người trẻ hơn, khát khao hơn, và sẵn sàng grow into vai trò này.

  • Sở hữu toàn bộ pipeline / data-flow end-to-end. Bạn đã đưa raw content vào ở một đầu và ship ra structured deliverables đã được xác minh ở đầu kia — và bạn sở hữu mọi stage ở giữa. Bạn có thể tư duy về ingest, pre-processing, human-in-the-loop correction, QA, và delivery như một hệ thống kết nối, không phải một tập hợp các tool rời rạc.

  • Có chiều sâu infrastructure thực sự. Object storage at scale (Backblaze B2 / Cloudflare R2), Postgres metadata DB với pgvector / Qdrant, Docker / Kubernetes, và một workflow orchestrator (Prefect / Dagster / Airflow — kỳ vọng ở cấp lead). AWS hoặc GCP. Bạn đã chạy Label Studio trong production, và bạn instrument những gì bạn chạy bằng observability dashboards (Metabase + Sentry).

  • Có cloud cost discipline thực sự. Bạn giữ GPU spend, storage egress (đặc biệt là video), và annotator-hours ở mức dự đoán được khi volume tăng lên. Bạn có thể nói chính xác bạn instrument cái gì và alert trên cái gì — cost với bạn là một metric hạng nhất, không phải suy nghĩ sau cùng.

  • Thiết kế operational SLAs và xử lý incident như một engineer. SLA frameworks (turnaround per content-hour theo từng stage, accuracy targets, cost-per-processed-hour budgets), on-call rotations, postmortems, và capacity planning là bản năng thứ hai của bạn. Khi một stage fail, bạn là escalation point — và bạn thay đổi hệ thống để nó không bao giờ fail theo cùng một cách hai lần.

  • Ship deliverables ở những format mà các mô hình thực sự tiêu thụ. JSONL, Parquet, HuggingFace Datasets, và các custom client formats.

  • Tiếng Việt thành thạo được ưu tiên mạnh. Workforce và supplier relationships của chúng tôi đều Vietnamese-native. Bạn sẽ làm việc với CEO (English-native) hàng ngày VÀ điều phối vận hành Việt Nam hàng ngày.

Điều chúng tôi KHÔNG tìm kiếm

Để tiết kiệm thời gian của bạn và của chúng tôi, đây là profile sẽ không phù hợp:

  • Người muốn build một custom annotation UI ngay Day 1. Đó là over-engineering. Label Studio trong production đưa bạn đến batch đầu tiên được ship; một tool tự xây đưa bạn đến một deadline bị trễ.
  • Người không thể diễn giải sự khác biệt giữa extraction và correction — giữa cái mà AI pre-processing tạo ra và cái mà con người correction và structuring bổ sung lên trên. Nếu sự phân biệt đó mờ nhạt, thì cả cost model lẫn QA model đều được xây trên cát.
  • Người chỉ từng vận hành operations bằng tiếng Anh và xem nhẹ sự tinh tế của workforce tiếng Việt. Workforce là Vietnamese-native; sự tinh tế đó chính là công việc, không phải một chú thích bên lề.
  • Một pure people-manager không có chiều sâu về infrastructure hay cost. Vai trò này nằm ở giao điểm của operations và engineering. Nếu bạn quản lý được con người nhưng không thể tư duy về GPU spend, storage egress, hay pipeline architecture, thì đây không phải chiếc ghế dành cho bạn.
  • Người cần một tổ chức đã ổn định với quy trình có sẵn. Đây là founding-team role. Không có quy trình mặc định — bạn thiết kế chúng. Nếu bạn cần job description ổn định và một operation đã được xây sẵn, đây không phải vai trò cho bạn.
  • Một senior director với 10+ năm kinh nghiệm cần một tổ chức đã ổn định và mức lương top-of-market. Bạn sẽ làm tốt hơn tại một công ty lớn hơn. Đây là vai trò founding-stage, build-from-zero, nơi bạn grow cùng công ty — không phải chiếc ghế cho người tối ưu cho chức danh và mức lương top-of-market ngay hôm nay.

Bạn sẽ làm gì

2 tuần đầu

  • Hấp thụ business plan, exec plan, và các tài liệu QA system; 1-on-1 với CEO + co-founder người Việt; tour qua bench-test pipeline hiện có cùng Pipeline / AI Engineer
  • Dựng production-grade infrastructure: object storage, Postgres metadata DB, Label Studio production deployment, Sentry, và initial Metabase dashboards
  • Định nghĩa các operational SLA đầu tiên — turnaround per content-hour, accuracy targets, và cost-per-processed-hour budget

Đến Day 30 — sample batch end-to-end đầu tiên

  • Vận hành sample batch end-to-end đầu tiên — và dẫn dắt incident response nếu có gì gãy
  • Dựng workforce-scheduling và load-balancing model qua các annotation tier
  • Với tư cách một trong các founding hire, khởi động các search cho Annotation Programme Manager và QA Lead cùng Chief of Staff và CEO — bạn đang xây dựng operation, nên bạn giúp chọn những người sẽ vận hành các layer của nó

Day 30-90 — pilot + production

  • Hỗ trợ việc giao full pilot batch đầu tiên cho khách hàng (~Day 60)
  • Onboard Annotation Programme Manager và QA Lead và wire các layer của họ vào data flow
  • Ship production runbook; thiết lập weekly operational dashboards (throughput, accuracy, cost, queue depth)

6-12 tháng

  • Sở hữu throughput economics — cost per processed hour of media, processed-hours-per-day, batch turnaround — khi operation scale lên 10-15 người
  • Harden infrastructure, observability, và on-call rotation cho production volume bền vững; giữ GPU, storage, và annotator-hour costs ở mức dự đoán được
  • Phát triển vendor + supplier network tại Việt Nam; khi operation scale dần lên 25-50 người, bạn sở hữu throughput economics của nó và kiến trúc mở rộng cho khách hàng thứ 2/3

Compensation

Thành phầnChi tiết
Cash base$2,200-3,200 USD/tháng (52-76 triệu VND) — mid-level founding hire grow into toàn bộ scope của lead
Performance bonusCó thể có performance bonus tùy theo quyết định của công ty (discretionary) — không có mức cố định
Cổ phần founding-levelCổ phần founding-level đáng kể, được Vietnamese counsel soạn và convertible thành cổ phần thật khi/nếu pháp nhân được lập
Vesting4 năm, cliff 1 năm (industry standard)
Benefits luật địnhBHXH 17.5% + BHYT 3% + BHTN 1% (employer-side, đầy đủ theo luật Việt Nam)
Lương tháng 13Standard, accrued throughout year
Thưởng TếtTối thiểu 1 tháng lương; có thể nhiều hơn dựa trên performance
Ngân sách học tập$1,000-2,000/năm cho khóa học, hội nghị, sách
Thiết bịLaptop công ty cung cấp; ngân sách thiết bị remote work

Cách ứng tuyển

Gửi qua email tới contact@coreywilton.org (hoặc qua advisor giới thiệu bạn đến vai trò này):

  1. CV — ngắn gọn, focused vào data-operations và infrastructure experience
  2. Một đoạn 200-400 từ (tiếng Việt hoặc tiếng Anh) trả lời 3 câu sau:
    • Hãy dẫn chúng tôi qua một data pipeline bạn đã sở hữu end-to-end — throughput của nó, SLA bạn giữ nó ở, incident tệ nhất bạn đã xử lý, và bạn đã thay đổi gì để nó không bao giờ tái diễn.
    • Cho object storage + Postgres + Kubernetes và một ngân sách cloud cố định, bạn giữ GPU, storage, và annotator-hour costs ở mức dự đoán được như thế nào khi volume tăng 5 lần? Bạn instrument và alert trên cái gì?
    • Với tư cách một founding hire xây dựng data-production operation: hệ thống đầu tiên bạn sẽ dựng trong tháng đầu là gì, và phần nào của scope bạn comfortable nhất — và ít comfortable nhất — khi sở hữu?

Chúng tôi sẽ phản hồi trong vòng 5 ngày làm việc cho tất cả ứng viên có chất lượng. Phỏng vấn vòng 1 với CEO (60 phút, video). Vòng 2 với CEO + co-founder người Việt (90 phút, video). Offer extended trong vòng 7 ngày sau vòng 2 nếu phù hợp.