Bỏ qua

Orchestration: Airflow vs Databricks Jobs vs Step Functions

🟡 Trung bình · Cloud / AWS


So sánh

Công cụ Đặc điểm Khi nào dùng
Apache Airflow DAG Python, linh hoạt, nhiều plugin Pipeline phức tạp, đa nguồn
Databricks Jobs Tích hợp sâu Databricks, dễ dùng Team đã dùng Databricks
AWS Step Functions Serverless, tích hợp AWS Workflow đơn giản trên AWS

Hiểu luồng là gì?

Orchestration = ghép các task lại thành một workflow có điều kiện rẽ nhánh. Ví dụ luồng cụ thể:

(1) Đọc log xem job đã chạy chưa?
    ├── (2a) Chưa chạy → Chạy job
    │       └── (3a) Ghi log "thành công"
    └── (2b) Đã chạy rồi → Ghi log "SKIPPED"
(4) Gửi mail thông báo nếu có lỗi

Điểm mấu chốt: Orchestrator quản lý dependency, retry, branching, alerting — không chỉ schedule đơn thuần.

Cách trả lời

"Em đã dùng [công cụ] để orchestrate pipeline. VD: một DAG gồm các task: (1) kiểm tra log xem đã chạy chưa → (2a) nếu chưa thì chạy job → (3a) ghi log thành công, (2b) nếu đã chạy rồi → ghi SKIPPED. Cuối cùng (4) gửi mail nếu có lỗi. Em set dependency giữa các task, cấu hình retry 3 lần."

Comments