Orchestration: Airflow vs Databricks Jobs vs Step Functions¶
🟡 Trung bình · Cloud / AWS
So sánh¶
| Công cụ | Đặc điểm | Khi nào dùng |
|---|---|---|
| Apache Airflow | DAG Python, linh hoạt, nhiều plugin | Pipeline phức tạp, đa nguồn |
| Databricks Jobs | Tích hợp sâu Databricks, dễ dùng | Team đã dùng Databricks |
| AWS Step Functions | Serverless, tích hợp AWS | Workflow đơn giản trên AWS |
Hiểu luồng là gì?¶
Orchestration = ghép các task lại thành một workflow có điều kiện rẽ nhánh. Ví dụ luồng cụ thể:
(1) Đọc log xem job đã chạy chưa?
├── (2a) Chưa chạy → Chạy job
│ └── (3a) Ghi log "thành công"
└── (2b) Đã chạy rồi → Ghi log "SKIPPED"
(4) Gửi mail thông báo nếu có lỗi
Điểm mấu chốt: Orchestrator quản lý dependency, retry, branching, alerting — không chỉ schedule đơn thuần.
Cách trả lời¶
"Em đã dùng [công cụ] để orchestrate pipeline. VD: một DAG gồm các task: (1) kiểm tra log xem đã chạy chưa → (2a) nếu chưa thì chạy job → (3a) ghi log thành công, (2b) nếu đã chạy rồi → ghi SKIPPED. Cuối cùng (4) gửi mail nếu có lỗi. Em set dependency giữa các task, cấu hình retry 3 lần."