Advanced Data Engineering with Databricks

Tổng quan khóa học

Khóa học DATB-ADE: Advanced Data Engineering with Databricks là chương trình đào tạo nâng cao dành cho Data Engineer, giúp học viên xây dựng, tối ưu và vận hành các pipeline dữ liệu hiện đại trên nền tảng Databricks Lakehouse.

Khóa học tập trung vào kiến trúc streaming, bảo mật dữ liệu, tối ưu hiệu năng hệ thống và tự động hóa triển khai CI/CD với Databricks Asset Bundles (DABs). Chương trình gồm 4 mô-đun chính, kéo dài 2 ngày theo hình thức ILT hoặc VILT.

Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên có thể:

Xây dựng và vận hành hệ thống streaming dữ liệu với Spark Structured Streaming và Delta Lake
Thiết kế và triển khai Lakeflow Declarative Pipelines cho xử lý dữ liệu hiện đại
Áp dụng các phương pháp đảm bảo an toàn, bảo mật và tuân thủ dữ liệu trên Databricks
Tối ưu hiệu năng xử lý dữ liệu với Spark UI, clustering, caching và kỹ thuật tối ưu truy vấn
Hiểu và xử lý các vấn đề hiệu năng như skew, shuffle, spill và serialization
Triển khai CI/CD cho data pipeline bằng Databricks Asset Bundles (DABs)
Tự động hóa deployment với GitHub Actions và công cụ DevOps hiện đại

Đối tượng học viên

Khóa học phù hợp với:

Data Engineer có kinh nghiệm muốn nâng cấp lên cấp độ nâng cao
Big Data Developer xây dựng hệ thống dữ liệu real-time hoặc hybrid
Kỹ sư nền tảng dữ liệu (Platform Engineer) làm việc với CI/CD và DevOps
Người xây dựng pipeline dữ liệu sử dụng Spark, Delta Lake và Lakehouse architecture
Kỹ sư dữ liệu chuyển đổi từ hệ thống batch sang streaming hoặc near real-time
Đội ngũ vận hành hệ thống dữ liệu quy mô lớn trên Databricks

Yêu cầu kiến thức

Học viên nên có:

Kinh nghiệm sử dụng Databricks Workspace (clusters, notebooks, repos)
Kỹ năng lập trình PySpark ở mức trung cấp
Hiểu biết về Delta Lake (table creation, incremental updates, versioning)
Kinh nghiệm xử lý dữ liệu từ nhiều định dạng và nguồn khác nhau
Biết thiết kế và vận hành Lakeflow Declarative Pipelines cơ bản
Hiểu Auto Loader và Change Data Feed (CDF)
Kiến thức Python ở mức trung cấp (hàm, class, package)
Hiểu cơ bản về Git và DevOps/CI/CD
Kiến thức về Spark, Delta Lake, Medallion Architecture và Unity Catalog

Nội dung đào tạo

Module 1: Streaming & Lakeflow Declarative Pipelines

Khái niệm Streaming Data
Spark Structured Streaming cơ bản
Đọc dữ liệu streaming từ Delta Lake
Windowing, watermark và aggregation theo thời gian
Streaming joins (tùy chọn)
Mô hình ingestion dữ liệu (Bronze layer)
Auto Loader và ingestion pipeline
Data quality enforcement với Expectations
Xử lý streaming ETL end-to-end
Thực hành streaming pipeline

Module 2: Data Privacy trên Databricks

Tuân thủ quy định và bảo mật dữ liệu
Kiểm toán và phân loại dữ liệu nhạy cảm
Isolation và quản trị dữ liệu trong Unity Catalog
Pseudonymization & Anonymization dữ liệu
Bảo vệ dữ liệu PII
Xử lý Change Data Feed (CDF)
Xóa và cập nhật dữ liệu an toàn
Thực hành bảo mật dữ liệu và CDF pipeline

Module 3: Tối ưu hiệu năng Databricks

Giới thiệu Spark UI và phân tích hiệu năng
Thiết kế dữ liệu nền tảng (data foundation)
Data skipping và liquid clustering
Xử lý skew, shuffle và spill
Tối ưu join và partitioning
Serialization optimization
UDF và tối ưu hóa tính toán
Lựa chọn cluster và instance types phù hợp
Thực hành tối ưu pipeline

Module 4: Tự động hóa triển khai với Databricks Asset Bundles (DABs)

Tổng quan DevOps và CI/CD
Giới thiệu Databricks Asset Bundles (DABs)
Deploy project Databricks bằng DABs
Sử dụng biến cấu hình và multi-environment deployment
Template DAB project
CI/CD pipeline với DABs
Tích hợp ML/Engineering workflows
Phát triển và test bằng VS Code
Tự động hóa với GitHub Actions
Best practices CI/CD cho Data Engineering

Lịch khai giảng

Tên khóa học

Thời gian

Lịch dự kiến

Hình thức

Học phí

ĐĂNG KÝ

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách quyền riêng tư

Các khóa đào tạo Databricks khác