Advanced Data Engineering with Databricks
Tổng quan khóa học
Khóa học DATB-ADE: Advanced Data Engineering with Databricks là chương trình đào tạo nâng cao dành cho Data Engineer, giúp học viên xây dựng, tối ưu và vận hành các pipeline dữ liệu hiện đại trên nền tảng Databricks Lakehouse.
Khóa học tập trung vào kiến trúc streaming, bảo mật dữ liệu, tối ưu hiệu năng hệ thống và tự động hóa triển khai CI/CD với Databricks Asset Bundles (DABs). Chương trình gồm 4 mô-đun chính, kéo dài 2 ngày theo hình thức ILT hoặc VILT.
Mục tiêu khóa học
Sau khi hoàn thành khóa học, học viên có thể:
-
Xây dựng và vận hành hệ thống streaming dữ liệu với Spark Structured Streaming và Delta Lake
-
Thiết kế và triển khai Lakeflow Declarative Pipelines cho xử lý dữ liệu hiện đại
-
Áp dụng các phương pháp đảm bảo an toàn, bảo mật và tuân thủ dữ liệu trên Databricks
-
Tối ưu hiệu năng xử lý dữ liệu với Spark UI, clustering, caching và kỹ thuật tối ưu truy vấn
-
Hiểu và xử lý các vấn đề hiệu năng như skew, shuffle, spill và serialization
-
Triển khai CI/CD cho data pipeline bằng Databricks Asset Bundles (DABs)
-
Tự động hóa deployment với GitHub Actions và công cụ DevOps hiện đại
Đối tượng học viên
Khóa học phù hợp với:
-
Data Engineer có kinh nghiệm muốn nâng cấp lên cấp độ nâng cao
-
Big Data Developer xây dựng hệ thống dữ liệu real-time hoặc hybrid
-
Kỹ sư nền tảng dữ liệu (Platform Engineer) làm việc với CI/CD và DevOps
-
Người xây dựng pipeline dữ liệu sử dụng Spark, Delta Lake và Lakehouse architecture
-
Kỹ sư dữ liệu chuyển đổi từ hệ thống batch sang streaming hoặc near real-time
-
Đội ngũ vận hành hệ thống dữ liệu quy mô lớn trên Databricks
Yêu cầu kiến thức
Học viên nên có:
-
Kinh nghiệm sử dụng Databricks Workspace (clusters, notebooks, repos)
-
Kỹ năng lập trình PySpark ở mức trung cấp
-
Hiểu biết về Delta Lake (table creation, incremental updates, versioning)
-
Kinh nghiệm xử lý dữ liệu từ nhiều định dạng và nguồn khác nhau
-
Biết thiết kế và vận hành Lakeflow Declarative Pipelines cơ bản
-
Hiểu Auto Loader và Change Data Feed (CDF)
-
Kiến thức Python ở mức trung cấp (hàm, class, package)
-
Hiểu cơ bản về Git và DevOps/CI/CD
-
Kiến thức về Spark, Delta Lake, Medallion Architecture và Unity Catalog
Nội dung đào tạo
Module 1: Streaming & Lakeflow Declarative Pipelines
-
Khái niệm Streaming Data
-
Spark Structured Streaming cơ bản
-
Đọc dữ liệu streaming từ Delta Lake
-
Windowing, watermark và aggregation theo thời gian
-
Streaming joins (tùy chọn)
-
Mô hình ingestion dữ liệu (Bronze layer)
-
Auto Loader và ingestion pipeline
-
Data quality enforcement với Expectations
-
Xử lý streaming ETL end-to-end
-
Thực hành streaming pipeline
Module 2: Data Privacy trên Databricks
-
Tuân thủ quy định và bảo mật dữ liệu
-
Kiểm toán và phân loại dữ liệu nhạy cảm
-
Isolation và quản trị dữ liệu trong Unity Catalog
-
Pseudonymization & Anonymization dữ liệu
-
Bảo vệ dữ liệu PII
-
Xử lý Change Data Feed (CDF)
-
Xóa và cập nhật dữ liệu an toàn
-
Thực hành bảo mật dữ liệu và CDF pipeline
Module 3: Tối ưu hiệu năng Databricks
-
Giới thiệu Spark UI và phân tích hiệu năng
-
Thiết kế dữ liệu nền tảng (data foundation)
-
Data skipping và liquid clustering
-
Xử lý skew, shuffle và spill
-
Tối ưu join và partitioning
-
Serialization optimization
-
UDF và tối ưu hóa tính toán
-
Lựa chọn cluster và instance types phù hợp
-
Thực hành tối ưu pipeline
Module 4: Tự động hóa triển khai với Databricks Asset Bundles (DABs)
-
Tổng quan DevOps và CI/CD
-
Giới thiệu Databricks Asset Bundles (DABs)
-
Deploy project Databricks bằng DABs
-
Sử dụng biến cấu hình và multi-environment deployment
-
Template DAB project
-
CI/CD pipeline với DABs
-
Tích hợp ML/Engineering workflows
-
Phát triển và test bằng VS Code
-
Tự động hóa với GitHub Actions
-
Best practices CI/CD cho Data Engineering
Lịch khai giảng
Form đăng ký
Các khóa đào tạo Databricks khác
Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!
Bản quyền thuộc về Trainocate Việt Nam
