CÔNG TY TNHH TRAINOCATE VIỆT NAM
Data Engineering with Databricks

Data Engineering with Databricks

Data Engineering with Databricks

Tổng quan khóa học

Khóa học DATB-ENG: Data Engineering with Databricks là chương trình nhập môn dành cho Data Engineer, giúp học viên xây dựng nền tảng vững chắc để thiết kế, triển khai và quản lý pipeline dữ liệu trên nền tảng Databricks Lakehouse.

 

Khóa học tập trung vào các kỹ năng cốt lõi như ingest dữ liệu, xây dựng pipeline, orchestration workload và quản trị dữ liệu với Unity Catalog. Chương trình gồm 4 mô-đun chính, kéo dài 2 ngày theo hình thức ILT hoặc VILT.

Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên có thể:

  • Hiểu và triển khai các phương pháp ingest dữ liệu với Lakeflow Connect

  • Xây dựng và vận hành workflow tự động bằng Lakeflow Jobs

  • Thiết kế data pipeline với Spark Declarative Pipelines (SDP)

  • Quản lý dữ liệu và bảo mật bằng Unity Catalog

  • Xử lý dữ liệu batch, incremental và streaming trong môi trường Lakehouse

  • Áp dụng Medallion Architecture trong thiết kế hệ thống dữ liệu

  • Chuẩn bị nền tảng cho chứng chỉ Associate Data Engineering Databricks

Đối tượng học viên

Khóa học phù hợp với:

  • Data Engineer và ETL/ELT Developer mới hoặc đang nâng cấp kỹ năng

  • Kỹ sư dữ liệu xây dựng pipeline trên nền tảng Databricks

  • Người làm việc với SQL, Python và hệ thống dữ liệu cloud

  • Chuyên viên vận hành dữ liệu muốn chuyển sang kiến trúc Lakehouse hiện đại

  • Kỹ sư dữ liệu cần kỹ năng orchestration, streaming và governance

  • Đội ngũ chuyển đổi từ hệ thống batch truyền thống sang real-time/hybrid data platform

Yêu cầu kiến thức

Học viên nên có:

  • Hiểu cơ bản về Databricks Workspace, Spark, Delta Lake, Unity Catalog

  • Kinh nghiệm xử lý dữ liệu với các định dạng như CSV, JSON, Parquet, TXT

  • Kỹ năng SQL và Python cơ bản đến trung cấp

  • Biết chạy code trong Databricks Notebook

  • Hiểu cơ bản về cloud computing (storage, VM, identity)

  • Kinh nghiệm làm việc với bảng dữ liệu, view và truy vấn SQL

  • Kiến thức cơ bản về PySpark và data transformation

Nội dung đào tạo

Module 1: Data Ingestion with Lakeflow Connect

  • Giới thiệu Data Engineering trên Databricks

  • Ingest dữ liệu từ cloud storage với Lakeflow Connect Standard Connector

  • Ingest dữ liệu enterprise với Managed Connectors

  • Các chiến lược ingest thay thế (CTAS, COPY INTO, Auto Loader, MERGE INTO)

  • Xử lý metadata trong Bronze tables

  • Quản lý dữ liệu không khớp schema (Rescued data column)

  • Xử lý dữ liệu JSON và semi-structured data

  • Giới thiệu Databricks Marketplace

  • Thực hành ingestion pipeline

 

Module 2: Deploy Workloads with Lakeflow Jobs

  • Tổng quan Data Engineering trên Databricks

  • Khái niệm Lakeflow Jobs

  • Tạo, cấu hình và lên lịch workflow

  • Orchestration data pipeline

  • Advanced job features (retry, dependency, monitoring)

  • Thực hành xây dựng workflow production

 

Module 3: Build Data Pipelines with Lakeflow Spark Declarative Pipelines

  • Giới thiệu Spark Declarative Pipelines (SDP)

  • Incremental batch và streaming pipeline

  • Streaming tables, materialized views và temporary views

  • Thiết kế ETL pipeline với SQL/Python

  • Dependency graph trong pipeline

  • Data quality expectations và validation

  • Cấu hình compute và trigger mode

  • Change Data Capture (CDC) với AUTO CDC INTO

  • Quản lý SCD Type 1 & Type 2

  • Monitoring và event logging pipeline

  • Thực hành xây dựng pipeline end-to-end

 

Module 4: Data Management & Governance with Unity Catalog

  • Tổng quan Data Governance

  • Kiến trúc Unity Catalog

  • Quản trị metadata và metastore

  • Security & access control

  • Phân quyền và privilege management

  • Fine-grained access control

  • Data segregation và compliance

  • Databricks Marketplace overview

  • Migration dữ liệu sang Unity Catalog

  • Thực hành quản trị và kiểm soát truy cập dữ liệu

Lịch khai giảng

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách quyền riêng tư

Các khóa đào tạo Databricks khác

Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!

Bản quyền thuộc về Trainocate Việt Nam

back to top
icon đăng ký