Apache Spark Programming with Databricks
Tổng quan khóa học
Khóa học DATB-ASP: Apache Spark™ Programming with Databricks là chương trình nhập môn giúp học viên làm chủ lập trình Apache Spark trên nền tảng Databricks.
Khóa học cung cấp nền tảng về kiến trúc Spark phân tán, phát triển ứng dụng xử lý dữ liệu quy mô lớn, xây dựng pipeline ETL, xử lý dữ liệu streaming và tối ưu hiệu năng hệ thống. Học viên cũng được tiếp cận các khái niệm quan trọng như Delta Lake, Unity Catalog và Medallion Architecture.
Mục tiêu khóa học
Sau khi hoàn thành khóa học, học viên có thể:
-
Hiểu kiến trúc Apache Spark và mô hình xử lý dữ liệu phân tán
-
Sử dụng Spark DataFrame API để đọc, ghi và biến đổi dữ liệu
-
Xây dựng ETL pipeline trên Databricks
-
Thực hiện các phép xử lý dữ liệu nâng cao như join, aggregation và window functions
-
Xử lý dữ liệu phức hợp (arrays, maps, structs)
-
Phát triển ứng dụng streaming với Spark Structured Streaming
-
Tối ưu hiệu năng Spark jobs (partitioning, caching, query tuning)
-
Làm việc với Delta Lake và xây dựng pipeline ACID-compliant
-
Giám sát và xử lý sự cố trong môi trường Databricks
Đối tượng học viên
Khóa học phù hợp với:
-
Data Engineer, Big Data Developer và ETL Specialist
-
Người làm việc với dữ liệu lớn trong môi trường phân tán
-
Kỹ sư dữ liệu sử dụng Python và SQL để xử lý dữ liệu
-
Người muốn nâng cao kỹ năng Spark DataFrame, Spark SQL và streaming
-
Kỹ sư chuyển đổi từ hệ thống batch truyền thống sang Lakehouse architecture
-
Người có kinh nghiệm lập trình muốn học Spark trên Databricks
Yêu cầu kiến thức
Học viên nên có:
-
Kiến thức lập trình cơ bản
-
Hiểu biết về Python
-
Kiến thức SQL cơ bản (SELECT, JOIN, GROUP BY)
-
Hiểu các khái niệm xử lý dữ liệu cơ bản
-
Không yêu cầu kinh nghiệm trước với Spark hoặc Databricks
Nội dung đào tạo
Module 1: Giới thiệu Apache Spark
-
Kiến trúc Spark Runtime
-
Tổng quan Spark trên Databricks
-
Spark DataFrame và Spark SQL
-
Đọc và ghi dữ liệu bằng DataFrame
-
Nguyên lý lập trình hệ thống phân tán
-
Xây dựng ETL cơ bản với DataFrame API
-
Thực hành ETL dữ liệu chuyến bay
-
Phân tích dữ liệu giao dịch
Module 2: Phát triển ứng dụng với Apache Spark
-
Cơ bản DataFrame API
-
Grouping và Aggregation
-
Phép toán quan hệ (relational operations)
-
Xử lý dữ liệu phức hợp (complex data types)
-
Thực hành ETL dữ liệu e-commerce
-
Join và các phép xử lý nâng cao
Module 3: Stream Processing với Spark
-
Giới thiệu Stream Processing
-
Spark Structured Streaming
-
Đọc và xử lý dữ liệu streaming
-
Window aggregation và event time
-
Xử lý streaming nâng cao
-
Thực hành xây dựng streaming pipeline
Module 4: Giám sát và tối ưu Spark trên Databricks
-
Kiến trúc Spark trên Databricks
-
Làm việc với Delta Lake
-
Giới thiệu Delta Lake và ACID transactions
-
Tối ưu hiệu năng Spark jobs
-
Partitioning, caching và query optimization
-
Giám sát và troubleshooting Spark workloads
-
Thực hành tối ưu pipeline
Lịch khai giảng
Form đăng ký
Các khóa đào tạo Databricks khác
Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!
Bản quyền thuộc về Trainocate Việt Nam
