CÔNG TY TNHH TRAINOCATE VIỆT NAM
Apache Spark Programming with Databricks

Apache Spark Programming with Databricks

Apache Spark Programming with Databricks

Tổng quan khóa học

Khóa học DATB-ASP: Apache Spark™ Programming with Databricks là chương trình nhập môn giúp học viên làm chủ lập trình Apache Spark trên nền tảng Databricks.

 

Khóa học cung cấp nền tảng về kiến trúc Spark phân tán, phát triển ứng dụng xử lý dữ liệu quy mô lớn, xây dựng pipeline ETL, xử lý dữ liệu streaming và tối ưu hiệu năng hệ thống. Học viên cũng được tiếp cận các khái niệm quan trọng như Delta Lake, Unity Catalog và Medallion Architecture.

Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên có thể:

  • Hiểu kiến trúc Apache Spark và mô hình xử lý dữ liệu phân tán

  • Sử dụng Spark DataFrame API để đọc, ghi và biến đổi dữ liệu

  • Xây dựng ETL pipeline trên Databricks

  • Thực hiện các phép xử lý dữ liệu nâng cao như join, aggregation và window functions

  • Xử lý dữ liệu phức hợp (arrays, maps, structs)

  • Phát triển ứng dụng streaming với Spark Structured Streaming

  • Tối ưu hiệu năng Spark jobs (partitioning, caching, query tuning)

  • Làm việc với Delta Lake và xây dựng pipeline ACID-compliant

  • Giám sát và xử lý sự cố trong môi trường Databricks

Đối tượng học viên

Khóa học phù hợp với:

  • Data Engineer, Big Data Developer và ETL Specialist

  • Người làm việc với dữ liệu lớn trong môi trường phân tán

  • Kỹ sư dữ liệu sử dụng Python và SQL để xử lý dữ liệu

  • Người muốn nâng cao kỹ năng Spark DataFrame, Spark SQL và streaming

  • Kỹ sư chuyển đổi từ hệ thống batch truyền thống sang Lakehouse architecture

  • Người có kinh nghiệm lập trình muốn học Spark trên Databricks

Yêu cầu kiến thức

Học viên nên có:

  • Kiến thức lập trình cơ bản

  • Hiểu biết về Python

  • Kiến thức SQL cơ bản (SELECT, JOIN, GROUP BY)

  • Hiểu các khái niệm xử lý dữ liệu cơ bản

  • Không yêu cầu kinh nghiệm trước với Spark hoặc Databricks

Nội dung đào tạo

Module 1: Giới thiệu Apache Spark

  • Kiến trúc Spark Runtime

  • Tổng quan Spark trên Databricks

  • Spark DataFrame và Spark SQL

  • Đọc và ghi dữ liệu bằng DataFrame

  • Nguyên lý lập trình hệ thống phân tán

  • Xây dựng ETL cơ bản với DataFrame API

  • Thực hành ETL dữ liệu chuyến bay

  • Phân tích dữ liệu giao dịch

 

Module 2: Phát triển ứng dụng với Apache Spark

  • Cơ bản DataFrame API

  • Grouping và Aggregation

  • Phép toán quan hệ (relational operations)

  • Xử lý dữ liệu phức hợp (complex data types)

  • Thực hành ETL dữ liệu e-commerce

  • Join và các phép xử lý nâng cao

 

Module 3: Stream Processing với Spark

  • Giới thiệu Stream Processing

  • Spark Structured Streaming

  • Đọc và xử lý dữ liệu streaming

  • Window aggregation và event time

  • Xử lý streaming nâng cao

  • Thực hành xây dựng streaming pipeline

 

Module 4: Giám sát và tối ưu Spark trên Databricks

  • Kiến trúc Spark trên Databricks

  • Làm việc với Delta Lake

  • Giới thiệu Delta Lake và ACID transactions

  • Tối ưu hiệu năng Spark jobs

  • Partitioning, caching và query optimization

  • Giám sát và troubleshooting Spark workloads

  • Thực hành tối ưu pipeline

Lịch khai giảng

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách quyền riêng tư

Các khóa đào tạo Databricks khác

Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!

Bản quyền thuộc về Trainocate Việt Nam

back to top
icon đăng ký