DP-203T00-A: Data Engineering on Microsoft Azure
Tổng quan
Thời lượng: 4.0 ngày
Trong khóa đào tạo này, học viên sẽ tìm hiểu về các mẫu và thực hành kỹ thuật dữ liệu liên quan đến việc làm việc với các giải pháp phân tích hàng loạt và thời gian thực bằng cách sử dụng các công nghệ nền tảng dữ liệu Azure. Học viên sẽ bắt đầu bằng cách hiểu các công nghệ máy tính và lưu trữ cốt lõi được sử dụng để xây dựng một giải pháp phân tích.
Sau đó, họ sẽ khám phá cách thiết kế các lớp phục vụ phân tích và tập trung vào các phương pháp về kỹ thuật dữ liệu để làm việc với các tệp nguồn. Học viên sẽ học cách tương tác khám phá dữ liệu được lưu trữ trong các tệp. Và tìm hiểu các kỹ thuật nhập khác nhau có thể được sử dụng để tải dữ liệu bằng tính năng Apache Spark được tìm thấy trong Azure Synapse Analytics hoặc Azure Databricks hoặc cách nhập sử dụng các pipeline trong Azure Data Factory hoặc Azure Synapse.
Các học viên cũng sẽ học các cách khác nhau mà họ có thể chuyển đổi dữ liệu bằng cách sử dụng công nghệ tương tự được sử dụng để nhập dữ liệu. Học viên sẽ dành thời gian trong khóa học để học cách giám sát và phân tích hiệu suất của hệ thống phân tích để họ có thể tối ưu hóa hiệu suất tải dữ liệu hoặc các truy vấn được đưa ra đối với hệ thống. Họ sẽ hiểu tầm quan trọng của việc triển khai bảo mật để đảm bảo rằng dữ liệu được bảo vệ ở trạng thái nghỉ hoặc khi đang chuyển. Sau đó, học viên sẽ chỉ ra cách dữ liệu trong hệ thống phân tích có thể được sử dụng để tạo trang tổng quan hoặc xây dựng các mô hình dự đoán trong Azure Synapse Analytics.
Mục tiêu khóa học
-
Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu trong Azure
-
Thiết kế và triển khai lớp phục vụ
-
Hiểu các cân nhắc về kỹ thuật dữ liệu
-
Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ
-
Khám phá, chuyển đổi và tải dữ liệu vào Data Warehouse bằng Apache Spark
-
Thực hiện thăm dò và chuyển đổi dữ liệu trong Azure Databricks
-
Nhập và tải dữ liệu vào Kdata lake chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines
-
Tích hợp dữ liệu từ Notebook với Azure Data Factory hoặc Azure Synapse Pipelines
-
Tối ưu hóa hiệu suất truy vấn với các bể chứa SQL chuyên dụng trong Azure Synapse
-
Phân tích và tối ưu hóa lưu trữ kdata lake Hỗ trợ xử lý phân tích giao dịch kết hợp (HTAP) với liên kết Azure Synapse
-
Thực hiện bảo mật end-to-end với Azure Synapse Analytics
-
Thực hiện Xử lý luồng theo thời gian thực với Phân tích luồng
-
Tạo giải pháp xử lý luồng với Trung tâm sự kiện và Cơ sở dữ liệu Azure
-
Tạo báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics
-
Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics
Nội dung khóa học
Mô-đun 1: Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu
Mô-đun này cung cấp tổng quan về các tùy chọn công nghệ máy tính và lưu trữ Azure có sẵn cho các kỹ sư dữ liệu xây dựng khối lượng công việc phân tích. Mô-đun này dạy các cách cấu trúc data lake và tối ưu hóa các tệp. Học viên sẽ học cách tổ chức data lake thành các cấp độ tinh chỉnh dữ liệu khi họ chuyển đổi tệp thông qua xử lý hàng loạt và luồng. Sau đó, họ sẽ học cách tạo chỉ mục trên tập dữ liệu của họ, chẳng hạn như tệp CSV, JSON và Parquet, đồng thời sử dụng chúng để truy vấn tiềm năng và tăng tốc khối lượng công việc.
Những bài học
- Giới thiệu về Azure Synapse Analytics
- Mô tả Azure Databricks
- Giới thiệu về lưu trữ Azure Data Lake
- Mô tả kiến trúc Hồ Delta
- Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics
Lab: Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu
- Kết hợp streaming và xử lý hàng loạt với một đường dẫn duy nhất
- Tổ chức data lake thành các cấp độ chuyển đổi tệp
- Lập chỉ mục lưu trữ data lake để truy vấn và tăng tốc khối lượng công việc
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Mô tả Azure Synapse Analytics
- Mô tả Azure Databricks
- Mô tả bộ nhớ Azure Data Lake
- Mô tả kiến trúc Delta Lake
- Mô tả phân tích luồng Azure
Mô-đun 2: Thiết kế và triển khai lớp phục vụ
Mô-đun này dạy cách thiết kế và triển khai data lake trong data lake hiện đại để tối ưu hóa khối lượng công việc phân tích. Học viên sẽ học cách thiết kế một lược đồ đa chiều để lưu trữ dữ liệu thực tế và dữ liệu thứ nguyên. Sau đó, học viên sẽ học cách điền các kích thước thay đổi từ từ thông qua tải dữ liệu gia tăng từ Azure Data Factory.
Những bài học
- Thiết kế một lược đồ đa chiều để tối ưu hóa khối lượng công việc phân tích
- Chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory
- Điền các thứ nguyên thay đổi chậm trong đường ống Azure Synapse Analytics
Lab: Thiết kế và triển khai Serving Layer
- Thiết kế giản đồ hình sao cho khối lượng công việc phân tích
- Điền các thứ nguyên thay đổi chậm với Azure Data Factory và lập bản đồ luồng dữ liệu
Sau khi hoàn thành học phần này, học viên sẽ có thể:
Thiết kế giản đồ hình sao cho khối lượng công việc phân tích
Mô-đun 3: Cân nhắc về kỹ thuật dữ liệu cho các tệp nguồn
Mô-đun này khám phá các cân nhắc về kỹ thuật dữ liệu thường gặp khi tải dữ liệu vào kho dữ liệu hiện đại, phân tích từ các tệp được lưu trữ trong Azure Data Lake và hiểu được việc cân nhắc bảo mật liên quan đến việc lưu trữ các tệp được lưu trữ trong data lake.
Những bài học
- Thiết kế Kho dữ liệu hiện đại bằng Azure Synapse Analytics
- Bảo mật kho dữ liệu trong Azure Synapse Analytics
Lab: Cân nhắc về kỹ thuật dữ liệu
- Quản lý tệp trong data lake Azure
- Bảo mật các tệp được lưu trữ trong data lake Azure
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Thiết kế Kho dữ liệu hiện đại bằng Azure Synapse Analytics
- Bảo mật kho dữ liệu trong Azure Synapse Analytics
Mô-đun 4: Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse Analytics
Trong học phần này, học viên sẽ học cách làm việc với các tệp được lưu trữ trong data lake và các nguồn tệp bên ngoài, thông qua các câu lệnh T-SQL được thực thi bởi một nhóm SQL không máy chủ trong Azure Synapse Analytics. Học viên sẽ truy vấn các tệp Parquet được lưu trữ trong một data lake, cũng như các tệp CSV được lưu trữ trong một kho dữ liệu bên ngoài. Tiếp theo, họ sẽ tạo các nhóm bảo mật Azure Active Directory và thực thi quyền truy cập vào các tệp trong data lake thông qua Kiểm soát truy cập dựa trên vai trò (RBAC) và Danh sách kiểm soát truy cập (ACL).
Những bài học
- Khám phá các khả năng của nhóm SQL không máy chủ của Azure Synapse
- Truy vấn dữ liệu trong hồ bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse
- Tạo đối tượng siêu dữ liệu trong nhóm SQL không máy chủ của Azure Synapse
- Bảo mật dữ liệu và quản lý người dùng trong nhóm SQL không máy chủ của Azure Synapse
Lab: Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ
- Truy vấn dữ liệu Parquet với các nhóm SQL không có máy chủ Tạo các bảng bên ngoài cho các tệp Parquet và CSV
- Tạo chế độ xem với nhóm SQL không máy chủ
- Truy cập an toàn vào dữ liệu trong một data lake khi sử dụng các nhóm SQL không máy chủ
- Định cấu hình bảo mật data lake bằng Kiểm soát truy cập dựa trên vai trò (RBAC) và Danh sách kiểm soát truy cập
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Hiểu các khả năng của nhóm SQL không máy chủ của Azure Synapse
- Truy vấn dữ liệu trong hồ bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse
- Tạo đối tượng siêu dữ liệu trong nhóm SQL không máy chủ của Azure Synapse
- Bảo mật dữ liệu và quản lý người dùng trong nhóm SQL không máy chủ của Azure Synapse
Mô-đun 5: Khám phá, chuyển đổi và tải dữ liệu vào Kho dữ liệu bằng Apache Spark
Mô-đun này dạy cách khám phá dữ liệu được lưu trữ trong data lake, chuyển đổi dữ liệu và tải dữ liệu vào kho lưu trữ dữ liệu quan hệ. Học viên sẽ khám phá các tệp Parquet và JSON và sử dụng các kỹ thuật để truy vấn và chuyển đổi tệp JSON với cấu trúc phân cấp. Sau đó học viên sẽ sử dụng Apache Spark để tải dữ liệu vào kho dữ liệu và nối dữ liệu Parquet trong data lake với dữ liệu trong SQL pool chuyên dụng.
Những bài học
- Hiểu kỹ thuật dữ liệu lớn với Apache Spark trong Azure Synapse Analytics
- Nhập dữ liệu bằng sổ ghi chép Apache Spark trong Azure Synapse Analytics
- Chuyển đổi dữ liệu với DataFrames trong Apache Spark Pools trong Azure Synapse Analytics
- Tích hợp các nhóm SQL và Apache Spark trong Azure Synapse Analytics
Lab: Khám phá, chuyển đổi và tải dữ liệu vào Kho dữ liệu bằng Apache Spark
- Thực hiện khám phá dữ liệu trong Synapse Studio
- Nhập dữ liệu bằng sổ ghi chép Spark trong Azure Synapse Analytics
- Chuyển đổi dữ liệu với DataFrames trong nhóm Spark trong Azure Synapse Analytics
- Tích hợp các nhóm SQL và Spark trong Azure Synapse Analytics
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Mô tả kỹ thuật dữ liệu lớn với Apache Spark trong Azure Synapse Analytics
- Nhập dữ liệu bằng sổ ghi chép Apache Spark trong Azure Synapse Analytics
- Chuyển đổi dữ liệu với DataFrames trong Apache Spark Pools trong Azure Synapse Analytics
- Tích hợp các nhóm SQL và Apache Spark trong Azure Synapse Analytics
Mô-đun 6: Khám phá và chuyển đổi dữ liệu trong Azure Databricks
Mô-đun này dạy cách sử dụng các phương pháp Apache Spark DataFrame khác nhau để khám phá và chuyển đổi dữ liệu trong Azure Databricks. Học viên sẽ học cách thực hiện các phương pháp DataFrame tiêu chuẩn để khám phá và chuyển đổi dữ liệu. Họ cũng sẽ học cách thực hiện các tác vụ nâng cao hơn, chẳng hạn như xóa dữ liệu trùng lặp, thao tác các giá trị ngày / giờ, đổi tên cột và tổng hợp dữ liệu.
Những bài học
- Mô tả Azure Databricks
- Đọc và ghi dữ liệu trong Azure Databricks
- Làm việc với DataFrames trong Azure Databricks
- Làm việc với các phương pháp nâng cao của DataFrames trong Azure Databricks
Lab: Khám phá và chuyển đổi dữ liệu trong Azure Databricks
- Sử dụng DataFrames trong Azure Databricks để khám phá và lọc dữ liệu
- Lưu vào bộ nhớ cache một DataFrame để có các truy vấn tiếp theo nhanh hơn
- Xóa dữ liệu trùng lặp
- Thao tác các giá trị ngày / giờ
- Xóa và đổi tên các cột DataFrame
- Tổng hợp dữ liệu được lưu trữ trong DataFrame
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Mô tả Azure Databricks
- Đọc và ghi dữ liệu trong Azure Databricks
- Làm việc với DataFrames trong Azure Databricks
- Làm việc với các phương pháp nâng cao của DataFrames trong Azure Databricks
Mô-đun 7: Nhập và tải dữ liệu vào kho dữ liệu
Mô-đun này dạy học viên cách nhập dữ liệu vào kho dữ liệu thông qua các tập lệnh T-SQL và pipeline tích hợp Synapse Analytics. Học viên sẽ học cách tải dữ liệu vào các nhóm SQL chuyên dụng của Synapse với PolyBase và COPY bằng T-SQL. Học viên cũng sẽ học cách sử dụng quản lý khối lượng công việc cùng với hoạt động Sao chép trong đường dẫn Azure Synapse để nhập dữ liệu quy mô petabyte.
Những bài học
- Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics
- Nhập quy mô Petabyte với Azure Data Factory
Lab: Nhập và tải Dữ liệu vào Kho dữ liệu
- Thực hiện nhập quy mô petabyte với Azure Synapse Pipelines
- Nhập dữ liệu với PolyBase và COPY bằng T-SQL
- Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics
- Nhập quy mô Petabyte với Azure Data Factory
Mô-đun 8: Chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines
Mô-đun này hướng dẫn học viên cách xây dựng các pipeline tích hợp dữ liệu để nhập từ nhiều nguồn dữ liệu, chuyển đổi dữ liệu bằng cách sử dụng luồng dữ liệu và thực hiện chuyển dữ liệu vào một hoặc nhiều ổ chứa dữ liệu.
Những bài học
- Tích hợp dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines
- Chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory hoặc Azure Synapse Pipelines
Lab: Chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines
- Thực hiện các chuyển đổi không cần mã trên quy mô lớn với Azure Synapse Pipelines
- Tạo đường dẫn dữ liệu để nhập các tệp CSV có định dạng kém
- Tạo luồng dữ liệu ánh xạ
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Thực hiện tích hợp dữ liệu với Azure Data Factory
- Thực hiện chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory
Mô-đun 9: Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines
Trong mô-đun này, bạn sẽ học cách tạo các dịch vụ được liên kết và sắp xếp việc di chuyển và chuyển đổi dữ liệu bằng cách sử dụng sổ ghi chép trong Azure Synapse Pipelines.
Những bài học
- Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Data Factory
Lab: Điều chỉnh chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines
- Tích hợp dữ liệu từ Notebook với Azure Data Factory hoặc Azure Synapse Pipelines
Sau khi hoàn thành học phần này, học viên sẽ có thể:
Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines
Mô-đun 10: Tối ưu hóa hiệu suất truy vấn với các nhóm SQL chuyên dụng trong Azure Synapse
Trong học phần này, học viên sẽ học các chiến lược để tối ưu hóa việc lưu trữ và xử lý dữ liệu khi sử dụng các nhóm SQL chuyên dụng trong Azure Synapse Analytics. Học viên sẽ biết cách sử dụng các tính năng của nhà phát triển, chẳng hạn như chức năng cửa sổ và HyperLogLog, sử dụng các phương pháp hay nhất về tải dữ liệu, tối ưu hóa và cải thiện hiệu suất truy vấn.
Những bài học
Lab: Tối ưu hóa Hiệu suất Truy vấn với Bộ phân tích SQL Chuyên dụng trong Azure Synapse
- Hiểu các tính năng dành cho nhà phát triển của Azure Synapse Analytics
- Tối ưu hóa hiệu suất truy vấn kho dữ liệu trong Azure Synapse Analytics
- Cải thiện hiệu suất truy vấn
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Tối ưu hóa hiệu suất truy vấn kho dữ liệu trong Azure Synapse Analytics
- Hiểu các tính năng dành cho nhà phát triển kho dữ liệu của Azure Synapse Analytics
Mô-đun 11: Phân tích và tối ưu hóa lưu trữ kho dữ liệu
Trong mô-đun này, học viên sẽ học cách phân tích sau đó tối ưu hóa việc lưu trữ dữ liệu của các nhóm SQL chuyên dụng của Azure Synapse. Học viên sẽ biết các kỹ thuật để hiểu cách sử dụng không gian bảng và chi tiết lưu trữ cửa hàng cột. Tiếp theo, học viên sẽ biết cách so sánh các yêu cầu lưu trữ giữa các bảng giống nhau sử dụng các kiểu dữ liệu khác nhau. Cuối cùng, học viên sẽ quan sát tác động của các khung nhìn cụ thể hóa khi được thực thi thay cho các truy vấn phức tạp và học cách tránh extensive logging bằng cách tối ưu hóa các thao tác xóa.
Những bài học
Phân tích và tối ưu hóa lưu trữ kho dữ liệu trong Azure Synapse Analytics
Lab: Phân tích và Tối ưu hóa Data Warehouse Storage
- Kiểm tra dữ liệu sai lệch và sử dụng dung lượng
- Hiểu thông tin chi tiết về bộ nhớ của cửa hàng theo cột
- Nghiên cứu tác động của quan điểm vật chất hóa
- Khám phá các quy tắc cho các hoạt động được ghi lại tối thiểu
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Phân tích và tối ưu hóa lưu trữ kho dữ liệu trong Azure Synapse Analytics
Mô-đun 12: Hỗ trợ xử lý phân tích giao dịch kết hợp (HTAP) với liên kết Azure Synapse
Trong học phần này, học viên sẽ tìm hiểu cách Azure Synapse Link cho phép kết nối liền mạch tài khoản Azure Cosmos DB với không gian làm việc Synapse. Học viên sẽ hiểu cách bật và cấu hình liên kết Synapse, sau đó là cách truy vấn kho phân tích Azure Cosmos DB bằng Apache Spark và SQL serverless.
Những bài học
- Thiết kế giao dịch kết hợp và xử lý phân tích bằng Azure Synapse Analytics
- Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
- Truy vấn Azure Cosmos DB với nhóm Apache Spark
- Truy vấn Azure Cosmos DB với nhóm SQL không máy chủ
Lab: Hỗ trợ Xử lý Phân tích Giao dịch Kết hợp (HTAP) với Liên kết Azure Synapse
- Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
- Truy vấn Azure Cosmos DB với Apache Spark cho Synapse Analytics
- Truy vấn Azure Cosmos DB với nhóm SQL không máy chủ cho Azure Synapse Analytics
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Thiết kế giao dịch kết hợp và xử lý phân tích bằng Azure Synapse Analytics
- Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
- Truy vấn Azure Cosmos DB với Apache Spark cho Azure Synapse Analytics
- Truy vấn Azure Cosmos DB với SQL serverless cho Azure Synapse Analytics
Mô-đun 13: Bảo mật end-to-end với Azure Synapse Analytics
Trong học phần này, học viên sẽ học cách bảo mật không gian làm việc Synapse Analytics và cơ sở hạ tầng hỗ trợ của nó. Học viên sẽ quan sát SQL Active Directory Admin, quản lý các quy tắc tường lửa IP, quản lý bí mật với Azure Key Vault và truy cập những bí mật đó thông qua các hoạt động đường ống và dịch vụ được liên kết với Key Vault. Học viên sẽ hiểu cách triển khai bảo mật cấp cột, bảo mật cấp hàng và che dữ liệu động khi sử dụng nhóm SQL chuyên dụng.
Những bài học
- Bảo mật kho dữ liệu trong Azure Synapse Analytics
- Định cấu hình và quản lý bí mật trong Azure Key Vault
- Triển khai các biện pháp kiểm soát tuân thủ đối với dữ liệu nhạy cảm
Lab: Bảo mật đầu cuối với Azure Synapse Analytics
- Cơ sở hạ tầng hỗ trợ Phân tích Synapse Azure an toàn
- Bảo mật không gian làm việc Azure Synapse Analytics và các dịch vụ được quản lý
- Dữ liệu không gian làm việc của Azure Synapse Analytics an toàn
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Bảo mật kho dữ liệu trong Azure Synapse Analytics
- Định cấu hình và quản lý bí mật trong Azure Key Vault
- Triển khai các biện pháp kiểm soát tuân thủ đối với dữ liệu nhạy cảm
Mô-đun 14: Xử lý luồng theo thời gian thực với Phân tích luồng
Trong học phần này, học viên sẽ học cách xử lý dữ liệu phát trực tuyến với Azure Stream Analytics. Học viên sẽ nhập dữ liệu đo từ xa của xe vào Event Hubs, sau đó xử lý dữ liệu đó trong thời gian thực, sử dụng các chức năng cửa sổ khác nhau trong Azure Stream Analytics. Họ sẽ xuất dữ liệu sang Azure Synapse Analytics. Cuối cùng, học viên sẽ học cách mở rộng quy mô công việc Stream Analytics để tăng thông lượng.
Những bài học
- Bật tính năng nhắn tin đáng tin cậy cho các ứng dụng Dữ liệu lớn bằng Azure Event Hubs
- Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics
- Nhập luồng dữ liệu bằng Azure Stream Analytics
Lab: Xử lý luồng theo thời gian thực với Stream Analytics
- Sử dụng Phân tích luồng để xử lý dữ liệu thời gian thực từ Event Hubs
- Sử dụng các chức năng cửa sổ của Stream Analytics để tạo tổng hợp và xuất ra Synapse Analytics
- Mở rộng quy mô công việc Azure Stream Analytics để tăng thông lượng thông qua phân vùng
- Phân vùng lại đầu vào luồng để tối ưu hóa song song
Sau khi hoàn thành học phần này, học viên sẽ có thể:
- Bật tính năng nhắn tin đáng tin cậy cho các ứng dụng Dữ liệu lớn bằng Azure Event Hubs
- Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics
- Nhập luồng dữ liệu bằng Azure Stream Analytics
Mô-đun 15: Tạo giải pháp xử lý luồng với Event Hubs và Azure Databricks
Trong mô-đun này, học viên sẽ học cách nhập và xử lý dữ liệu phát trực tuyến trên quy mô lớn với Event Hubs và Spark Structured Streaming trong Azure Databricks. Học viên sẽ tìm hiểu các tính năng chính và cách sử dụng của Structured Streaming. Học viên sẽ thực hiện các cửa sổ trượt để tổng hợp nhiều phần dữ liệu và áp dụng kỹ thuật đánh dấu nước để loại bỏ dữ liệu cũ. Cuối cùng, học viên sẽ kết nối với các Event Hubs để đọc và ghi các luồng.
Những bài học
- Xử lý dữ liệu phát trực tuyến với tính năng phát trực tuyến có cấu trúc Azure Databricks
Lab: Tạo Giải pháp xử lý luồng với Event Hubs và Azure Databricks
- Khám phá các tính năng chính và cách sử dụng của Structured Streaming
- Truyền dữ liệu từ tệp và ghi ra hệ thống tệp phân tán
- Sử dụng cửa sổ trượt để tổng hợp nhiều phần dữ liệu thay vì tất cả dữ liệu
- Áp dụng watermarking để xóa dữ liệu cũ
- Kết nối với các luồng đọc và ghi sự kiện của Event Hubs
Sau khi hoàn thành học phần này, học viên sẽ có thể:
Xử lý dữ liệu phát trực tuyến với tính năng phát trực tuyến có cấu trúc Azure Databricks
Mô-đun 16: Xây dựng báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics
Trong mô-đun này, học viên sẽ học cách tích hợp Power BI với không gian làm việc Synapse của họ để xây dựng báo cáo trong Power BI. Học viên sẽ tạo một nguồn dữ liệu mới và báo cáo Power BI trong Synapse Studio. Sau đó, học viên sẽ học cách cải thiện hiệu suất truy vấn với các chế độ xem cụ thể hóa và bộ nhớ đệm tập hợp kết quả. Cuối cùng, học viên sẽ khám phá data lake với các nhóm SQL không máy chủ và tạo trực quan hóa dữ liệu đó trong Power BI.
Những bài học
Tạo báo cáo với Power BI bằng cách sử dụng tích hợp của nó với Azure Synapse Analytics
Lab: Tạo báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics
- Tích hợp không gian làm việc Azure Synapse và Power BI
- Tối ưu hóa tích hợp với Power BI
- Cải thiện hiệu suất truy vấn với các chế độ xem cụ thể hóa và bộ nhớ đệm tập hợp kết quả
- Trực quan hóa dữ liệu với SQL serverless và tạo báo cáo Power BI
Sau khi hoàn thành học phần này, học viên sẽ có thể:
Tạo báo cáo với Power BI bằng cách sử dụng tích hợp của nó với Azure Synapse Analytics
Mô-đun 17: Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics
Mô-đun này khám phá trải nghiệm Azure Machine Learning và Azure Cognitive Services được tích hợp, end-to-end trong Azure Synapse Analytics. Bạn sẽ tìm hiểu cách kết nối không gian làm việc Azure Synapse Analytics với không gian làm việc Azure Machine Learning bằng Linked Service và sau đó kích hoạt thử nghiệm ML tự động sử dụng dữ liệu từ bảng Spark. Bạn cũng sẽ học cách sử dụng các mô hình được đào tạo từ Azure Machine Learning và Azure Cognitive Services để làm phong phú dữ liệu trong bảng tổng hợp SQL và sau đó cung cấp kết quả dự đoán bằng Power BI.
Những bài học
Sử dụng quy trình học máy được tích hợp trong Azure Synapse Analytics
Lab: Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics
- Tạo dịch vụ liên kết Azure Machine Learning
- Kích hoạt thử nghiệm ML tự động bằng cách sử dụng dữ liệu từ bảng Spark
- Làm phong phú dữ liệu bằng cách sử dụng các mô hình được đào tạo
- Cung cấp kết quả dự đoán bằng Power BI
Sau khi hoàn thành học phần này, học viên sẽ có thể:
Sử dụng quy trình học máy được tích hợp trong Azure Synapse Analytics
Đối tượng học viên
Đối tượng chính của khóa học này là các chuyên gia dữ liệu, kiến trúc sư dữ liệu và các chuyên gia kinh doanh thông minh muốn tìm hiểu về kỹ thuật dữ liệu và xây dựng các giải pháp phân tích bằng cách sử dụng các công nghệ nền tảng dữ liệu tồn tại trên Microsoft Azure. Đối tượng thứ hai của khóa học này là các nhà phân tích dữ liệu và các nhà khoa học dữ liệu, những người làm việc với các giải pháp phân tích được xây dựng trên Microsoft Azure.
Kiến thức khuyến nghị
Nên bắt đầu khóa học này với kiến thức về điện toán đám mây và các khái niệm dữ liệu cốt lõi và kinh nghiệm chuyên môn với các giải pháp dữ liệu.
Cụ thể hoàn thành:
- AZ-900 - Nguyên tắc cơ bản về Azure
- DP-900 - Nguyên tắc cơ bản về dữ liệu Microsoft Azure
Chứng chỉ
Microsoft Certified: Azure Data Engineer Associate
Lịch khai giảng
Form đăng ký
Các khóa đào tạo Microsoft khác
Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!
Bản quyền thuộc về Trainocate Việt Nam