CÔNG TY TNHH TRAINOCATE VIỆT NAM
DP-203T00-A: Data Engineering on Microsoft Azure

DP-203T00-A: Data Engineering on Microsoft Azure

DP-203T00-A: Data Engineering on Microsoft Azure

Tổng quan

Thời lượng: 4.0 ngày

Trong khóa đào tạo này, học viên sẽ tìm hiểu về các mẫu và thực hành kỹ thuật dữ liệu liên quan đến việc làm việc với các giải pháp phân tích hàng loạt và thời gian thực bằng cách sử dụng các công nghệ nền tảng dữ liệu Azure. Học viên sẽ bắt đầu bằng cách hiểu các công nghệ máy tính và lưu trữ cốt lõi được sử dụng để xây dựng một giải pháp phân tích.

Sau đó, họ sẽ khám phá cách thiết kế các lớp phục vụ phân tích và tập trung vào các phương pháp về kỹ thuật dữ liệu để làm việc với các tệp nguồn. Học viên sẽ học cách tương tác khám phá dữ liệu được lưu trữ trong các tệp. Và tìm hiểu các kỹ thuật nhập khác nhau có thể được sử dụng để tải dữ liệu bằng tính năng Apache Spark được tìm thấy trong Azure Synapse Analytics hoặc Azure Databricks hoặc cách nhập sử dụng các pipeline trong Azure Data Factory hoặc Azure Synapse.

Các học viên cũng sẽ học các cách khác nhau mà họ có thể chuyển đổi dữ liệu bằng cách sử dụng công nghệ tương tự được sử dụng để nhập dữ liệu. Học viên sẽ dành thời gian trong khóa học để học cách giám sát và phân tích hiệu suất của hệ thống phân tích để họ có thể tối ưu hóa hiệu suất tải dữ liệu hoặc các truy vấn được đưa ra đối với hệ thống. Họ sẽ hiểu tầm quan trọng của việc triển khai bảo mật để đảm bảo rằng dữ liệu được bảo vệ ở trạng thái nghỉ hoặc khi đang chuyển. Sau đó, học viên sẽ chỉ ra cách dữ liệu trong hệ thống phân tích có thể được sử dụng để tạo trang tổng quan hoặc xây dựng các mô hình dự đoán trong Azure Synapse Analytics.

 

Mục tiêu khóa học

  • Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu trong Azure

  • Thiết kế và triển khai lớp phục vụ

  • Hiểu các cân nhắc về kỹ thuật dữ liệu

  • Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ

  • Khám phá, chuyển đổi và tải dữ liệu vào Data Warehouse bằng Apache Spark

  • Thực hiện thăm dò và chuyển đổi dữ liệu trong Azure Databricks

  • Nhập và tải dữ liệu vào Kdata lake chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines

  • Tích hợp dữ liệu từ Notebook với Azure Data Factory hoặc Azure Synapse Pipelines

  • Tối ưu hóa hiệu suất truy vấn với các bể chứa SQL chuyên dụng trong Azure Synapse

  • Phân tích và tối ưu hóa lưu trữ kdata lake Hỗ trợ xử lý phân tích giao dịch kết hợp (HTAP) với liên kết Azure Synapse

  • Thực hiện bảo mật end-to-end với Azure Synapse Analytics

  • Thực hiện Xử lý luồng theo thời gian thực với Phân tích luồng

  • Tạo giải pháp xử lý luồng với Trung tâm sự kiện và Cơ sở dữ liệu Azure

  • Tạo báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics

  • Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics

Nội dung khóa học

Mô-đun 1: Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu

Mô-đun này cung cấp tổng quan về các tùy chọn công nghệ máy tính và lưu trữ Azure có sẵn cho các kỹ sư dữ liệu xây dựng khối lượng công việc phân tích. Mô-đun này dạy các cách cấu trúc data lake và tối ưu hóa các tệp. Học viên sẽ học cách tổ chức data lake thành các cấp độ tinh chỉnh dữ liệu khi họ chuyển đổi tệp thông qua xử lý hàng loạt và luồng. Sau đó, họ sẽ học cách tạo chỉ mục trên tập dữ liệu của họ, chẳng hạn như tệp CSV, JSON và Parquet, đồng thời sử dụng chúng để truy vấn tiềm năng và tăng tốc khối lượng công việc.

Những bài học

  • Giới thiệu về Azure Synapse Analytics
  • Mô tả Azure Databricks
  • Giới thiệu về lưu trữ Azure Data Lake
  • Mô tả kiến ​​trúc Hồ Delta
  • Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics

Lab: Khám phá các tùy chọn máy tính và lưu trữ cho khối lượng công việc kỹ thuật dữ liệu

  • Kết hợp streaming và xử lý hàng loạt với một đường dẫn duy nhất
  • Tổ chức data lake thành các cấp độ chuyển đổi tệp
  • Lập chỉ mục lưu trữ data lake để truy vấn và tăng tốc khối lượng công việc

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Mô tả Azure Synapse Analytics
  • Mô tả Azure Databricks
  • Mô tả bộ nhớ Azure Data Lake
  • Mô tả kiến ​​trúc Delta Lake
  • Mô tả phân tích luồng Azure

 

Mô-đun 2: Thiết kế và triển khai lớp phục vụ

Mô-đun này dạy cách thiết kế và triển khai data lake trong data lake hiện đại để tối ưu hóa khối lượng công việc phân tích. Học viên sẽ học cách thiết kế một lược đồ đa chiều để lưu trữ dữ liệu thực tế và dữ liệu thứ nguyên. Sau đó, học viên sẽ học cách điền các kích thước thay đổi từ từ thông qua tải dữ liệu gia tăng từ Azure Data Factory.

Những bài học

  • Thiết kế một lược đồ đa chiều để tối ưu hóa khối lượng công việc phân tích
  • Chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory
  • Điền các thứ nguyên thay đổi chậm trong đường ống Azure Synapse Analytics

Lab: Thiết kế và triển khai Serving Layer

  • Thiết kế giản đồ hình sao cho khối lượng công việc phân tích
  • Điền các thứ nguyên thay đổi chậm với Azure Data Factory và lập bản đồ luồng dữ liệu

Sau khi hoàn thành học phần này, học viên sẽ có thể:

Thiết kế giản đồ hình sao cho khối lượng công việc phân tích

 

Mô-đun 3: Cân nhắc về kỹ thuật dữ liệu cho các tệp nguồn

Mô-đun này khám phá các cân nhắc về kỹ thuật dữ liệu thường gặp khi tải dữ liệu vào kho dữ liệu hiện đại, phân tích từ các tệp được lưu trữ trong Azure Data Lake và hiểu được việc cân nhắc bảo mật liên quan đến việc lưu trữ các tệp được lưu trữ trong data lake.

Những bài học

  • Thiết kế Kho dữ liệu hiện đại bằng Azure Synapse Analytics
  • Bảo mật kho dữ liệu trong Azure Synapse Analytics

Lab: Cân nhắc về kỹ thuật dữ liệu

  • Quản lý tệp trong data lake Azure
  • Bảo mật các tệp được lưu trữ trong data lake Azure

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Thiết kế Kho dữ liệu hiện đại bằng Azure Synapse Analytics
  • Bảo mật kho dữ liệu trong Azure Synapse Analytics

 

Mô-đun 4: Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse Analytics

Trong học phần này, học viên sẽ học cách làm việc với các tệp được lưu trữ trong data lake và các nguồn tệp bên ngoài, thông qua các câu lệnh T-SQL được thực thi bởi một nhóm SQL không máy chủ trong Azure Synapse Analytics. Học viên sẽ truy vấn các tệp Parquet được lưu trữ trong một data lake, cũng như các tệp CSV được lưu trữ trong một kho dữ liệu bên ngoài. Tiếp theo, họ sẽ tạo các nhóm bảo mật Azure Active Directory và thực thi quyền truy cập vào các tệp trong data lake thông qua Kiểm soát truy cập dựa trên vai trò (RBAC) và Danh sách kiểm soát truy cập (ACL).

Những bài học

  • Khám phá các khả năng của nhóm SQL không máy chủ của Azure Synapse
  • Truy vấn dữ liệu trong hồ bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse
  • Tạo đối tượng siêu dữ liệu trong nhóm SQL không máy chủ của Azure Synapse
  • Bảo mật dữ liệu và quản lý người dùng trong nhóm SQL không máy chủ của Azure Synapse

Lab: Chạy các truy vấn tương tác bằng cách sử dụng nhóm SQL không máy chủ

  • Truy vấn dữ liệu Parquet với các nhóm SQL không có máy chủ Tạo các bảng bên ngoài cho các tệp Parquet và CSV
  • Tạo chế độ xem với nhóm SQL không máy chủ
  • Truy cập an toàn vào dữ liệu trong một data lake khi sử dụng các nhóm SQL không máy chủ
  • Định cấu hình bảo mật data lake bằng Kiểm soát truy cập dựa trên vai trò (RBAC) và Danh sách kiểm soát truy cập

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Hiểu các khả năng của nhóm SQL không máy chủ của Azure Synapse
  • Truy vấn dữ liệu trong hồ bằng cách sử dụng nhóm SQL không máy chủ của Azure Synapse
  • Tạo đối tượng siêu dữ liệu trong nhóm SQL không máy chủ của Azure Synapse
  • Bảo mật dữ liệu và quản lý người dùng trong nhóm SQL không máy chủ của Azure Synapse

 

Mô-đun 5: Khám phá, chuyển đổi và tải dữ liệu vào Kho dữ liệu bằng Apache Spark

Mô-đun này dạy cách khám phá dữ liệu được lưu trữ trong data lake, chuyển đổi dữ liệu và tải dữ liệu vào kho lưu trữ dữ liệu quan hệ. Học viên sẽ khám phá các tệp Parquet và JSON và sử dụng các kỹ thuật để truy vấn và chuyển đổi tệp JSON với cấu trúc phân cấp. Sau đó học viên sẽ sử dụng Apache Spark để tải dữ liệu vào kho dữ liệu và nối dữ liệu Parquet trong data lake với dữ liệu trong SQL pool chuyên dụng.

Những bài học

  • Hiểu kỹ thuật dữ liệu lớn với Apache Spark trong Azure Synapse Analytics
  • Nhập dữ liệu bằng sổ ghi chép Apache Spark trong Azure Synapse Analytics
  • Chuyển đổi dữ liệu với DataFrames trong Apache Spark Pools trong Azure Synapse Analytics
  • Tích hợp các nhóm SQL và Apache Spark trong Azure Synapse Analytics

Lab: Khám phá, chuyển đổi và tải dữ liệu vào Kho dữ liệu bằng Apache Spark

  • Thực hiện khám phá dữ liệu trong Synapse Studio
  • Nhập dữ liệu bằng sổ ghi chép Spark trong Azure Synapse Analytics
  • Chuyển đổi dữ liệu với DataFrames trong nhóm Spark trong Azure Synapse Analytics
  • Tích hợp các nhóm SQL và Spark trong Azure Synapse Analytics

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Mô tả kỹ thuật dữ liệu lớn với Apache Spark trong Azure Synapse Analytics
  • Nhập dữ liệu bằng sổ ghi chép Apache Spark trong Azure Synapse Analytics
  • Chuyển đổi dữ liệu với DataFrames trong Apache Spark Pools trong Azure Synapse Analytics
  • Tích hợp các nhóm SQL và Apache Spark trong Azure Synapse Analytics

 

Mô-đun 6: Khám phá và chuyển đổi dữ liệu trong Azure Databricks

Mô-đun này dạy cách sử dụng các phương pháp Apache Spark DataFrame khác nhau để khám phá và chuyển đổi dữ liệu trong Azure Databricks. Học viên sẽ học cách thực hiện các phương pháp DataFrame tiêu chuẩn để khám phá và chuyển đổi dữ liệu. Họ cũng sẽ học cách thực hiện các tác vụ nâng cao hơn, chẳng hạn như xóa dữ liệu trùng lặp, thao tác các giá trị ngày / giờ, đổi tên cột và tổng hợp dữ liệu.

Những bài học

  • Mô tả Azure Databricks
  • Đọc và ghi dữ liệu trong Azure Databricks
  • Làm việc với DataFrames trong Azure Databricks
  • Làm việc với các phương pháp nâng cao của DataFrames trong Azure Databricks

Lab: Khám phá và chuyển đổi dữ liệu trong Azure Databricks

  • Sử dụng DataFrames trong Azure Databricks để khám phá và lọc dữ liệu
  • Lưu vào bộ nhớ cache một DataFrame để có các truy vấn tiếp theo nhanh hơn
  • Xóa dữ liệu trùng lặp
  • Thao tác các giá trị ngày / giờ
  • Xóa và đổi tên các cột DataFrame
  • Tổng hợp dữ liệu được lưu trữ trong DataFrame

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Mô tả Azure Databricks
  • Đọc và ghi dữ liệu trong Azure Databricks
  • Làm việc với DataFrames trong Azure Databricks
  • Làm việc với các phương pháp nâng cao của DataFrames trong Azure Databricks

 

Mô-đun 7: Nhập và tải dữ liệu vào kho dữ liệu

Mô-đun này dạy học viên cách nhập dữ liệu vào kho dữ liệu thông qua các tập lệnh T-SQL và pipeline tích hợp Synapse Analytics. Học viên sẽ học cách tải dữ liệu vào các nhóm SQL chuyên dụng của Synapse với PolyBase và COPY bằng T-SQL. Học viên cũng sẽ học cách sử dụng quản lý khối lượng công việc cùng với hoạt động Sao chép trong đường dẫn Azure Synapse để nhập dữ liệu quy mô petabyte.

Những bài học

  • Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics
  • Nhập quy mô Petabyte với Azure Data Factory

Lab: Nhập và tải Dữ liệu vào Kho dữ liệu

  • Thực hiện nhập quy mô petabyte với Azure Synapse Pipelines
  • Nhập dữ liệu với PolyBase và COPY bằng T-SQL
  • Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Sử dụng các phương pháp hay nhất về tải dữ liệu trong Azure Synapse Analytics
  • Nhập quy mô Petabyte với Azure Data Factory

 

Mô-đun 8: Chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines

Mô-đun này hướng dẫn học viên cách xây dựng các pipeline tích hợp dữ liệu để nhập từ nhiều nguồn dữ liệu, chuyển đổi dữ liệu bằng cách sử dụng luồng dữ liệu và thực hiện chuyển dữ liệu vào một hoặc nhiều ổ chứa dữ liệu.

Những bài học

  • Tích hợp dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines
  • Chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory hoặc Azure Synapse Pipelines

Lab: Chuyển đổi dữ liệu với Azure Data Factory hoặc Azure Synapse Pipelines

  • Thực hiện các chuyển đổi không cần mã trên quy mô lớn với Azure Synapse Pipelines
  • Tạo đường dẫn dữ liệu để nhập các tệp CSV có định dạng kém
  • Tạo luồng dữ liệu ánh xạ

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Thực hiện tích hợp dữ liệu với Azure Data Factory
  • Thực hiện chuyển đổi không cần mã trên quy mô lớn với Azure Data Factory

 

Mô-đun 9: Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines

Trong mô-đun này, bạn sẽ học cách tạo các dịch vụ được liên kết và sắp xếp việc di chuyển và chuyển đổi dữ liệu bằng cách sử dụng sổ ghi chép trong Azure Synapse Pipelines.

Những bài học

  • Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Data Factory

Lab: Điều chỉnh chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines

  • Tích hợp dữ liệu từ Notebook với Azure Data Factory hoặc Azure Synapse Pipelines

Sau khi hoàn thành học phần này, học viên sẽ có thể:

Điều phối chuyển động và chuyển đổi dữ liệu trong Azure Synapse Pipelines

 

Mô-đun 10: Tối ưu hóa hiệu suất truy vấn với các nhóm SQL chuyên dụng trong Azure Synapse

Trong học phần này, học viên sẽ học các chiến lược để tối ưu hóa việc lưu trữ và xử lý dữ liệu khi sử dụng các nhóm SQL chuyên dụng trong Azure Synapse Analytics. Học viên sẽ biết cách sử dụng các tính năng của nhà phát triển, chẳng hạn như chức năng cửa sổ và HyperLogLog, sử dụng các phương pháp hay nhất về tải dữ liệu, tối ưu hóa và cải thiện hiệu suất truy vấn.

Những bài học

Lab: Tối ưu hóa Hiệu suất Truy vấn với Bộ phân tích SQL Chuyên dụng trong Azure Synapse

  • Hiểu các tính năng dành cho nhà phát triển của Azure Synapse Analytics
  • Tối ưu hóa hiệu suất truy vấn kho dữ liệu trong Azure Synapse Analytics
  • Cải thiện hiệu suất truy vấn

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Tối ưu hóa hiệu suất truy vấn kho dữ liệu trong Azure Synapse Analytics
  • Hiểu các tính năng dành cho nhà phát triển kho dữ liệu của Azure Synapse Analytics

 

Mô-đun 11: Phân tích và tối ưu hóa lưu trữ kho dữ liệu

Trong mô-đun này, học viên sẽ học cách phân tích sau đó tối ưu hóa việc lưu trữ dữ liệu của các nhóm SQL chuyên dụng của Azure Synapse. Học viên sẽ biết các kỹ thuật để hiểu cách sử dụng không gian bảng và chi tiết lưu trữ cửa hàng cột. Tiếp theo, học viên sẽ biết cách so sánh các yêu cầu lưu trữ giữa các bảng giống nhau sử dụng các kiểu dữ liệu khác nhau. Cuối cùng, học viên sẽ quan sát tác động của các khung nhìn cụ thể hóa khi được thực thi thay cho các truy vấn phức tạp và học cách tránh extensive logging bằng cách tối ưu hóa các thao tác xóa.

Những bài học

Phân tích và tối ưu hóa lưu trữ kho dữ liệu trong Azure Synapse Analytics

Lab: Phân tích và Tối ưu hóa Data Warehouse Storage

  • Kiểm tra dữ liệu sai lệch và sử dụng dung lượng
  • Hiểu thông tin chi tiết về bộ nhớ của cửa hàng theo cột
  • Nghiên cứu tác động của quan điểm vật chất hóa
  • Khám phá các quy tắc cho các hoạt động được ghi lại tối thiểu

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Phân tích và tối ưu hóa lưu trữ kho dữ liệu trong Azure Synapse Analytics

 

Mô-đun 12: Hỗ trợ xử lý phân tích giao dịch kết hợp (HTAP) với liên kết Azure Synapse

Trong học phần này, học viên sẽ tìm hiểu cách Azure Synapse Link cho phép kết nối liền mạch tài khoản Azure Cosmos DB với không gian làm việc Synapse. Học viên sẽ hiểu cách bật và cấu hình liên kết Synapse, sau đó là cách truy vấn kho phân tích Azure Cosmos DB bằng Apache Spark và SQL serverless.

Những bài học

  • Thiết kế giao dịch kết hợp và xử lý phân tích bằng Azure Synapse Analytics
  • Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
  • Truy vấn Azure Cosmos DB với nhóm Apache Spark
  • Truy vấn Azure Cosmos DB với nhóm SQL không máy chủ

Lab: Hỗ trợ Xử lý Phân tích Giao dịch Kết hợp (HTAP) với Liên kết Azure Synapse

  • Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
  • Truy vấn Azure Cosmos DB với Apache Spark cho Synapse Analytics
  • Truy vấn Azure Cosmos DB với nhóm SQL không máy chủ cho Azure Synapse Analytics

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Thiết kế giao dịch kết hợp và xử lý phân tích bằng Azure Synapse Analytics
  • Định cấu hình liên kết Azure Synapse với Azure Cosmos DB
  • Truy vấn Azure Cosmos DB với Apache Spark cho Azure Synapse Analytics
  • Truy vấn Azure Cosmos DB với SQL serverless cho Azure Synapse Analytics

 

Mô-đun 13: Bảo mật end-to-end với Azure Synapse Analytics

Trong học phần này, học viên sẽ học cách bảo mật không gian làm việc Synapse Analytics và cơ sở hạ tầng hỗ trợ của nó. Học viên sẽ quan sát SQL Active Directory Admin, quản lý các quy tắc tường lửa IP, quản lý bí mật với Azure Key Vault và truy cập những bí mật đó thông qua các hoạt động đường ống và dịch vụ được liên kết với Key Vault. Học viên sẽ hiểu cách triển khai bảo mật cấp cột, bảo mật cấp hàng và che dữ liệu động khi sử dụng nhóm SQL chuyên dụng.

Những bài học

  • Bảo mật kho dữ liệu trong Azure Synapse Analytics
  • Định cấu hình và quản lý bí mật trong Azure Key Vault
  • Triển khai các biện pháp kiểm soát tuân thủ đối với dữ liệu nhạy cảm

Lab: Bảo mật đầu cuối với Azure Synapse Analytics

  • Cơ sở hạ tầng hỗ trợ Phân tích Synapse Azure an toàn
  • Bảo mật không gian làm việc Azure Synapse Analytics và các dịch vụ được quản lý
  • Dữ liệu không gian làm việc của Azure Synapse Analytics an toàn

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Bảo mật kho dữ liệu trong Azure Synapse Analytics
  • Định cấu hình và quản lý bí mật trong Azure Key Vault
  • Triển khai các biện pháp kiểm soát tuân thủ đối với dữ liệu nhạy cảm

 

Mô-đun 14: Xử lý luồng theo thời gian thực với Phân tích luồng

Trong học phần này, học viên sẽ học cách xử lý dữ liệu phát trực tuyến với Azure Stream Analytics. Học viên sẽ nhập dữ liệu đo từ xa của xe vào Event Hubs, sau đó xử lý dữ liệu đó trong thời gian thực, sử dụng các chức năng cửa sổ khác nhau trong Azure Stream Analytics. Họ sẽ xuất dữ liệu sang Azure Synapse Analytics. Cuối cùng, học viên sẽ học cách mở rộng quy mô công việc Stream Analytics để tăng thông lượng.

Những bài học

  • Bật tính năng nhắn tin đáng tin cậy cho các ứng dụng Dữ liệu lớn bằng Azure Event Hubs
  • Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics
  • Nhập luồng dữ liệu bằng Azure Stream Analytics

Lab: Xử lý luồng theo thời gian thực với Stream Analytics

  • Sử dụng Phân tích luồng để xử lý dữ liệu thời gian thực từ Event Hubs
  • Sử dụng các chức năng cửa sổ của Stream Analytics để tạo tổng hợp và xuất ra Synapse Analytics
  • Mở rộng quy mô công việc Azure Stream Analytics để tăng thông lượng thông qua phân vùng
  • Phân vùng lại đầu vào luồng để tối ưu hóa song song

Sau khi hoàn thành học phần này, học viên sẽ có thể:

  • Bật tính năng nhắn tin đáng tin cậy cho các ứng dụng Dữ liệu lớn bằng Azure Event Hubs
  • Làm việc với các luồng dữ liệu bằng cách sử dụng Azure Stream Analytics
  • Nhập luồng dữ liệu bằng Azure Stream Analytics

 

Mô-đun 15: Tạo giải pháp xử lý luồng với Event Hubs và Azure Databricks

Trong mô-đun này, học viên sẽ học cách nhập và xử lý dữ liệu phát trực tuyến trên quy mô lớn với Event Hubs và Spark Structured Streaming trong Azure Databricks. Học viên sẽ tìm hiểu các tính năng chính và cách sử dụng của Structured Streaming. Học viên sẽ thực hiện các cửa sổ trượt để tổng hợp nhiều phần dữ liệu và áp dụng kỹ thuật đánh dấu nước để loại bỏ dữ liệu cũ. Cuối cùng, học viên sẽ kết nối với các Event Hubs để đọc và ghi các luồng.

Những bài học

  • Xử lý dữ liệu phát trực tuyến với tính năng phát trực tuyến có cấu trúc Azure Databricks

Lab: Tạo Giải pháp xử lý luồng với Event Hubs và Azure Databricks

  • Khám phá các tính năng chính và cách sử dụng của Structured Streaming
  • Truyền dữ liệu từ tệp và ghi ra hệ thống tệp phân tán
  • Sử dụng cửa sổ trượt để tổng hợp nhiều phần dữ liệu thay vì tất cả dữ liệu
  • Áp dụng watermarking để xóa dữ liệu cũ
  • Kết nối với các luồng đọc và ghi sự kiện của Event Hubs

Sau khi hoàn thành học phần này, học viên sẽ có thể:

Xử lý dữ liệu phát trực tuyến với tính năng phát trực tuyến có cấu trúc Azure Databricks

 

Mô-đun 16: Xây dựng báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics

Trong mô-đun này, học viên sẽ học cách tích hợp Power BI với không gian làm việc Synapse của họ để xây dựng báo cáo trong Power BI. Học viên sẽ tạo một nguồn dữ liệu mới và báo cáo Power BI trong Synapse Studio. Sau đó, học viên sẽ học cách cải thiện hiệu suất truy vấn với các chế độ xem cụ thể hóa và bộ nhớ đệm tập hợp kết quả. Cuối cùng, học viên sẽ khám phá data lake với các nhóm SQL không máy chủ và tạo trực quan hóa dữ liệu đó trong Power BI.

Những bài học

Tạo báo cáo với Power BI bằng cách sử dụng tích hợp của nó với Azure Synapse Analytics

Lab: Tạo báo cáo bằng cách sử dụng tích hợp Power BI với Azure Synpase Analytics

  • Tích hợp không gian làm việc Azure Synapse và Power BI
  • Tối ưu hóa tích hợp với Power BI
  • Cải thiện hiệu suất truy vấn với các chế độ xem cụ thể hóa và bộ nhớ đệm tập hợp kết quả
  • Trực quan hóa dữ liệu với SQL serverless và tạo báo cáo Power BI

Sau khi hoàn thành học phần này, học viên sẽ có thể:

Tạo báo cáo với Power BI bằng cách sử dụng tích hợp của nó với Azure Synapse Analytics

 

Mô-đun 17: Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics

Mô-đun này khám phá trải nghiệm Azure Machine Learning và Azure Cognitive Services được tích hợp, end-to-end trong Azure Synapse Analytics. Bạn sẽ tìm hiểu cách kết nối không gian làm việc Azure Synapse Analytics với không gian làm việc Azure Machine Learning bằng Linked Service và sau đó kích hoạt thử nghiệm ML tự động sử dụng dữ liệu từ bảng Spark. Bạn cũng sẽ học cách sử dụng các mô hình được đào tạo từ Azure Machine Learning và Azure Cognitive Services để làm phong phú dữ liệu trong bảng tổng hợp SQL và sau đó cung cấp kết quả dự đoán bằng Power BI.

Những bài học

Sử dụng quy trình học máy được tích hợp trong Azure Synapse Analytics

Lab: Thực hiện các quy trình học máy được tích hợp trong Azure Synapse Analytics

  • Tạo dịch vụ liên kết Azure Machine Learning
  • Kích hoạt thử nghiệm ML tự động bằng cách sử dụng dữ liệu từ bảng Spark
  • Làm phong phú dữ liệu bằng cách sử dụng các mô hình được đào tạo
  • Cung cấp kết quả dự đoán bằng Power BI

Sau khi hoàn thành học phần này, học viên sẽ có thể:

Sử dụng quy trình học máy được tích hợp trong Azure Synapse Analytics

Đối tượng học viên

Đối tượng chính của khóa học này là các chuyên gia dữ liệu, kiến ​​trúc sư dữ liệu và các chuyên gia kinh doanh thông minh muốn tìm hiểu về kỹ thuật dữ liệu và xây dựng các giải pháp phân tích bằng cách sử dụng các công nghệ nền tảng dữ liệu tồn tại trên Microsoft Azure. Đối tượng thứ hai của khóa học này là các nhà phân tích dữ liệu và các nhà khoa học dữ liệu, những người làm việc với các giải pháp phân tích được xây dựng trên Microsoft Azure.

Kiến thức khuyến nghị

Nên bắt đầu khóa học này với kiến ​​thức về điện toán đám mây và các khái niệm dữ liệu cốt lõi và kinh nghiệm chuyên môn với các giải pháp dữ liệu.

Cụ thể hoàn thành:

  • AZ-900 - Nguyên tắc cơ bản về Azure
  • DP-900 - Nguyên tắc cơ bản về dữ liệu Microsoft Azure

Chứng chỉ

Microsoft Certified: Azure Data Engineer Associate

Lịch khai giảng

DP-203: Data Engineering on Microsoft Azure
Thời gian: 4 ngày
Lịch dự kiến: 16/05
Địa điểm: Hà Nội/ TP.HCM
Học phí:

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách bảo mật

Các khóa đào tạo Microsoft khác

MS-500 - Microsoft 365 Security Administration

Trong khóa học này, bạn sẽ học cách đảm bảo quyền truy cập của người dùng vào các tài nguyên của tổ chức bạn. Các nội dung bao gồm bảo vệ bằng mật khẩu người dùng, xác thực đa yếu tố, cách bật Azure Identity Protection, cách thiết lập và sử dụng Azure AD Connect, đồng thời giới thiệu cho bạn quyền truy cập có điều kiện trong Microsoft 365. Bạn sẽ tìm hiểu về các công nghệ giúp bảo vệ Môi trường 365. Cụ thể, bạn sẽ tìm hiểu về các mối đe dọa và các giải pháp bảo mật của Microsoft để giảm thiểu các mối đe dọa. Bạn sẽ tìm hiểu về Secure Score, Exchange Online protection, Azure Advanced Threat Protection, Windows Defender Advanced Threat Protection và quản lý mối đe dọa. Trong khóa học, bạn sẽ tìm hiểu về các công nghệ bảo vệ thông tin giúp bảo vệ môi trường Microsoft 365 của bạn. Khóa học thảo luận về quyền quản lý nội dung thông tin, mã hóa tin nhắn, nhãn, chính sách và quy tắc hỗ trợ ngăn ngừa mất dữ liệu và bảo vệ thông tin. Cuối cùng, bạn sẽ tìm hiểu về lưu trữ trong Microsoft 365 cũng như quản trị dữ liệu, cách thực hiện tìm kiếm và điều tra nội dung. Khóa học này bao gồm các chính sách và thẻ lưu giữ dữ liệu, quản lý hồ sơ tại chỗ cho SharePoint, lưu giữ email và cách thực hiện tìm kiếm nội dung hỗ trợ điều tra eDiscovery.
4.0 ngày

40502G: Microsoft Cloud Workshop: Big Data & Visualization

Overview Duration: 1.0 day In this workshop, you will deploy a web app using Machine Learning (ML) to predict travel delays given flight delay data and weather conditions. Plan a bulk data import operation, followed by preparation, such as cleaning and manipulating the data for testing, and training your Machine Learning model. Objectives At the end of this workshop, you will be better able to build a complete machine learning model in Azure Databricks for predicting if an upcoming flight will experience delays. In addition, you will learn to store the trained model in Azure Machine Learning Model Management, then deploy to Docker containers for scalable on-demand predictions, use Azure Data Factory (ADF) for data movement and operationalizing ML scoring, summarize data with Azure Databricks and Spark SQL, and visualize batch predictions on a map using Power BI. Content Module 1: Whiteboard Design Session - Big data analytics and visualization Lessons Review the customer case study Design a proof of concept solution Present the solution Module 2: Hands-on Lab - Big data analytics and visualization Lessons Retrieve lab environment information and create Databricks cluster Load Sample Data and Databricks Notebooks Setup Azure Data Factory Develop a data factory pipeline for data movement Operationalize ML scoring with Azure Databricks and Data Factory Summarize data using Azure Databricks Visualizing in Power BI Desktop Deploy intelligent web app (Optional) Audience This workshop is intended for Cloud Architects and IT professionals who have architectural expertise of infrastructure and solutions design in cloud technologies and want to learn more about Azure and Azure services as described in the ‘About this Course’ and ‘At Course Completion’ areas. Those attending this workshop should also be experienced in other non-Microsoft cloud technologies, meet the course prerequisites, and want to cross-train on Azure. Prerequisites N/A Certification This course is not associated with any Certification.
1.0 ngày

DP-060T00-A: Migrate NoSQL Workloads to Azure Cosmos DB

Overview Duration: 1.0 day This course will teach the students what is Cosmos DB and how you can migrate MongoDB and Cassandra workloads to Cosmos DB. Objectives At the end of this course, the students will have learned: Building Globally Distributed Applications with Cosmos DB Migrate Mongo DB Workloads to Cosmos DB Migrate Cassandra DB Workloads to Cosmos DB Content Module 1: Building Globally Distributed Applications with Cosmos DB This module describes the benefits and architecture of Cosmos DB. Lessons Cosmos DB overview Cosmos DB APIs Provisioning Throughput Partitioning/Sharding Best Practices Lab : Creating a Cosmos DB Database Create Cosmos DB Account Configure RUs At the end of this module, the students will be able to describe: Cosmos DB overview Cosmos DB APIs Provisioning Throughput Partitioning/Sharding Best Practices Module 2: Migrate MongoDB Workloads to Cosmos DB Migrate MongoDB Workloads to Cosmos DB Lessons Understand Migration Benefits Migration Planning Data Migration Application Migration Post-migration considerations Lab : Migrating MongoDB Workloads to Cosmos DB Create a Migration Project Define Source and Target Perform Migration Verify Migration At the end of this module, the students will be able to: Understand Migration Benefits Perform Migration Planning Perform Data Migration Perform Application Migration Undertake Post-migration considerations Module 3: Migrate Cassandra DB Workloads to Cosmos DB This module describes the benefits and process of migrating Cassandra DB workloads to Cosmos DB. Lessons Understand Migration Benefits Migration Planning Data Migration Application Migration Post-migration considerations Lab : Migrating Cassandra DB Workloads to Cosmos DB Export the Schema Move Data Using CQLSH COPY Move Data Using Spark Verify Migration At the end of this module, the students will be able to: Understand Migration Benefits Perform Migration Planning Perform Data Migration Perform Application Migration Undertake Post-migration considerations Audience The primary audience for this course is database developers who plan to migrate their MongoDB or Cassandra DB workloads to Azure using Cosmos DB. Prerequisites Successful students start this role with a fundamental knowledge of cloud computing concepts and professional experience in configuring NoSQL applications. Specifically: The fundamental concepts of partitioning, replication, and resource governance for building and configuring scalable NoSQL applications that are agnostic of Cosmos DB API. Experience with Azure, such as deploying and managing resources To gain these skills, take the following free online training before attending the course: Azure Data Fundamentals Core cloud services – Azure compute options Case studies: NoSQL databases and cloud object storage Certification This course is not associated with any Certification.
1.0 ngày

EXI: Excel 2019 Intermediate

Whether you need to crunch numbers for sales, inventory, information technology, human resources, or other organizational purposes and departments, the ability to get the right information to the right people at the right time can create a powerful competitive advantage. After all, the world runs on data more than ever before and that's a trend not likely to change, or even slow down, any time soon. But with so much data available and being created on a nearly constant basis, the ability to make sense of that data becomes more critical and challenging with every passing day. You already know how to get Microsoft® Office Excel® to perform simple calculations and how to modify your workbooks and worksheets to make them easier to read, interpret, and present to others. But, Excel is capable of doing so much more. To gain a truly competitive edge, you need to be able to extract actionable organizational intelligence from your raw data. In other words, when you have questions about your data, you need to know how to get Excel to provide the answers for you. And that's exactly what this course aims to help you do. This course builds upon the foundational knowledge presented in the Microsoft® Office Excel® 2019: Part 1 course and will help start you down the road to creating advanced workbooks and worksheets that can help deepen your understanding of organizational intelligence. The ability to analyze massive amounts of data, extract actionable information from it, and present that information to decision makers is at the foundation of a successful organization that is able to compete at a high level. This course covers Microsoft Office Specialist Program exam objectives to help you prepare for the Excel Associate (Office 365 and Office 2019): Exam MO-200 and Excel Expert (Office 365 and Office 2019): Exam MO-201 certifications.
1.0 ngày

EXA: Excel 2019 Advanced

Clearly, you use Excel a lot in your role. Otherwise, you wouldn't be taking this course. By now, you're already familiar with Microsoft® Office Excel® 2019, its functions and formulas, a lot of its features and functionality, and its powerful data analysis tools. You are likely called upon to analyze and report on data frequently, work in collaboration with others to deliver actionable organizational intelligence, and keep and maintain workbooks for all manner of purposes. At this level of use and collaboration, you have also likely encountered your fair share of issues and challenges. You're too busy, though, to waste time scouring over workbooks to resolve issues or to perform repetitive, monotonous tasks. You need to know how to get Excel to do more for you so you can focus on what's really important: staying ahead of the competition. That's exactly what this course aims to help you do. This course builds upon the foundational and intermediate knowledge presented in the Microsoft® Office Excel® 2019: Part 1 and Microsoft® Office Excel® 2019: Part 2 courses to help you get the most of your Excel experience. The ability to collaborate with colleagues, automate complex or repetitive tasks, and use conditional logic to construct and apply elaborate formulas and functions will put the full power of Excel right at your fingertips. The more you learn about how to get Excel to do the hard work for you, the more you'll be able to focus on getting the answers you need from the vast amounts of data your organization generates. This course covers Microsoft Office Specialist Program exam objectives to help you prepare for the Excel Associate (Office 365 and Office 2019): Exam MO-200 and Excel Expert (Office 365 and Office 2019): Exam MO-201 certifications.
1.0 ngày

Bản quyền thuộc về Trainocate Việt Nam

back to top