CÔNG TY TNHH TRAINOCATE VIỆT NAM
GCPDE - Data Engineering on Google Cloud Platform

GCPDE - Data Engineering on Google Cloud Platform

GCPDE - Data Engineering on Google Cloud Platform

Tổng quan

Thời lượng: 04 ngày

Khóa học này sử dụng các bài giảng, bản demo và phòng thí nghiệm thực hành để chỉ cho bạn cách thiết kế hệ thống xử lý dữ liệu, xây dựng đường ống dữ liệu đầu cuối, phân tích dữ liệu và triển khai máy học. Khóa học cấp chứng chỉ và đào tạo này bao gồm dữ liệu có cấu trúc, không có cấu trúc và phát trực tuyến.

Mục tiêu

  • Làm quen với Google Cloud Platform thông qua lộ trình học Google Cloud
  • Thiết kế và xây dựng hệ thống xử lý dữ liệu trên Google Cloud Platform.
  • Tận dụng dữ liệu không có cấu trúc bằng Spark và ML API trên Cloud Dataproc.
  • Xử lý dữ liệu hàng loạt và phát trực tuyến bằng cách triển khai đường ống dữ liệu tự động mở rộng trên Cloud Dataflow.
  • Rút ra thông tin chi tiết về doanh nghiệp từ các tập dữ liệu cực lớn bằng Google BigQuery.
  • Đào tạo, đánh giá và dự đoán bằng các mô hình máy học bằng TensorFlow và Cloud ML.
  • Cho phép thông tin chi tiết tức thời từ dữ liệu phát trực tuyến

Mô-đun 1: Giới thiệu về Kỹ thuật dữ liệu

 

  • Khám phá vai trò của kỹ sư dữ liệu.
  • Phân tích các thách thức về kỹ thuật dữ liệu.
  • Giới thiệu về BigQuery.
  • Hồ dữ liệu và Kho dữ liệu.
  • Bản demo: Truy vấn liên kết với BigQuery.
  • Cơ sở dữ liệu giao dịch so với Kho dữ liệu.
  • Bản demo trang web: Tìm PII trong tập dữ liệu của bạn bằng API DLP.
  • Hợp tác hiệu quả với các nhóm dữ liệu khác.
  • Quản lý quyền truy cập và quản trị dữ liệu.
  • Xây dựng các đường ống sẵn sàng sản xuất.
  • Xem lại nghiên cứu trường hợp khách hàng GCP.
  • Phòng thí nghiệm: Phân tích dữ liệu bằng BigQuery.


Mô-đun 2: Xây dựng Hồ dữ liệu

  • Giới thiệu về Hồ dữ liệu.
  • Các tùy chọn Lưu trữ dữ liệu và ETL trên GCP.
  • Xây dựng Hồ dữ liệu bằng Lưu trữ đám mây.
  • Bản demo tùy chọn: Tối ưu hóa chi phí với các lớp Lưu trữ đám mây của Google và Chức năng đám mây.
  • Bảo mật Lưu trữ đám mây.
  • Lưu trữ mọi loại Kiểu dữ liệu.
  • Bản demo video: Chạy truy vấn liên kết trên các tệp Parquet và ORC trong BigQuery.
  • Cloud SQL dưới dạng Hồ dữ liệu quan hệ.
  • Phòng thí nghiệm: Tải dữ liệu Taxi vào Cloud SQL.

 

Mô-đun 3: Xây dựng kho dữ liệu

 

  • Kho dữ liệu hiện đại.
  • Giới thiệu về BigQuery.
  • Bản demo: Truy vấn hơn TB dữ liệu trong vài giây.
  • Bắt đầu.
  • Tải dữ liệu.
  • Bản demo video: Truy vấn Cloud SQL từ BigQuery.
  • Phòng thí nghiệm: Tải dữ liệu vào BigQuery.
  • Khám phá lược đồ.
  • Bản demo: Khám phá bộ dữ liệu công khai BigQuery bằng SQL sử dụng INFORMATION_SCHEMA.
  • Thiết kế lược đồ.
  • Trường lồng nhau và lặp lại.
  • Bản demo: Trường lồng nhau và lặp lại trong BigQuery.
  • Phòng thí nghiệm: Làm việc với dữ liệu JSON và mảng trong BigQuery.
  • Tối ưu hóa bằng phân vùng và nhóm.
  • Bản demo: Bảng phân vùng và nhóm trong BigQuery.
  • Xem trước: Chuyển đổi dữ liệu hàng loạt và phát trực tuyến.

 

Mô-đun 4: Giới thiệu về xây dựng đường ống dữ liệu hàng loạt

 

  • EL, ELT, ETL.
  • Các cân nhắc về chất lượng.
  • Cách thực hiện các hoạt động trong BigQuery.
  • Bản demo: ELT để cải thiện chất lượng dữ liệu trong BigQuery.
  • Những thiếu sót.
  • ETL để giải quyết các vấn đề về chất lượng dữ liệu.

 

Mô-đun 5: Thực thi Spark trên Cloud Dataproc

 

  • Hệ sinh thái Hadoop.
  • Chạy Hadoop trên Cloud Dataproc.
  • GCS thay vì HDFS.
  • Tối ưu hóa Dataproc.
  • Thực hành: Chạy các tác vụ Apache Spark trên Cloud Dataproc.

 

Mô-đun 6: Xử lý dữ liệu không cần máy chủ với Cloud Dataflow

 

  • Cloud Dataflow.
  • Tại sao khách hàng coi trọng Dataflow.
  • Dataflow Pipelines.
  • Thực hành: Một đường ống Dataflow đơn giản (Python/Java).
  • Thực hành: MapReduce trong Dataflow (Python/Java).
  • Thực hành: Đầu vào phụ (Python/Java).
  • Mẫu Dataflow.
  • Dataflow SQL.

 

Mô-đun 7: Quản lý đường ống dữ liệu với Cloud Data Fusion và Cloud Composer

 

  • Xây dựng đường ống dữ liệu hàng loạt trực quan với Cloud Data Fusion.
  • Các thành phần.
  • Tổng quan về giao diện người dùng.
  • Xây dựng đường ống.
  • Khám phá dữ liệu bằng Wrangler.
  • Thực hành: Xây dựng và thực thi biểu đồ đường ống trong Cloud Data Fusion.
  • Điều phối công việc giữa các dịch vụ GCP với Cloud Composer.
  • Môi trường Apache Airflow.
  • DAG và toán tử.
  • Lên lịch quy trình làm việc.
  • Bản demo dài tùy chọn: Tải dữ liệu theo sự kiện với Cloud Composer, Cloud Functions, Cloud Storage và BigQuery.
  • Giám sát và ghi nhật ký.
  • Thực hành: Giới thiệu về Cloud Composer.

 

Mô-đun 8: Giới thiệu về Xử lý dữ liệu phát trực tuyến

 

  • Xử lý dữ liệu phát trực tuyến.

 

Mô-đun 9: Nhắn tin không cần máy chủ với Cloud Pub/Sub

 

  • Cloud Pub/Sub.
  • Thực hành: Xuất bản dữ liệu phát trực tuyến vào Pub/Sub.

 

Mô-đun 10: Tính năng phát trực tuyến Cloud Dataflow

 

  • Tính năng phát trực tuyến Cloud Dataflow.
  • Thực hành: Đường ống dữ liệu phát trực tuyến.

 

Mô-đun 11: Tính năng phát trực tuyến BigQuery và Bigtable thông lượng cao

 

  • Tính năng phát trực tuyến BigQuery.
  • Thực hành: Phân tích phát trực tuyến và bảng điều khiển.
  • Cloud Bigtable.
  • Thực hành: Đường ống dữ liệu phát trực tuyến vào Bigtable.

 

Mô-đun 12: Chức năng và hiệu suất nâng cao của BigQuery

 

  • Các hàm cửa sổ phân tích.
  • Sử dụng mệnh đề With.
  • Các hàm GIS.
  • Bản demo: Ánh xạ mã bưu chính phát triển nhanh nhất với BigQuery GeoViz.
  • Cân nhắc về hiệu suất.
  • Thực hành: Tối ưu hóa truy vấn BigQuery của bạn để có hiệu suất.
  • Phòng thí nghiệm tùy chọn: Tạo bảng phân vùng theo ngày trong BigQuery.

 

Mô-đun 13: Giới thiệu về Phân tích và AI

 

  • AI là gì?
  • Từ Phân tích dữ liệu tùy ý đến Quyết định dựa trên dữ liệu.
  • Các tùy chọn cho mô hình ML trên GCP.

 

Mô-đun 14: API mô hình ML dựng sẵn cho Dữ liệu phi cấu trúc

 

  • Dữ liệu phi cấu trúc rất khó.
  • API ML để làm giàu dữ liệu.
  • Phòng thí nghiệm: Sử dụng API ngôn ngữ tự nhiên để phân loại văn bản phi cấu trúc.

 

Mô-đun 15: Phân tích dữ liệu lớn với Sổ tay nền tảng AI đám mây

 

  • Sổ tay là gì.
  • BigQuery Magic và liên kết với Pandas.
  • Phòng thí nghiệm: BigQuery trong Jupyter Labs trên Nền tảng AI.

 

Mô-đun 16: Đường ống ML sản xuất với Kubeflow

 

  • Các cách thực hiện ML trên GCP.
  • Kubeflow.
  • AI Hub.
  • Phòng thí nghiệm: Chạy mô hình AI trên Kubeflow.

 

Mô-đun 17: Xây dựng mô hình tùy chỉnh bằng SQL trong BigQuery ML

 

  • BigQuery ML để xây dựng mô hình nhanh.
  • Bản demo: Đào tạo mô hình bằng BigQuery ML để dự đoán giá vé taxi ở NYC.
  • Các mô hình được hỗ trợ.
  • Tùy chọn phòng thí nghiệm 1: Dự đoán thời gian đi xe đạp bằng mô hình hồi quy trong BQML.
  • Tùy chọn phòng thí nghiệm 2: Đề xuất phim trong BigQuery ML.

 

Mô-đun 18: Xây dựng mô hình tùy chỉnh với Cloud AutoML

 

  • Tại sao lại là Auto ML?
  • Tầm nhìn Auto ML.
  • Auto ML NLP.
  • Bảng Auto ML.

Đối tượng học viên

  • Lớp học này dành cho các nhà phát triển có kinh nghiệm chịu trách nhiệm quản lý các chuyển đổi dữ liệu lớn bao gồm:
  • Trích xuất, tải, chuyển đổi, dọn dẹp và xác thực dữ liệu.
  • Thiết kế các đường ống và kiến ​​trúc để xử lý dữ liệu.
  • Tạo và duy trì các mô hình học máy và thống kê.
  • Truy vấn các tập dữ liệu, trực quan hóa kết quả truy vấn và tạo báo cáo

 

Điều kiện tiên quyết

  • Hoàn thành khóa học Google Cloud Fundamentals- Dữ liệu lớn và Học máy HOẶC có kinh nghiệm tương đương.
  • Thành thạo cơ bản với ngôn ngữ truy vấn phổ biến như SQLKinh nghiệm với các hoạt động mô hình hóa dữ liệu, trích xuất, chuyển đổi, tải.
  • Phát triển ứng dụng bằng ngôn ngữ lập trình phổ biến như Python Quen thuộc với các số liệu thống kê cơ bản

Chứng nhận

Khóa học này không đi kèm đến bất kỳ chứng nhận nào.

Hãy liên hệ qua Fanpage Trainocate Vietnam để nhận thêm thông tin thi chứng chỉ Google Cloud.

 

Tìm hiểu thêm về các khóa học Google Cloud tại Trainocate Vietnam nhé!

Lịch khai giảng

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách bảo mật

Các khóa đào tạo Khóa học Google Cloud khác

Bản quyền thuộc về Trainocate Việt Nam

back to top