CÔNG TY TNHH TRAINOCATE VIỆT NAM
AWS-BDATA - Big Data on AWS

AWS-BDATA - Big Data on AWS

AWS-BDATA - Big Data on AWS

Tổng quan

Thời lượng: 3.0 ngày

Big Data on AWS giới thiệu các giải pháp dữ liệu lớn trên đám mây như Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis và các nền tảng dữ liệu lớn AWS khác. Trong khóa học này, chúng tôi sẽ hướng dẫn bạn cách sử dụng Amazon EMR để xử lý dữ liệu bằng các công cụ trong hệ sinh thái Hadoop như Hive và Hue. Chúng tôi cũng sẽ hướng dẫn cách tạo môi trường dữ liệu lớn, cách làm việc với Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena và  Amazon Kinesis đồng thời tận dụng các phương pháp thực hành tốt nhất để thiết kế môi trường dữ liệu lớn có tính bảo mật cao và tiết kiệm chi phí.

Mục tiêu khóa học

  • Đưa giải pháp AWS vào hệ sinh thái dữ liệu lớn

  • Sử dụng Apache Hadoop với Amazon EMR

  • Xác định các thành phần của cụm Amazon EMR

  • Khởi chạy và cấu hình cụm Amazon EMR

  • Sử dụng các khung lập trình (framework) phổ biến và có sẵn dành cho Amazon EMR bao gồm Hive, Pig, và Streaming

  • Tận dụng Hue để dùng Amazon EMR dễ dàng hơn

  • Sử dụng phân tích bộ nhớ RAM (in-memory analytic) với Spark trên Amazon EMR

  • Chọn phương thức lưu trữ dữ liệu AWS phù hợp

  • Xác định lợi ích của việc sử dụng Amazon Kinesis để xử lý dữ liệu lớn theo thời gian thực

  • Sử dụng Amazon Redshift để phân tích và lưu trữ dữ liệu hiệu quả

  • Hiểu và quản lý chi phí/quản lý bảo mật cho một giải pháp dữ liệu lớn

  • Xác định các phương pháp nhập, truyền và nén dữ liệu

  • Sử dụng Amazon Athena để thực hiện các truy vấn cụ thể 

  • Sử dụng AWS Glue để tự động hóa quy trình ETL.

  • Sử dụng các phần mềm trực quan để mô tả dữ liệu và truy vấn bằng Amazon QuickSight

  • Sắp xếp quy trình dữ liệu lớn bằng AWS Data Pipeline

Nội dung

Ngày  1

  • Tổng quan Dữ liệu lớn (Big Data)

  • Nhập dữ liệu

  • Big Data Streaming và Amazon Kinesis

  • Sử dụng Kinesis để truyền luồng dữ liệu và phân tích nhật ký máy chủ Apache

  • Giải pháp lưu trữ

  • Truy vấn dữ liệu lớn bằng Amazon Athena

  • Sử dụng Amazon Athena để phân tích dữ liệu

  • Giới thiệu Apache Hadoop và Amazon EMR

Ngày 2

  • Sử dụng Amazon Elastic MapReduce

  • Lưu trữ và truy vấn dữ liệu trên DynamoDB

  • Khung lập trình Hadoop 

  • Xử lý nhật ký máy chủ (Server Logs) với Hive trên Amazon EMR

  • Nâng cao trải nghiệm Amazon EMR Experience với  Hue

  • Chạy Pig Scripts trong Hue trên Amazon EMR

  • Spark trên Amazon EMR

  • Xử lý tập dữ liệu New York Taxi dataset với Spark trên Amazon EMR

Ngày 3

  • Sử dụng AWS Glue để tự động hóa quy trình ETL

  • Amazon Redshift và Dữ Liệu Lớn 

  • Sắp xếp và Trực quan hóa Dữ liệu Lớn

  • Trực quan hóa

  • Quản lý chi phí Amazon EMR

  • Giải pháp bảo mật dữ liệu lớn

  • Các mẫu thiết kế phần mềm (Design Pattern) trong dữ liệu lớn 

Đối tượng học

  • Những người chịu trách nhiệm thiết kế và triển khai các giải pháp dữ liệu lớn, cụ thể là Kiến trúc sư giải pháp và Quản trị viên SysOps.

  • Các Nhà Khoa học dữ liệu và Nhà Phân tích dữ liệu muốn tìm hiểu về các giải pháp dữ liệu lớn trên AWS.

Kiến thức khuyến nghị

Chúng tôi khuyến nghị học viên tham gia khóa học này có những kiến thức sau:

  • Có kiến thức cơ bản với công nghệ dữ liệu lớn, bao gồm Apache Hadoop, HDFS, và truy vấn SQL/NoSQL.

  • Học viên nên hoàn thành khóa đào tạo Cơ Bản về Công nghệ Dữ liệu Lớn trên nền tảng Web hoặc có kinh nghiệm tương đương.

  • Có kinh nghiệm làm việc/kiến thức về dịch vụ AWS và đám mây công cộng.

  • Học viên nên hoàn thành khóa học AWS Essentials hoặc có kinh nghiệm tương đương

  • Có kiến thức cơ bản về kho dữ liệu (data warehouse), hệ thống cơ sở dữ liệu quan hệ và thiết kế cơ sở dữ liệu.

Chứng chỉ

AWS Certified Data Analytics - Specialty

Lịch khai giảng

Form đăng ký

Bằng cách nhấn nút "ĐĂNG KÝ", tôi hoàn toàn đồng ý với Chính sách quyền riêng tư

Các khóa đào tạo AWS khác

Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!

Bản quyền thuộc về Trainocate Việt Nam

back to top
icon đăng ký