AWS-BDATA - Big Data on AWS
AWS-BDATA - Big Data on AWS
Tổng quan
Thời lượng: 3.0 ngày
Big Data on AWS giới thiệu các giải pháp dữ liệu lớn trên đám mây như Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis và các nền tảng dữ liệu lớn AWS khác. Trong khóa học này, chúng tôi sẽ hướng dẫn bạn cách sử dụng Amazon EMR để xử lý dữ liệu bằng các công cụ trong hệ sinh thái Hadoop như Hive và Hue. Chúng tôi cũng sẽ hướng dẫn cách tạo môi trường dữ liệu lớn, cách làm việc với Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena và Amazon Kinesis đồng thời tận dụng các phương pháp thực hành tốt nhất để thiết kế môi trường dữ liệu lớn có tính bảo mật cao và tiết kiệm chi phí.
Mục tiêu khóa học
-
Đưa giải pháp AWS vào hệ sinh thái dữ liệu lớn
-
Sử dụng Apache Hadoop với Amazon EMR
-
Xác định các thành phần của cụm Amazon EMR
-
Khởi chạy và cấu hình cụm Amazon EMR
-
Sử dụng các khung lập trình (framework) phổ biến và có sẵn dành cho Amazon EMR bao gồm Hive, Pig, và Streaming
-
Tận dụng Hue để dùng Amazon EMR dễ dàng hơn
-
Sử dụng phân tích bộ nhớ RAM (in-memory analytic) với Spark trên Amazon EMR
-
Chọn phương thức lưu trữ dữ liệu AWS phù hợp
-
Xác định lợi ích của việc sử dụng Amazon Kinesis để xử lý dữ liệu lớn theo thời gian thực
-
Sử dụng Amazon Redshift để phân tích và lưu trữ dữ liệu hiệu quả
-
Hiểu và quản lý chi phí/quản lý bảo mật cho một giải pháp dữ liệu lớn
-
Xác định các phương pháp nhập, truyền và nén dữ liệu
-
Sử dụng Amazon Athena để thực hiện các truy vấn cụ thể
-
Sử dụng AWS Glue để tự động hóa quy trình ETL.
-
Sử dụng các phần mềm trực quan để mô tả dữ liệu và truy vấn bằng Amazon QuickSight
-
Sắp xếp quy trình dữ liệu lớn bằng AWS Data Pipeline
Nội dung
Ngày 1
-
Tổng quan Dữ liệu lớn (Big Data)
-
Nhập dữ liệu
-
Big Data Streaming và Amazon Kinesis
-
Sử dụng Kinesis để truyền luồng dữ liệu và phân tích nhật ký máy chủ Apache
-
Giải pháp lưu trữ
-
Truy vấn dữ liệu lớn bằng Amazon Athena
-
Sử dụng Amazon Athena để phân tích dữ liệu
-
Giới thiệu Apache Hadoop và Amazon EMR
Ngày 2
-
Sử dụng Amazon Elastic MapReduce
-
Lưu trữ và truy vấn dữ liệu trên DynamoDB
-
Khung lập trình Hadoop
-
Xử lý nhật ký máy chủ (Server Logs) với Hive trên Amazon EMR
-
Nâng cao trải nghiệm Amazon EMR Experience với Hue
-
Chạy Pig Scripts trong Hue trên Amazon EMR
-
Spark trên Amazon EMR
-
Xử lý tập dữ liệu New York Taxi dataset với Spark trên Amazon EMR
Ngày 3
-
Sử dụng AWS Glue để tự động hóa quy trình ETL
-
Amazon Redshift và Dữ Liệu Lớn
-
Sắp xếp và Trực quan hóa Dữ liệu Lớn
-
Trực quan hóa
-
Quản lý chi phí Amazon EMR
-
Giải pháp bảo mật dữ liệu lớn
-
Các mẫu thiết kế phần mềm (Design Pattern) trong dữ liệu lớn
Đối tượng học
-
Những người chịu trách nhiệm thiết kế và triển khai các giải pháp dữ liệu lớn, cụ thể là Kiến trúc sư giải pháp và Quản trị viên SysOps.
-
Các Nhà Khoa học dữ liệu và Nhà Phân tích dữ liệu muốn tìm hiểu về các giải pháp dữ liệu lớn trên AWS.
Kiến thức khuyến nghị
Chúng tôi khuyến nghị học viên tham gia khóa học này có những kiến thức sau:
-
Có kiến thức cơ bản với công nghệ dữ liệu lớn, bao gồm Apache Hadoop, HDFS, và truy vấn SQL/NoSQL.
-
Học viên nên hoàn thành khóa đào tạo Cơ Bản về Công nghệ Dữ liệu Lớn trên nền tảng Web hoặc có kinh nghiệm tương đương.
-
Có kinh nghiệm làm việc/kiến thức về dịch vụ AWS và đám mây công cộng.
-
Học viên nên hoàn thành khóa học AWS Essentials hoặc có kinh nghiệm tương đương
-
Có kiến thức cơ bản về kho dữ liệu (data warehouse), hệ thống cơ sở dữ liệu quan hệ và thiết kế cơ sở dữ liệu.
Chứng chỉ
AWS Certified Data Analytics - Specialty
Lịch khai giảng
Form đăng ký
Các khóa đào tạo AWS khác
Trainocate - Đối tác đào tạo ủy quền chính hãng của hơn 30 hãng công nghệ hàng đầu thế giới
Đăng ký tư vấn
cùng đội ngũ chuyên gia Trainocate!!
Xác nhận gửi thành công
Cảm ơn bạn đã để lại thông tin.
Đội ngũ chuyên gia của Trainocate đang trong quá trình xác nhận thông tin và sẽ kết nối với bạn trong vòng 24 giờ.
Bản quyền thuộc về Trainocate Việt Nam