Khóa học Big Data With Spark – Dữ liệu lớn với Spark

Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như các bạn đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.
Trong môn học này các bạn sẽ được tìm hiểu về hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn.
Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.
Kết quả đạt được:
-
Khóa học Công nghệ Big Data trình bày những kiến thức cơ bản về Big Data, đặc trưng của Big Data, cũng như những thách thức của Big Data trong thời đại ngày nay.
-
Khóa học sẽ trình bày các phương pháp và công nghệ phổ biến để xử lý Big Data như công nghệ Airflow,MapReduce, Spark,…
-
Sau khi kết thúc khóa học, người học sẽ nắm vững toàn bộ các kiến thức cơ bản về Big Data, đặc điểm kỹ thuật của các công nghệ MapReduce và Spark để xử lý Big Data, đồng thời có đủ sự am hiểu để đưa công nghệ Big Data vào ứng dụng trong các dự án liên quan tại doanh nghiệp