Q:
Làm cách nào tôi có thể học cách sử dụng Hadoop để phân tích dữ liệu lớn?
A:Bộ phần mềm Apache được gọi là Hadoop đang trở thành một tài nguyên rất phổ biến để xử lý các tập dữ liệu lớn. Loại khung phần mềm xử lý dữ liệu này được xây dựng để giúp tổng hợp dữ liệu theo những cách cụ thể, dựa trên các thiết kế có thể làm cho một số loại dự án dữ liệu hiệu quả hơn. Điều đó nói rằng, Hadoop chỉ là một trong nhiều công cụ để xử lý các tập dữ liệu lớn.
Một trong những cách đầu tiên và cơ bản nhất để tìm hiểu về phân tích dữ liệu lớn với Hadoop là hiểu một số thành phần cấp cao nhất của Hadoop và những gì nó làm. Chúng bao gồm một "nền tảng quản lý tài nguyên" Hadoop YARN có thể được áp dụng cho một số loại thiết lập mạng nhất định, cũng như một bộ chức năng MapReduce của Hadoop áp dụng cho các tập dữ liệu lớn. Ngoài ra còn có một hệ thống tệp phân tán Hadoop (HDFS), giúp lưu trữ dữ liệu trên các hệ thống phân tán để có thể được lập chỉ mục hoặc truy xuất nhanh chóng và hiệu quả.
Ngoài ra, những người muốn làm quen với Hadoop có thể xem xét các tài nguyên được xuất bản riêng lẻ cho các chuyên gia giải thích phần mềm ở mức độ phù hợp. Ví dụ này từ Chris Stucchio tại một blog cá nhân cung cấp một tập hợp các điểm tuyệt vời về Hadoop và thang đo dữ liệu. Một trong những vấn đề cơ bản là Hadoop có thể được sử dụng phổ biến hơn mức cần thiết và có thể không phải là giải pháp tốt nhất cho một dự án riêng lẻ. Việc xem xét các loại tài nguyên này sẽ giúp các chuyên gia trở nên quen thuộc hơn với các chi tiết sử dụng Hadoop trong bất kỳ kịch bản cụ thể nào. Stucchio cũng cung cấp phép ẩn dụ cho các chức năng của Hadoop liên quan đến các nhiệm vụ vật lý cụ thể. Ở đây, ví dụ là đếm số lượng sách trong thư viện, trong khi chức năng Hadoop có thể chia thư viện đó thành các phần, cung cấp số lượng riêng lẻ được trộn vào một kết quả dữ liệu tổng hợp.
Một cách sâu hơn mà các chuyên gia có thể tìm hiểu thêm về Hadoop và ứng dụng của nó vào dữ liệu lớn là thông qua các tài nguyên và chương trình đào tạo cụ thể. Ví dụ, công ty học tập trực tuyến Cloudera, nhà cung cấp nổi bật các buổi đào tạo từ xa, có một số tùy chọn thú vị xung quanh việc sử dụng Hadoop và các loại xử lý dữ liệu tương tự.