Mục lục:
- Định nghĩa - Phân tích dữ liệu lớn nguồn mở có nghĩa là gì?
- Techopedia giải thích Phân tích dữ liệu lớn nguồn mở
Định nghĩa - Phân tích dữ liệu lớn nguồn mở có nghĩa là gì?
Phân tích dữ liệu lớn nguồn mở đề cập đến việc sử dụng phần mềm và công cụ nguồn mở để phân tích lượng dữ liệu khổng lồ nhằm thu thập thông tin có liên quan và có thể thực hiện được mà một tổ chức có thể sử dụng để tiếp tục các mục tiêu kinh doanh của mình. Người chơi lớn nhất trong phân tích dữ liệu lớn nguồn mở là Hadoop của Apache - đây là thư viện phần mềm được sử dụng rộng rãi nhất để xử lý các tập dữ liệu khổng lồ trên một cụm máy tính sử dụng quy trình phân tán cho song song.
Techopedia giải thích Phân tích dữ liệu lớn nguồn mở
Phân tích dữ liệu lớn nguồn mở sử dụng phần mềm và công cụ nguồn mở để thực hiện phân tích dữ liệu lớn bằng cách sử dụng toàn bộ nền tảng phần mềm hoặc các công cụ nguồn mở khác nhau cho các tác vụ khác nhau trong quá trình phân tích dữ liệu. Apache Hadoop là hệ thống nổi tiếng nhất về phân tích dữ liệu lớn, nhưng các thành phần khác được yêu cầu trước khi hệ thống phân tích thực sự có thể được kết hợp.
Hadoop là triển khai mã nguồn mở của thuật toán MapReduce do Google và Yahoo tiên phong, vì vậy nó là nền tảng của hầu hết các hệ thống phân tích hiện nay. Nhiều công cụ phân tích dữ liệu lớn sử dụng nguồn mở, bao gồm các hệ thống cơ sở dữ liệu mạnh mẽ như MongoDB nguồn mở, cơ sở dữ liệu NoQuery tinh vi và có thể mở rộng rất phù hợp cho các ứng dụng dữ liệu lớn, cũng như các ứng dụng khác.
Các dịch vụ phân tích dữ liệu lớn nguồn mở bao gồm:
- Hệ thống thu thập dữ liệu
- Trung tâm điều khiển quản lý và giám sát các cụm
- Thư viện máy và khai thác dữ liệu
- Dịch vụ phối hợp ứng dụng
- Máy tính
- Khung thực thi