Mục lục:
- Định nghĩa - Hệ thống tệp phân tán Hadoop (HDFS) có nghĩa là gì?
- Techopedia giải thích Hệ thống tệp phân tán Hadoop (HDFS)
Định nghĩa - Hệ thống tệp phân tán Hadoop (HDFS) có nghĩa là gì?
Hệ thống tệp phân tán Hadoop (HDFS) là một hệ thống tệp phân tán chạy trên phần cứng tiêu chuẩn hoặc cấp thấp. Được phát triển bởi Apache Hadoop, HDFS hoạt động giống như một hệ thống tệp phân tán tiêu chuẩn nhưng cung cấp thông lượng và truy cập dữ liệu tốt hơn thông qua thuật toán MapReduce, khả năng chịu lỗi cao và hỗ trợ riêng của các tập dữ liệu lớn.
Techopedia giải thích Hệ thống tệp phân tán Hadoop (HDFS)
HDFS lưu trữ một lượng lớn dữ liệu được đặt trên nhiều máy, thường là hàng trăm và hàng nghìn nút được kết nối đồng thời và cung cấp độ tin cậy của dữ liệu bằng cách sao chép mỗi phiên bản dữ liệu thành ba bản sao khác nhau - hai trong một nhóm và một trong một nhóm khác. Những bản sao này có thể được thay thế trong trường hợp thất bại.
Kiến trúc HDFS bao gồm các cụm, mỗi cụm được truy cập thông qua một công cụ phần mềm NameNode duy nhất được cài đặt trên một máy riêng biệt để giám sát và quản lý hệ thống tệp của cơ chế đó và cơ chế truy cập của người dùng. Các máy khác cài đặt một phiên bản của DataNode để quản lý lưu trữ cụm.
Vì HDFS được viết bằng Java, nên nó có hỗ trợ riêng cho các giao diện lập trình ứng dụng Java (API) để tích hợp và khả năng truy cập ứng dụng. Nó cũng có thể được truy cập thông qua các trình duyệt Web tiêu chuẩn.