Mục lục:
Dữ liệu lớn, tên hấp dẫn cho khối lượng lớn dữ liệu có cấu trúc, không cấu trúc hoặc bán cấu trúc, rất khó nắm bắt, lưu trữ, quản lý, chia sẻ, phân tích và trực quan hóa, ít nhất là sử dụng các ứng dụng cơ sở dữ liệu và phần mềm truyền thống. Đó là lý do tại sao các công nghệ dữ liệu lớn có tiềm năng quản lý và xử lý khối lượng dữ liệu khổng lồ một cách hiệu quả và hiệu quả. Và đó là Apache Hadoop cung cấp khung và các công nghệ liên quan để xử lý các tập dữ liệu lớn trên các cụm máy tính theo cách phân tán. Vì vậy, để thực sự hiểu dữ liệu lớn, bạn cần hiểu một chút về Hadoop. Ở đây chúng ta sẽ xem xét các thuật ngữ hàng đầu mà bạn sẽ nghe liên quan đến Hadoop - và ý nghĩa của chúng.
Hội thảo trên web: Big Iron, Gặp gỡ dữ liệu lớn: Giải phóng dữ liệu máy tính lớn với Hadoop & Spark Đăng ký ở đây |
Nhưng trước tiên, hãy nhìn cách Hadoop hoạt động
Trước khi đi vào hệ sinh thái Hadoop, bạn cần hiểu rõ hai điều cơ bản. Đầu tiên là cách một tệp được lưu trữ trong Hadoop; thứ hai là cách dữ liệu được lưu trữ được xử lý. Tất cả các công nghệ liên quan đến Hadoop chủ yếu hoạt động trên hai lĩnh vực này và làm cho nó thân thiện hơn với người dùng. (Nhận những điều cơ bản về cách Hadoop hoạt động trong cách Hadoop giúp giải quyết vấn đề dữ liệu lớn.)
Bây giờ, về các điều khoản.