Trang Chủ Xu hướng $ @! là có?

$ @! là có?

Mục lục:

Anonim

Mọi người đều nói về Hadoop, công nghệ mới nóng hổi được các nhà phát triển đánh giá cao và có thể thay đổi thế giới (một lần nữa). Nhưng dù sao thì nó là gì? Nó có phải là ngôn ngữ lập trình không? Một cơ sở dữ liệu? Một hệ thống xử lý? Trà Ấn Độ ấm cúng?


Câu trả lời rộng: Hadoop là tất cả những điều này (ngoại trừ ấm trà), và nhiều hơn nữa. Đó là một thư viện phần mềm cung cấp khung lập trình để xử lý giá rẻ, hữu ích cho một từ thông dụng hiện đại khác: dữ liệu lớn.

Hadoop đến từ đâu?

Apache Hadoop là một phần của Dự án Foundation từ Quỹ phần mềm Apache, một tổ chức phi lợi nhuận có nhiệm vụ là "cung cấp phần mềm vì lợi ích công cộng". Như vậy, thư viện Hadoop là phần mềm nguồn mở miễn phí dành cho tất cả các nhà phát triển.


Công nghệ cơ bản hỗ trợ Hadoop thực sự được phát minh bởi Google. Quay trở lại những ngày đầu, công cụ tìm kiếm không quá lớn cần một cách để lập chỉ mục lượng dữ liệu khổng lồ mà họ thu thập được từ Internet và biến nó thành kết quả phù hợp, có ý nghĩa cho người dùng. Không có gì có sẵn trên thị trường có thể đáp ứng yêu cầu của họ, Google đã xây dựng nền tảng của riêng họ.


Những đổi mới đó đã được phát hành trong một dự án nguồn mở có tên là Nutch, mà sau đó Hadoop đã sử dụng làm nền tảng. Về cơ bản, Hadoop áp dụng sức mạnh của Google vào dữ liệu lớn theo cách phù hợp với các công ty thuộc mọi quy mô.

Hadoop hoạt động như thế nào?

Như đã đề cập trước đây, Hadoop không phải là một thứ - đó là nhiều thứ. Thư viện phần mềm là Hadoop bao gồm bốn phần chính (mô-đun) và một số giải pháp bổ trợ (như cơ sở dữ liệu và ngôn ngữ lập trình) giúp tăng cường sử dụng trong thế giới thực của nó. Bốn mô-đun là:

  • Hadoop Common: Đây là tập hợp các tiện ích chung (thư viện chung) hỗ trợ các mô-đun Hadoop.
  • Hệ thống tệp phân tán Hadoop (HDFS): Một hệ thống tệp phân tán mạnh mẽ không có hạn chế đối với dữ liệu được lưu trữ (có nghĩa là dữ liệu có thể được cấu trúc hoặc không cấu trúc và schemaless, trong đó nhiều DFS sẽ chỉ lưu trữ dữ liệu có cấu trúc) cung cấp truy cập thông lượng cao với dự phòng ( HDFS cho phép dữ liệu được lưu trữ trên nhiều máy, vì vậy nếu một máy bị lỗi, tính khả dụng sẽ được duy trì thông qua các máy khác).
  • Hadoop YARN: Khung này chịu trách nhiệm lập kế hoạch công việc và quản lý tài nguyên cụm; nó đảm bảo dữ liệu được trải đều đủ trên nhiều máy để duy trì dự phòng. YARN là mô-đun làm cho Hadoop trở thành một cách hợp lý và tiết kiệm chi phí để xử lý dữ liệu lớn.
  • Hadoop MapReduce: Hệ thống dựa trên YARN này, được xây dựng trên công nghệ Google, thực hiện xử lý song song các tập dữ liệu lớn (có cấu trúc và không cấu trúc). MapReduce cũng có thể được tìm thấy trong hầu hết các khung xử lý dữ liệu lớn hiện nay, bao gồm cả cơ sở dữ liệu MPP và NoQuery.
Tất cả các mô-đun này làm việc cùng nhau tạo ra xử lý phân tán cho các tập dữ liệu lớn. Khung Hadoop sử dụng các mô hình lập trình đơn giản được nhân rộng trên các cụm máy tính, có nghĩa là hệ thống có thể mở rộng quy mô từ các máy chủ đơn lẻ thành hàng nghìn máy để tăng sức mạnh xử lý, thay vì chỉ dựa vào phần cứng.


Phần cứng có thể xử lý lượng năng lượng xử lý cần thiết để làm việc với dữ liệu lớn là tốn kém, để đặt nhẹ. Đây là sự đổi mới thực sự của Hadoop: khả năng phá vỡ lượng công suất xử lý khổng lồ trên nhiều máy móc nhỏ hơn, mỗi máy tính toán và lưu trữ cục bộ, cùng với khả năng dự phòng tích hợp ở cấp ứng dụng để ngăn ngừa sự cố.

Hadoop làm gì?

Nói một cách đơn giản, Hadoop làm cho dữ liệu lớn có thể truy cập và sử dụng được cho mọi người.


Trước Hadoop, các công ty đang sử dụng dữ liệu lớn đã làm như vậy chủ yếu với cơ sở dữ liệu quan hệ và kho dữ liệu doanh nghiệp (sử dụng số lượng lớn phần cứng đắt tiền). Mặc dù các công cụ này rất tốt để xử lý dữ liệu có cấu trúc - đó là dữ liệu đã được sắp xếp và sắp xếp theo cách có thể quản lý - khả năng xử lý dữ liệu phi cấu trúc là vô cùng hạn chế, đến mức nó thực tế không tồn tại. Để có thể sử dụng, trước tiên dữ liệu phải được cấu trúc để nó có thể nằm gọn trong các bảng.


Khung Hadoop thay đổi yêu cầu đó và thực hiện rất rẻ. Với Hadoop, một lượng lớn dữ liệu từ 10 đến 100 gigabyte trở lên, cả có cấu trúc và không cấu trúc, có thể được xử lý bằng các máy chủ (hàng hóa) thông thường.


Hadoop mang đến các ứng dụng dữ liệu lớn tiềm năng cho các doanh nghiệp thuộc mọi quy mô, trong mọi ngành công nghiệp. Khung nguồn mở cho phép các công ty tài chính tạo ra các mô hình tinh vi để đánh giá danh mục và phân tích rủi ro hoặc các nhà bán lẻ trực tuyến để tinh chỉnh câu trả lời tìm kiếm của họ và hướng khách hàng tới các sản phẩm mà họ có khả năng mua.


Với Hadoop, khả năng là vô hạn.

$ @! là có?