Mục lục:
- Hadoop đã bắt đầu như thế nào?
- Điều gì rất quan trọng về Hadoop?
- Schema trên đọc là gì?
- Tổ ong là gì?
- Hadoop phân tích loại dữ liệu nào?
- Bạn có thể đưa ra một ví dụ thực tế về Hadoop?
- Hadoop đã lỗi thời hay chỉ biến hình?
Hadoop là gì? Đó là một con voi đồ chơi màu vàng. Không phải những gì bạn đang mong đợi? Làm thế nào về điều này: Doug Cutting - đồng sáng lập dự án phần mềm nguồn mở này - đã mượn tên của con trai ông, người đã gọi chú voi đồ chơi của mình là Hadoop. Tóm lại, Hadoop là một khung phần mềm được phát triển bởi Quỹ phần mềm Apache được sử dụng để phát triển điện toán phân tán, chuyên sâu về dữ liệu. Và nó là một thành phần quan trọng trong một trình đọc từ thông dụng khác dường như không bao giờ có thể có đủ: dữ liệu lớn. Dưới đây là bảy điều bạn nên biết về phần mềm độc quyền, được cấp phép miễn phí này.
Hadoop đã bắt đầu như thế nào?
Mười hai năm trước, Google đã xây dựng một nền tảng để thao túng lượng dữ liệu khổng lồ mà nó đang thu thập. Giống như công ty thường làm, Google cung cấp thiết kế cho công chúng dưới dạng hai bài báo: Google File System và MapReduce.
Đồng thời, Doug Cutting và Mike Cafarella đang làm việc trên Nutch, một công cụ tìm kiếm mới. Cả hai cũng đang vật lộn với cách xử lý lượng lớn dữ liệu. Sau đó, hai nhà nghiên cứu đã nhận được các bài báo của Google. Sự giao thoa may mắn đó đã thay đổi mọi thứ bằng cách giới thiệu Cutting và Cafarella cho một hệ thống tệp tốt hơn và cách theo dõi dữ liệu, cuối cùng dẫn đến việc tạo ra Hadoop.
Điều gì rất quan trọng về Hadoop?
Ngày nay, việc thu thập dữ liệu trở nên dễ dàng hơn bao giờ hết. Có tất cả các dữ liệu này cho thấy nhiều cơ hội, nhưng cũng có những thách thức:- Số lượng lớn dữ liệu đòi hỏi các phương pháp xử lý mới.
- Dữ liệu được thu thập ở định dạng không có cấu trúc.
Tiếp theo, họ phải xử lý dữ liệu phi cấu trúc hoặc dữ liệu theo các định dạng mà các hệ thống cơ sở dữ liệu quan hệ tiêu chuẩn không thể xử lý. Cutting và Cafarella đã thiết kế Hadoop để làm việc với bất kỳ loại dữ liệu nào: có cấu trúc, không cấu trúc, hình ảnh, tệp âm thanh, thậm chí là văn bản. Sách trắng Cloudera (tích hợp Hadoop) này giải thích tại sao điều này lại quan trọng:
-
"Bằng cách làm cho tất cả dữ liệu của bạn có thể sử dụng được, không chỉ những gì trong cơ sở dữ liệu của bạn, Hadoop cho phép bạn khám phá các mối quan hệ ẩn và tiết lộ các câu trả lời luôn nằm ngoài tầm với. Bạn có thể bắt đầu đưa ra nhiều quyết định dựa trên dữ liệu cứng, thay vì linh cảm và nhìn tại các bộ dữ liệu hoàn chỉnh, không chỉ các mẫu và tóm tắt. "
Schema trên đọc là gì?
Như đã đề cập trước đó, một trong những lợi thế của Hadoop là khả năng xử lý dữ liệu phi cấu trúc. Theo một nghĩa nào đó, đó là "đá cái lon xuống đường". Cuối cùng, dữ liệu cần một số loại cấu trúc để phân tích nó.
Đó là nơi lược đồ về đọc đi vào chơi. Lược đồ lúc đọc là sự trộn lẫn giữa định dạng của dữ liệu, nơi tìm dữ liệu (hãy nhớ dữ liệu nằm rải rác giữa một số máy chủ) và những gì cần thực hiện đối với dữ liệu - không phải là một nhiệm vụ đơn giản. Người ta nói rằng việc thao túng dữ liệu trong hệ thống Hadoop đòi hỏi kỹ năng của một nhà phân tích kinh doanh, một nhà thống kê và lập trình viên Java. Thật không may, không có nhiều người có trình độ chuyên môn.
Tổ ong là gì?
Nếu Hadoop sẽ thành công, làm việc với dữ liệu phải được đơn giản hóa. Vì vậy, đám đông nguồn mở đã làm việc và tạo ra Hive:-
"Hive cung cấp một cơ chế để cấu trúc dự án lên dữ liệu này và truy vấn dữ liệu bằng ngôn ngữ giống như SQL gọi là HiveQL. Đồng thời, ngôn ngữ này cũng cho phép lập trình viên / giảm bản đồ truyền thống cắm vào trình ánh xạ và trình giảm tùy chỉnh của họ khi bất tiện hoặc không hiệu quả để diễn đạt logic này trong HiveQL. "
Hive cho phép tốt nhất của cả hai thế giới: nhân viên cơ sở dữ liệu quen thuộc với các lệnh SQL có thể thao tác dữ liệu và các nhà phát triển quen thuộc với lược đồ trong quá trình đọc vẫn có thể tạo các truy vấn tùy chỉnh.
Hadoop phân tích loại dữ liệu nào?
Phân tích trang web là điều đầu tiên xuất hiện, phân tích nhật ký web và lưu lượng truy cập Web để tối ưu hóa trang web. Ví dụ, Facebook chắc chắn vào phân tích trang web, sử dụng Hadoop để sắp xếp thông qua terabyte dữ liệu mà công ty tích lũy.
Các công ty sử dụng các cụm Hadoop để thực hiện phân tích rủi ro, phát hiện gian lận và phân khúc cơ sở khách hàng. Các công ty tiện ích sử dụng Hadoop để phân tích dữ liệu cảm biến từ lưới điện của họ, cho phép họ tối ưu hóa việc sản xuất điện. Một công ty lớn như Target, 3M và Medtronics sử dụng Hadoop để tối ưu hóa phân phối sản phẩm, đánh giá rủi ro kinh doanh và phân khúc cơ sở khách hàng.
Các trường đại học được đầu tư vào Hadoop quá. Brad Rubin, phó giáo sư tại Đại học St. Thomas Chương trình sau đại học về Phần mềm, đã đề cập rằng chuyên môn Hadoop của ông đang giúp sắp xếp thông qua số lượng lớn dữ liệu được biên soạn bởi các nhóm nghiên cứu tại trường đại học.
Bạn có thể đưa ra một ví dụ thực tế về Hadoop?
Một trong những ví dụ được biết đến nhiều hơn là TimesMachine. Thời báo New York có một bộ sưu tập các hình ảnh TIFF trên báo toàn trang, siêu dữ liệu liên quan và văn bản bài viết từ năm 1851 đến 1922 với số lượng terabyte dữ liệu. Derek Gottfrid của NYT, sử dụng hệ thống EC2 / S3 / Hadoop và mã chuyên dụng, :-
"Đã nhập 405.000 hình ảnh TIFF rất lớn, 3, 3 triệu bài viết trong các tệp SGML và 405.000 xml ánh xạ các vùng vào hình chữ nhật trong TIFF. Dữ liệu này được chuyển đổi thành hình ảnh 8.000 PNG thân thiện với web hơn (hình thu nhỏ và hình ảnh đầy đủ) và 405.000 tệp JavaScript. "
Sử dụng các máy chủ trong đám mây Dịch vụ web Amazon, Gottfrid đã đề cập rằng họ có thể xử lý tất cả dữ liệu cần thiết cho TimesMachine trong vòng chưa đầy 36 giờ.
Hadoop đã lỗi thời hay chỉ biến hình?
Hadoop đã tồn tại hơn một thập kỷ nay. Điều đó có nhiều người nói rằng nó đã lỗi thời. Một chuyên gia, Tiến sĩ David Rico, đã nói rằng "Các sản phẩm CNTT có thời gian tồn tại ngắn. Trong những năm chó, các sản phẩm của Google là khoảng 70, trong khi Hadoop là 56."
Có thể có một số sự thật với những gì Rico nói. Có vẻ như Hadoop đang trải qua một cuộc đại tu lớn. Để tìm hiểu thêm về nó, Rubin đã mời tôi tham dự cuộc họp Nhóm người dùng Twin City Hadoop và chủ đề thảo luận là Giới thiệu về YARN:
-
"Apache Hadoop 2 bao gồm một công cụ MapReduce mới, có một số lợi thế so với triển khai trước đó, bao gồm khả năng mở rộng và sử dụng tài nguyên tốt hơn. Việc triển khai mới được xây dựng trên một hệ thống quản lý tài nguyên chung để chạy các ứng dụng phân tán có tên là YARN."