Mục lục:
- Dữ liệu lớn không có cấu trúc hoặc bán cấu trúc
- Không có điểm nào trong việc lưu trữ dữ liệu lớn nếu chúng ta không thể xử lý nó
- Làm thế nào Hadoop giải quyết vấn đề dữ liệu lớn
- Trường hợp kinh doanh cho Hadoop
Dữ liệu lớn là … tốt … kích thước lớn! Chính xác có bao nhiêu dữ liệu có thể được phân loại là dữ liệu lớn không bị cắt rõ ràng, vì vậy chúng ta đừng sa lầy vào cuộc tranh luận đó. Đối với một công ty nhỏ được sử dụng để xử lý dữ liệu tính bằng gigabyte, 10 TB dữ liệu sẽ là LỚN. Tuy nhiên, đối với các công ty như Facebook và Yahoo, petabyte là lớn.
Chỉ có kích thước của dữ liệu lớn, khiến cho việc lưu trữ dữ liệu đó trong kho lưu trữ truyền thống như cơ sở dữ liệu hoặc trình quay phim thông thường là không thể (hoặc ít nhất là chi phí cấm). Chúng tôi đang nói về chi phí để lưu trữ hàng gigabyte dữ liệu. Sử dụng bộ lưu trữ truyền thống có thể tốn rất nhiều tiền để lưu trữ dữ liệu lớn.
Ở đây chúng ta sẽ xem xét dữ liệu lớn, những thách thức của nó và cách Hadoop có thể giúp giải quyết chúng. Đầu tiên, những thách thức lớn nhất của dữ liệu lớn.
Dữ liệu lớn không có cấu trúc hoặc bán cấu trúc
Rất nhiều dữ liệu lớn không có cấu trúc. Ví dụ: nhấp vào dữ liệu nhật ký luồng có thể trông như sau:
dấu thời gian, user_id, trang, giới thiệu_page
Thiếu cấu trúc làm cho cơ sở dữ liệu quan hệ không phù hợp để lưu trữ dữ liệu lớn. Thêm vào đó, không có nhiều cơ sở dữ liệu có thể đối phó với việc lưu trữ hàng tỷ hàng dữ liệu.
Không có điểm nào trong việc lưu trữ dữ liệu lớn nếu chúng ta không thể xử lý nó
Lưu trữ dữ liệu lớn là một phần của trò chơi. Chúng ta phải xử lý nó để khai thác trí thông minh của nó. Các hệ thống lưu trữ truyền thống khá "ngu ngốc" theo nghĩa là chúng chỉ lưu trữ các bit. Họ không cung cấp bất kỳ sức mạnh xử lý.
Mô hình xử lý dữ liệu truyền thống có dữ liệu được lưu trữ trong cụm lưu trữ, được sao chép sang cụm tính toán để xử lý. Các kết quả được ghi lại vào cụm lưu trữ.
Tuy nhiên, mô hình này không hoạt động tốt đối với dữ liệu lớn vì sao chép quá nhiều dữ liệu ra một cụm tính toán có thể quá tốn thời gian hoặc không thể. Vậy câu trả lời là gì?
Một giải pháp là xử lý dữ liệu lớn tại chỗ, chẳng hạn như trong cụm lưu trữ nhân đôi thành cụm tính toán.
Vì vậy, như chúng ta đã thấy ở trên, dữ liệu lớn bất chấp lưu trữ truyền thống. Vậy làm thế nào để chúng ta xử lý dữ liệu lớn?
Làm thế nào Hadoop giải quyết vấn đề dữ liệu lớn
Hadoop được xây dựng để chạy trên một cụm máy mócHãy bắt đầu với một ví dụ. Hãy nói rằng chúng ta cần lưu trữ nhiều ảnh. Chúng tôi sẽ bắt đầu với một đĩa đơn. Khi chúng tôi vượt quá một đĩa đơn, chúng tôi có thể sử dụng một vài đĩa được xếp chồng lên nhau trên máy. Khi chúng tôi tối đa hóa tất cả các đĩa trên một máy, chúng tôi cần lấy một loạt các máy, mỗi máy có một loạt đĩa.
Đây chính xác là cách Hadoop được xây dựng. Hadoop được thiết kế để chạy trên một cụm máy móc ngay từ đầu.
Hadoop quy mô theo chiều ngang
Có thể đạt được nhiều dung lượng lưu trữ và tính toán hơn bằng cách thêm nhiều nút vào cụm Hadoop. Điều này giúp loại bỏ nhu cầu mua phần cứng ngày càng mạnh hơn và đắt tiền hơn.
Hadoop có thể xử lý dữ liệu phi cấu trúc / bán cấu trúc
Hadoop không thực thi một lược đồ trên dữ liệu mà nó lưu trữ. Nó có thể xử lý văn bản tùy ý và dữ liệu nhị phân. Vì vậy, Hadoop có thể tiêu hóa mọi dữ liệu phi cấu trúc một cách dễ dàng.
Các cụm Hadoop cung cấp lưu trữ và tính toán
Chúng tôi đã thấy làm thế nào có các cụm lưu trữ và xử lý riêng biệt không phù hợp nhất cho dữ liệu lớn. Tuy nhiên, các cụm Hadoop cung cấp lưu trữ và tính toán phân tán tất cả trong một.
Trường hợp kinh doanh cho Hadoop
Hadoop cung cấp lưu trữ cho dữ liệu lớn với chi phí hợp lýLưu trữ dữ liệu lớn bằng cách sử dụng lưu trữ truyền thống có thể tốn kém. Hadoop được xây dựng xung quanh phần cứng hàng hóa, vì vậy nó có thể cung cấp dung lượng lưu trữ khá lớn với chi phí hợp lý. Hadoop đã được sử dụng trong lĩnh vực này ở quy mô petabyte.
Một nghiên cứu của Cloudera cho thấy các doanh nghiệp thường chi khoảng 25.000 đến 50.000 đô la mỗi terabyte mỗi năm. Với Hadoop, chi phí này giảm xuống vài nghìn đô la mỗi terabyte mỗi năm. Khi phần cứng ngày càng rẻ hơn, chi phí này tiếp tục giảm.
Hadoop cho phép thu thập dữ liệu mới hoặc nhiều hơn
Đôi khi các tổ chức không nắm bắt được một loại dữ liệu vì quá tốn kém để lưu trữ dữ liệu. Vì Hadoop cung cấp lưu trữ với chi phí hợp lý, loại dữ liệu này có thể được lưu giữ và lưu trữ.
Một ví dụ sẽ là nhật ký nhấp vào trang web. Bởi vì khối lượng của các bản ghi này có thể rất cao, không có nhiều tổ chức nắm bắt chúng. Bây giờ với Hadoop có thể chụp và lưu trữ nhật ký.
Với Hadoop, bạn có thể lưu trữ dữ liệu lâu hơn
Để quản lý khối lượng dữ liệu được lưu trữ, các công ty định kỳ lọc dữ liệu cũ hơn. Ví dụ: chỉ các bản ghi trong ba tháng qua có thể được lưu trữ, trong khi các bản ghi cũ hơn đã bị xóa. Với Hadoop có thể lưu trữ dữ liệu lịch sử lâu hơn. Điều này cho phép phân tích mới được thực hiện trên dữ liệu lịch sử cũ hơn.
Ví dụ: lấy nhật ký nhấp chuột từ một trang web. Một vài năm trước, các nhật ký này đã được lưu trữ trong một khoảng thời gian ngắn để tính toán số liệu thống kê như các trang phổ biến. Bây giờ với Hadoop, có thể lưu trữ các nhật ký nhấp này trong thời gian dài hơn.
Hadoop cung cấp các phân tích có thể mở rộng
Không có điểm nào trong việc lưu trữ tất cả dữ liệu này nếu chúng ta không thể phân tích chúng. Hadoop không chỉ cung cấp lưu trữ phân tán mà còn xử lý phân tán, điều đó có nghĩa là chúng ta có thể xử lý song song một khối lượng lớn dữ liệu. Khung tính toán của Hadoop được gọi là MapReduce. MapReduce đã được chứng minh với quy mô petabyte.
Hadoop cung cấp các phân tích phong phú
MapReduce bản địa hỗ trợ Java như một ngôn ngữ lập trình chính. Các ngôn ngữ khác như Ruby, Python và R cũng có thể được sử dụng.
Tất nhiên, viết mã MapReduce tùy chỉnh không phải là cách duy nhất để phân tích dữ liệu trong Hadoop. Bản đồ Giảm cấp cao hơn có sẵn. Ví dụ: một công cụ có tên Pig lấy tiếng Anh như ngôn ngữ luồng dữ liệu và dịch chúng sang MapReduce. Một công cụ khác, Hive, nhận các truy vấn SQL và chạy chúng bằng MapReduce.
Các công cụ kinh doanh thông minh (BI) có thể cung cấp mức độ phân tích cao hơn. Có những công cụ cho loại phân tích này là tốt.
Nội dung này được trích từ "Hadoop Illuminated" của Mark Kerzner và Sujee Maniyam. Nó đã được cung cấp thông qua Giấy phép Unported Attribution-NonCommIAL-ShareAlike 3.0 Unported.