Trang Chủ Nó-kinh doanh Dữ liệu, lớn và nhỏ: giá trị thực ở đâu?

Dữ liệu, lớn và nhỏ: giá trị thực ở đâu?

Mục lục:

Anonim

Dữ liệu lớn là một từ mền dùng để chỉ việc xử lý khối lượng lớn dữ liệu. Chúng ta đều hiểu rằng khối lượng dữ liệu càng lớn thì càng phức tạp. Các giải pháp cơ sở dữ liệu truyền thống thường không quản lý được khối lượng lớn dữ liệu đúng cách vì độ phức tạp và kích thước của chúng. Do đó, quản lý khối lượng lớn dữ liệu và trích xuất cái nhìn sâu sắc thực sự là một nhiệm vụ đầy thách thức. Khái niệm "giá trị" tương tự cũng được áp dụng cho dữ liệu nhỏ.

Dữ liệu lớn được sử dụng như thế nào

Các giải pháp cơ sở dữ liệu thông thường dựa trên khái niệm RDBMS có thể quản lý dữ liệu giao dịch rất tốt và được sử dụng rộng rãi trong các ứng dụng khác nhau. Nhưng khi xử lý một tập hợp dữ liệu lớn (dữ liệu được lưu trữ và tính bằng terabyte hoặc petabyte), các giải pháp cơ sở dữ liệu này thường thất bại. Các bộ dữ liệu này quá lớn và hầu hết thời gian, chúng không phù hợp với kiến ​​trúc của cơ sở dữ liệu truyền thống. Ngày nay, dữ liệu lớn đã trở thành một cách tiếp cận hiệu quả về chi phí để xử lý các bộ dữ liệu lớn hơn. Từ quan điểm tổ chức, việc sử dụng dữ liệu lớn có thể được chia thành các loại sau, trong đó giá trị thực của dữ liệu lớn nằm trong:

  • Sử dụng phân tích

    Các nhà phân tích dữ liệu lớn đã tiết lộ nhiều khía cạnh ẩn quan trọng của dữ liệu quá tốn kém để xử lý. Ví dụ, nếu chúng ta phải kiểm tra xu hướng quan tâm của sinh viên về một chủ đề mới nhất định, chúng ta có thể làm điều này bằng cách phân tích hồ sơ điểm danh hàng ngày và các sự kiện xã hội và địa lý khác. Những sự thật này được nắm bắt trong cơ sở dữ liệu. Nếu chúng tôi không thể truy cập dữ liệu này một cách hiệu quả, chúng tôi không thể xem kết quả.

  • Kích hoạt sản phẩm mới

    Trong thời gian gần đây, rất nhiều công ty web mới, chẳng hạn như Facebook, đã bắt đầu sử dụng dữ liệu lớn như một giải pháp để ra mắt sản phẩm mới. Chúng ta đều biết Facebook phổ biến như thế nào - nó đã chuẩn bị thành công trải nghiệm người dùng hiệu suất cao bằng cách sử dụng dữ liệu lớn.

Giá trị thực ở đâu?

Các giải pháp dữ liệu lớn khác nhau khác nhau trong cách tiếp cận lưu trữ dữ liệu, nhưng cuối cùng, tất cả chúng đều lưu trữ dữ liệu trong một cấu trúc tệp phẳng. Nói chung, Hadoop bao gồm hệ thống tệp và một số trừu tượng dữ liệu cấp hệ điều hành. Điều này bao gồm một công cụ MapReduce và Hệ thống tệp phân tán Hadoop (HDFS). Một cụm Hadoop đơn giản bao gồm một nút chính và một số nút worker. Nút chủ bao gồm:

  • Nhiệm vụ theo dõi
  • Theo dõi công việc
  • Tên nút
  • Nút dữ liệu
Nút worker bao gồm:
  • Nhiệm vụ theo dõi
  • Nút dữ liệu

Một số triển khai chỉ có nút dữ liệu. Nút dữ liệu là khu vực thực tế nơi dữ liệu nằm. HDFS lưu trữ các tệp lớn (trong phạm vi terabyte đến petabyte) được phân phối trên nhiều máy. Độ tin cậy của dữ liệu trên mỗi nút đạt được bằng cách sao chép dữ liệu trên tất cả các máy chủ. Do đó, dữ liệu có sẵn ngay cả khi một trong các nút bị hỏng. Điều này giúp đạt được phản ứng nhanh hơn chống lại các truy vấn. Khái niệm này rất hữu ích trong trường hợp các ứng dụng khổng lồ như Facebook. Là người dùng, chúng tôi nhận được phản hồi cho yêu cầu trò chuyện của chúng tôi, ví dụ, gần như ngay lập tức. Hãy xem xét một kịch bản mà người dùng phải chờ đợi trong khi trò chuyện. Nếu tin nhắn và phản hồi tiếp theo không được gửi ngay lập tức, thì có bao nhiêu người thực sự sẽ sử dụng các công cụ trò chuyện này?

Quay trở lại việc triển khai Facebook, nếu dữ liệu không được sao chép trên các cụm, thì sẽ không thể có một triển khai hấp dẫn. Hadoop phân phối dữ liệu trên các máy trong một cụm lớn hơn và lưu trữ các tệp dưới dạng một chuỗi các khối. Các khối này có kích thước giống hệt nhau ngoại trừ khối cuối cùng. Kích thước của khối và hệ số sao chép có thể được tùy chỉnh theo nhu cầu. Các tệp trong HDFS tuân thủ nghiêm ngặt cách tiếp cận ghi một lần và do đó chỉ có thể được ghi hoặc chỉnh sửa bởi một người dùng tại một thời điểm. Các quyết định liên quan đến sao chép các khối được thực hiện bởi nút tên. Nút tên nhận báo cáo và phản hồi xung từ mỗi nút dữ liệu. Các đáp ứng xung đảm bảo tính khả dụng của nút dữ liệu tương ứng. Báo cáo chứa các chi tiết của các khối trên nút dữ liệu.


Một triển khai dữ liệu lớn khác, Cassandra, cũng sử dụng một khái niệm phân phối tương tự. Cassandra phân phối dữ liệu dựa trên vị trí địa lý. Do đó, trong Cassandra, dữ liệu được phân tách dựa trên vị trí địa lý của việc sử dụng dữ liệu.

Đôi khi dữ liệu nhỏ tạo ra tác động lớn hơn (và ít tốn kém hơn)

Theo Rufus Pollock của Quỹ Kiến thức mở, không có điểm nào tạo ra sự cường điệu xung quanh dữ liệu lớn trong khi dữ liệu nhỏ vẫn là nơi chứa giá trị thực.


Như tên cho thấy, dữ liệu nhỏ là một tập hợp dữ liệu được nhắm mục tiêu từ một tập hợp dữ liệu lớn hơn. Dữ liệu nhỏ dự định chuyển trọng tâm từ việc sử dụng dữ liệu và nó cũng nhằm mục đích chống lại xu hướng di chuyển sang dữ liệu lớn. Phương pháp dữ liệu nhỏ giúp thu thập dữ liệu dựa trên các yêu cầu cụ thể bằng cách sử dụng ít nỗ lực hơn. Kết quả là, đó là cách thực hành kinh doanh hiệu quả hơn trong khi thực hiện kinh doanh thông minh.


Tại cốt lõi của nó, khái niệm dữ liệu nhỏ xoay quanh các doanh nghiệp đòi hỏi kết quả đòi hỏi phải có hành động tiếp theo. Những kết quả này cần được tìm nạp nhanh chóng và hành động tiếp theo cũng cần được thực hiện kịp thời. Do đó, chúng ta có thể loại bỏ các loại hệ thống thường được sử dụng trong phân tích dữ liệu lớn.


Nói chung, nếu chúng tôi xem xét một số hệ thống cụ thể cần thiết để thu thập dữ liệu lớn, một công ty có thể đầu tư vào việc thiết lập nhiều bộ lưu trữ máy chủ, sử dụng các máy chủ cao cấp tinh vi và các ứng dụng khai thác dữ liệu mới nhất để xử lý các bit dữ liệu khác nhau, bao gồm ngày và thời gian hành động của người dùng, thông tin nhân khẩu học và thông tin khác. Toàn bộ tập dữ liệu này chuyển đến kho dữ liệu trung tâm, nơi các thuật toán phức tạp được sử dụng để sắp xếp và xử lý dữ liệu để hiển thị dưới dạng báo cáo chi tiết.


Chúng ta đều biết rằng những giải pháp này đã mang lại lợi ích cho nhiều doanh nghiệp về khả năng mở rộng và tính sẵn có; có những tổ chức nhận thấy rằng việc áp dụng các phương pháp này đòi hỏi nỗ lực đáng kể. Cũng đúng là trong một số trường hợp, kết quả tương tự đạt được bằng cách sử dụng chiến lược khai thác dữ liệu kém mạnh mẽ hơn.


Dữ liệu nhỏ cung cấp một cách để các tổ chức rút lui khỏi nỗi ám ảnh với các công nghệ mới nhất và mới nhất hỗ trợ các quy trình kinh doanh tinh vi hơn. Các công ty đang thúc đẩy dữ liệu nhỏ cho rằng điều quan trọng là từ quan điểm kinh doanh để sử dụng tài nguyên của họ một cách hiệu quả, do đó, có thể tránh bội chi cho công nghệ ở một mức độ nhất định.


Chúng tôi đã thảo luận nhiều về dữ liệu lớn và thực tế dữ liệu nhỏ, nhưng chúng tôi phải hiểu rằng việc chọn đúng nền tảng (dữ liệu lớn hoặc dữ liệu nhỏ) để sử dụng đúng là phần quan trọng nhất của toàn bộ bài tập. Và sự thật là trong khi dữ liệu lớn có thể mang lại rất nhiều lợi ích, thì nó không phải lúc nào cũng tốt nhất.

Dữ liệu, lớn và nhỏ: giá trị thực ở đâu?