Mục lục:
- Chuyện hoang đường: Mọi người đều đi trước chúng ta trong việc áp dụng dữ liệu lớn.
- Quan niệm: Chúng ta có quá nhiều dữ liệu; chúng tôi không cần phải lo lắng về mọi lỗ hổng dữ liệu nhỏ.
- Quan niệm: Công nghệ dữ liệu lớn sẽ loại bỏ nhu cầu tích hợp dữ liệu.
- Quan niệm: Sử dụng kho dữ liệu cho các phân tích nâng cao là vô nghĩa.
- Quan niệm: Hồ dữ liệu sẽ thay thế kho dữ liệu.
- Công trình dữ liệu lớn - Phương pháp thao tác dữ liệu mới có thể không
Trở lại vào tháng 5 năm 2014, Forrester Research đã đưa ra hai báo cáo rút ra kết luận nhất định về sự cường điệu xung quanh dữ liệu lớn. Công ty nghiên cứu đã khảo sát hơn 250 giám đốc điều hành tiếp thị và phát triển kinh doanh. Theo các tác giả của báo cáo, thuật hùng biện dữ liệu lớn đang ở mức cao nhất mọi thời đại và các nhà cung cấp công nghệ đang chào mời các sản phẩm với những gì dường như là tuyên bố đáng kinh ngạc.
Gartner đồng ý với Nghiên cứu của Forrester; cường điệu đáng kể bao quanh dữ liệu lớn. Trong báo cáo tháng 9 năm 2014, Gartner đã tiết lộ năm trong số những huyền thoại dữ liệu lớn nhất và các nhà phân tích của Gartner đưa ra ý kiến của họ về những gì đã hiểu sai về dữ liệu lớn và thao túng của nó. Vì vậy, những huyền thoại lớn nhất của dữ liệu lớn là gì? Chúng ta hãy có một cái nhìn.
Chuyện hoang đường: Mọi người đều đi trước chúng ta trong việc áp dụng dữ liệu lớn.
Gartner nói rằng sự quan tâm đến dữ liệu lớn đang ở mức cao nhất mọi thời đại. Mặc dù vậy, 13 phần trăm trong số những người được hỏi có hệ thống làm việc. Lý do: hầu hết các công ty vẫn chưa tìm ra cách khai thác bất kỳ giá trị nào từ kho lưu trữ dữ liệu lớn. Ở đây, khảo sát của Gartner lạc quan hơn báo cáo của Forrester, cho thấy chỉ có 9 phần trăm những người tham gia khảo sát cho biết họ dự định thực hiện các tehcnology dữ liệu lớn trong năm tới. (Dữ liệu lớn có rất nhiều thứ để cung cấp. Tìm hiểu thêm trong 5 Vấn đề trong thế giới thực Dữ liệu lớn có thể giải quyết.)Quan niệm: Chúng ta có quá nhiều dữ liệu; chúng tôi không cần phải lo lắng về mọi lỗ hổng dữ liệu nhỏ.
Gartner lo lắng về một con người mà chúng ta có: "Chúng ta có rất nhiều, điều đó không quan trọng." Ted Friedman, phó chủ tịch và nhà phân tích nổi tiếng tại Gartner tin rằng đây là cách sai lầm để xem xét tình hình.
"Trong thực tế, mặc dù mỗi lỗ hổng riêng lẻ có tác động nhỏ hơn đến toàn bộ tập dữ liệu so với khi có ít dữ liệu hơn, nhưng có nhiều lỗ hổng hơn trước vì có nhiều dữ liệu hơn", Friedman nói. "Do đó, tác động tổng thể của dữ liệu chất lượng kém đối với toàn bộ dữ liệu vẫn như cũ."
Friedman thêm một lý do cho mối quan tâm. Thu thập dữ liệu lớn thường bao gồm dữ liệu từ bên ngoài doanh nghiệp, do đó không rõ cấu trúc và nguồn gốc. Điều này làm tăng khả năng xảy ra lỗi.
Quan niệm: Công nghệ dữ liệu lớn sẽ loại bỏ nhu cầu tích hợp dữ liệu.
Có hai chiến lược phân tích dữ liệu chính có thể được áp dụng cho dữ liệu lớn: "lược đồ ghi" hoặc "lược đồ khi đọc". Cho đến gần đây, lược đồ ghi là phương pháp duy nhất được sử dụng. Lược đồ về đọc là cơn sốt hiện nay trong quản lý cơ sở dữ liệu. Không giống như lược đồ ghi, yêu cầu định dạng có cấu trúc, dữ liệu được tải vào cơ sở dữ liệu lược đồ đọc ở định dạng thô. Sau đó, các nhà phát triển - sử dụng các nền tảng cơ sở dữ liệu phi cấu trúc như Hadoop - bẻ cong dữ liệu khác nhau thành một định dạng có thể sử dụng được. Lược đồ về đọc có lợi thế rõ ràng, nhưng, như Gartner đề cập, việc tích hợp dữ liệu phải xảy ra tại một số điểm.Quan niệm: Sử dụng kho dữ liệu cho các phân tích nâng cao là vô nghĩa.
Dành thời gian để tạo một kho dữ liệu dường như vô nghĩa đối với nhiều nhà quản lý thông tin, đặc biệt khi dữ liệu mới được lưu lại khác với dữ liệu trong kho dữ liệu. Tuy nhiên, Gartner một lần nữa cảnh báo ngay cả các phân tích dữ liệu nâng cao sẽ sử dụng kho dữ liệu và dữ liệu mới, điều đó có nghĩa là các nhà tích hợp dữ liệu phải:- Tinh chỉnh các loại dữ liệu mới để làm cho chúng phù hợp để phân tích
- Quyết định dữ liệu nào có liên quan và mức độ chất lượng dữ liệu cần thiết
- Xác định cách tổng hợp dữ liệu
- Hiểu rằng việc tinh chỉnh dữ liệu có thể xảy ra ở những nơi khác ngoài kho dữ liệu
Quan niệm: Hồ dữ liệu sẽ thay thế kho dữ liệu.
Các hồ dữ liệu là kho lưu trữ dữ liệu khác nhau, trái ngược với kho dữ liệu nơi dữ liệu có định dạng có cấu trúc. Tạo một hồ dữ liệu mất ít nỗ lực trả trước (không cần định dạng dữ liệu) so với kho dữ liệu, đó là lý do tại sao các hồ dữ liệu được quan tâm.
Gartner nhấn mạnh rằng việc có dữ liệu không phải là vấn đề - có thể thao túng dữ liệu bị bắt để đưa ra quyết định sáng suốt là vấn đề. Hơn nữa, việc sử dụng các hồ dữ liệu (hơi chưa được chứng minh) để tạo thuận lợi cho việc ra quyết định là vấn đề.
"Kho dữ liệu đã có khả năng hỗ trợ nhiều người dùng khác nhau trong toàn tổ chức", Nick Heudecker, giám đốc nghiên cứu tại Gartner, cho biết. "Các nhà lãnh đạo quản lý thông tin không phải đợi các hồ dữ liệu bắt kịp." (Tìm hiểu thêm về việc áp dụng dữ liệu lớn trong 7 điều bạn phải biết về dữ liệu lớn trước khi áp dụng.)
Công trình dữ liệu lớn - Phương pháp thao tác dữ liệu mới có thể không
Lý do Gartner nói "huyền thoại dữ liệu lớn nhất" thay vì "huyền thoại dữ liệu lớn" trở nên rõ ràng sau khi đọc báo cáo. Gartner không phải là dữ liệu lớn. Gartner không hài lòng với những người cảm thấy các phương pháp mới hơn để thao túng dữ liệu lớn đã sẵn sàng cho "thời gian chính".