Mục lục:
- Tìm kiếm câu trả lời cho câu hỏi dữ liệu lớn
- Nhập Hadoop
- Dữ liệu lớn, vấn đề lớn
- Tương lai giữ gì cho dữ liệu lớn
- Biên giới dữ liệu lớn
Đầu những năm 2000, rõ ràng là có nhu cầu rất lớn về đổi mới liên quan đến dữ liệu. Những hạn chế về những gì các công ty có thể làm với dữ liệu của họ đã khiến các nhà điều hành thất vọng và giảm hiệu quả rất nhiều. Nhiều công ty lưu trữ lượng thông tin khổng lồ, nhưng đơn giản là không thể quản lý, phân tích hoặc thao túng nó thành lợi thế của họ. Chính áp lực ngày càng tăng này đã nhường chỗ cho biên giới dữ liệu lớn.
Năm 2003, Google đã tạo ra MapReduce, một ứng dụng dữ liệu cho phép hãng xử lý và phân tích thông tin về các truy vấn tìm kiếm của mình trên hàng ngàn máy chủ trong một khoảng thời gian ngắn. Cả khả năng mở rộng và khả năng thích ứng, chương trình cho phép Google thực hiện hàng ngàn tác vụ dữ liệu chỉ trong vài phút, giúp cải thiện năng suất và xác định lại ranh giới nhận thức về những gì có thể được thực hiện với dữ liệu. Gần 10 năm sau, dữ liệu lớn đã trở thành một nguyên lý trung tâm của công nghệ thông tin. Phạm vi và khả năng sâu rộng của nó đã thay đổi căn bản việc quản lý dữ liệu tại nơi làm việc. Nhưng điều gì đã thúc đẩy sự phát triển này và chính xác dữ liệu lớn sẽ tác động đến tương lai như thế nào? Chúng tôi nghĩ rằng bạn sẽ không bao giờ hỏi. (Để đọc một số thông tin cơ bản về dữ liệu lớn, hãy xem Dữ liệu lớn: Cách thức nó được chụp, giòn và được sử dụng để đưa ra quyết định kinh doanh.)
Tìm kiếm câu trả lời cho câu hỏi dữ liệu lớn
Cái hay của MapReduce là cách nó đơn giản hóa các nhiệm vụ rất phức tạp. Giao tiếp có thể được quản lý trên các máy, lỗi hệ thống có thể được xử lý và dữ liệu đầu vào có thể được tổ chức tự động, một quá trình có thể được giám sát bởi các cá nhân không còn cần các kỹ năng kỹ thuật cao. Bằng cách thực hiện xử lý dữ liệu không chỉ có thể mà còn có thể tiếp cận, Google đã truyền cảm hứng cho sự thay đổi văn hóa trong quản lý dữ liệu. Không lâu trước khi hàng ngàn công ty lớn đang sử dụng MapReduce cho dữ liệu của họ.
Nhưng có một vấn đề: MapReduce đơn giản là một mô hình lập trình. Mặc dù nó tạo điều kiện cơ bản cho xử lý dữ liệu, nhưng bản thân nó không phải là câu trả lời cho những thiếu sót dữ liệu hiện có; đó chỉ là một bước rất cần thiết theo đúng hướng. Các tập đoàn vẫn đang cần một hệ thống có thể giải quyết nhu cầu dữ liệu duy nhất của họ và vượt xa các yếu tố cần thiết trong quản lý dữ liệu. Nói tóm lại, công nghệ cần thiết để phát triển.
Nhập Hadoop
Nhập Hadoop, một phần mềm khung nguồn mở được tạo bởi một số lập trình viên, bao gồm Doug Cutting. Trong đó MapReduce là cơ bản và rộng, Hadoop cung cấp một tính đặc hiệu mới mẻ. Các công ty có thể thiết kế các ứng dụng được thiết kế riêng để giải quyết nhu cầu dữ liệu theo cách mà không phần mềm nào có thể làm được và nó thường tương thích với các hệ thống tệp khác. Một công ty với các lập trình viên tài năng có thể thiết kế một hệ thống tệp sẽ đạt được các nhiệm vụ duy nhất với dữ liệu dường như không thể truy cập trước đó. Có lẽ phần tốt nhất về nó là các nhà phát triển sẽ chia sẻ các ứng dụng và chương trình với nhau có thể được giải thích và hoàn thiện.
Bằng cách dân chủ hóa một nguồn lực quan trọng như vậy, Hadoop đã trở thành một xu hướng. Rốt cuộc, nhiều tập đoàn lớn, đặc biệt là các công ty công cụ tìm kiếm, cảm thấy họ cần nó trong nhiều thập kỷ! Không lâu trước khi những gã khổng lồ trong công cụ tìm kiếm như Yahoo tuyên bố triển khai các ứng dụng Hadoop lớn tạo ra dữ liệu được sử dụng trong các truy vấn tìm kiếm trên Web. Trông giống như một làn sóng, một số công ty nổi tiếng đã tuyên bố áp dụng công nghệ này cho cơ sở dữ liệu khổng lồ của họ, bao gồm Facebook, Amazon, Fox, Apple, eBay và FourSapes. Hadoop thiết lập tiêu chuẩn mới để xử lý dữ liệu.
Dữ liệu lớn, vấn đề lớn
Trong khi những tiến bộ trong công nghệ dữ liệu đã định hình lại cách các công ty xử lý dữ liệu, nhiều giám đốc điều hành vẫn thấy chúng chưa được hoàn thiện cho toàn bộ các nhiệm vụ cần thiết. Vào tháng 7 năm 2012, Oracle đã công bố một cuộc khảo sát với hơn 300 giám đốc điều hành cấp C, người tiết lộ rằng trong khi 36% công ty dựa vào CNTT để quản lý và phân tích dữ liệu, 29% trong số họ cảm thấy rằng hệ thống của họ thiếu khả năng đáp ứng công ty của họ nhu cầu. Có thể phát hiện nổi bật nhất của nghiên cứu là 93% số người được hỏi tin rằng công ty của họ đã mất tới 14% doanh thu do không thể sử dụng dữ liệu thu thập được. Đó là doanh thu có thể được chi cho việc tạo ra các sản phẩm tốt hơn và thuê thêm nhân công. Trong thời đại mà các công ty đang vật lộn để duy trì lợi nhuận, cải thiện dữ liệu để các công ty có thể trở nên có lợi hơn là một điều cần thiết. Cuộc khảo sát chỉ ra rằng mặc dù những người tin rằng ảnh hưởng của dữ liệu lớn đối với thương mại đã qua, nhưng cơ hội phát triển và tiến bộ mà nó nắm giữ vẫn chưa được thực hiện đầy đủ.Tương lai giữ gì cho dữ liệu lớn
Tin vui là Hadoop và MapReduce đã truyền cảm hứng cho nhiều công cụ quản lý dữ liệu khác. Nhiều công ty mới đang tạo ra các nền tảng dữ liệu rộng lớn chạy trên Hadoop, nhưng cung cấp một loạt các chức năng phân tích và tích hợp hệ thống dễ dàng hơn. Có vẻ như các tập đoàn đã đầu tư rất nhiều nguồn lực để giải quyết các mối quan tâm về dữ liệu và thành công tài chính của các công ty dữ liệu đã là bằng chứng cho điều này. Trong năm 2010, các công ty dữ liệu đã kiếm được khoảng 3, 2 tỷ đô la doanh số bán lẻ. Nhiều chuyên gia đã ước tính rằng con số này sẽ tăng lên con số khổng lồ 17 tỷ đô la vào năm 2015. Đây là một thực tế đã không bị mất trên một số công ty công nghệ lớn nhất. Cả IBM và Oracle đã chi hàng tỷ đô la trong nhiều tháng qua để có được các công ty dữ liệu. Nhiều công ty khác sẽ có những động thái tương tự trong những năm tới khi họ tiếp tục tranh giành thị phần cạnh tranh.Biên giới dữ liệu lớn
Lượng dữ liệu được thu thập tiếp tục tăng theo cấp số nhân, điều này khiến một số người lo lắng và những người khác phấn khích. Ưu điểm là con người sẽ tiếp tục trở nên năng suất và thích nghi hơn khi chúng ta tìm hiểu những điều mới về thế giới của chúng ta thông qua việc phân tích dữ liệu. Nhược điểm là có một lượng dữ liệu khổng lồ đến mức nhiều người lo sợ rằng chúng tôi không có khả năng lưu trữ tất cả, quản lý nó một cách hợp lý để mọi người cần nó có thể sử dụng nó.
Điều đó nói rằng, những tiến bộ trong dữ liệu lớn có thể cung cấp cơ hội chưa từng có cho các giải pháp cho các vấn đề khẩn cấp liên quan đến dữ liệu. Ví dụ, các chuyên gia đã gợi ý rằng nếu dữ liệu lớn được thực hiện đúng với sự nhấn mạnh vào hiệu quả và chất lượng, nó sẽ có khả năng tiết kiệm khoảng 300 tỷ đô la mỗi năm cho chi phí chăm sóc sức khỏe; các nhà bán lẻ sẽ có thể cải thiện lợi nhuận hoạt động của họ, khu vực công có thể cung cấp dịch vụ tốt hơn và các doanh nghiệp lớn sẽ tiết kiệm hàng tỷ đồng. Và do đó, dường như việc giải quyết các vấn đề dữ liệu của chúng tôi không chỉ cần thiết trong phòng họp của công ty, mà ở mọi nơi. Điều này nói lên những điều tốt đẹp về tương lai của dữ liệu lớn - và có lẽ chúng ta cũng vậy.