Trang Chủ Âm thanh Làm thế nào sql trên hadoop có thể giúp phân tích dữ liệu lớn?

Làm thế nào sql trên hadoop có thể giúp phân tích dữ liệu lớn?

Mục lục:

Anonim

SQL trên Hadoop là một nhóm các công cụ ứng dụng phân tích kết hợp truy vấn và xử lý dữ liệu theo kiểu SQL với các thành phần khung dữ liệu Hadoop gần đây nhất. Sự xuất hiện của SQL trên Hadoop là một sự phát triển quan trọng để xử lý dữ liệu lớn vì nó cho phép các nhóm người rộng hơn làm việc thành công với khung xử lý dữ liệu Hadoop bằng cách chạy các truy vấn SQL trên khối lượng lớn dữ liệu lớn mà Hadoop xử lý. Rõ ràng, khung Hadoop trước đây không thể truy cập được cho mọi người, đặc biệt là về khả năng truy vấn của nó. Dựa trên sự phát triển, một số công cụ đã được đưa vào để hứa hẹn cải thiện năng suất của các doanh nghiệp khi xử lý và phân tích dữ liệu lớn với chất lượng và tốc độ. Cũng không cần phải đầu tư nhiều vào việc học công cụ này, vì kiến ​​thức truyền thống về SQL nên làm.

Định nghĩa SQL trên Hadoop

SQL trên Hadoop là một nhóm các ứng dụng cho phép bạn chạy các truy vấn kiểu SQL trên dữ liệu lớn được lưu trữ bởi khung xử lý dữ liệu Hadoop. Rõ ràng, việc truy vấn, truy xuất và phân tích dữ liệu đã trở nên dễ dàng hơn với việc bổ sung SQL trên Hadoop. Do SQL ban đầu được thiết kế cho cơ sở dữ liệu quan hệ, nên nó phải được sửa đổi theo mô hình Hadoop 1 bao gồm MapReduce và Hệ thống tệp phân tán Hadoop (HDFS) và mô hình Hadoop 2 không có MapReduce và HDFS.

Một trong những nỗ lực đầu tiên để kết hợp SQL với Hadoop đã dẫn đến việc tạo kho dữ liệu Hive với phần mềm HiveQL có thể dịch các truy vấn kiểu SQL thành các công việc MapReduce. Sau đó, một số ứng dụng đã được phát triển có thể thực hiện các công việc tương tự. Nổi bật trong số các công cụ sau này là Drill, BigQuery, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) và Tez (Hive on Tez).

Làm thế nào sql trên hadoop có thể giúp phân tích dữ liệu lớn?