Mục lục:
Định nghĩa - Apache Pig có nghĩa là gì?
Apache Pig là một nền tảng được sử dụng để phân tích các tập dữ liệu lớn. Nó bao gồm một ngôn ngữ cấp cao để diễn đạt các chương trình phân tích dữ liệu, cùng với cơ sở hạ tầng để đánh giá các chương trình này. Một trong những tính năng quan trọng nhất của Pig là cấu trúc của nó đáp ứng với sự song song đáng kể.
Pig hoạt động trên nền tảng Hadoop, ghi dữ liệu và đọc dữ liệu từ Hệ thống tệp phân tán Hadoop (HDFS) và thực hiện xử lý bằng một hoặc nhiều công việc MapReduce. Apache Pig có sẵn dưới dạng nguồn mở.
Apache Pig còn được gọi là Ngôn ngữ lập trình lợn hoặc Lợn Hadoop.
Techopedia giải thích Lợn Apache
Apache Pig có hai phần: Pig Latin ngôn ngữ và Pig engine. Ngôn ngữ Pig Latin là ngôn ngữ kịch bản cho phép người dùng minh họa cách thức lưu chuyển dữ liệu từ một hoặc nhiều đầu vào và vị trí phải được lưu trữ.
Một số thuộc tính chính của Pig Latin như sau:
- Dễ lập trình: Các tác vụ phức tạp bao gồm các phép biến đổi dữ liệu được kết nối với nhau được mã hóa rõ ràng dưới dạng chuỗi dữ liệu. Điều này làm cho chúng đơn giản để viết, hiểu và duy trì.
- Khả năng tối ưu hóa: Cách thức mà các tác vụ được mã hóa cho phép hệ thống tối ưu hóa thực thi tự động. Điều này cho phép người dùng chú ý đến ngữ nghĩa thay vì hiệu quả.
- Khả năng mở rộng: Người dùng được phép tạo các chức năng của riêng mình để thực hiện xử lý cho mục đích đặc biệt. Công cụ Pig chịu trách nhiệm thực hiện luồng dữ liệu được viết bằng Pig Latin. Giống như thiết kế hệ thống quản lý cơ sở dữ liệu quan hệ tiêu chuẩn (RDBMS), Apache Pig bao gồm trình phân tích cú pháp, trình tối ưu hóa và trình kiểm tra loại, ngoài các toán tử thực hiện xử lý dữ liệu. Pig không bao gồm các giao dịch, một danh mục dữ liệu hoặc khả năng xử lý trực tiếp việc lưu trữ dữ liệu hoặc sử dụng khung thực hiện.