ETL (trích xuất, chuyển đổi và tải) là một trong những quy trình quan trọng nhất trong phân tích dữ liệu lớn - và đồng thời, nó có thể là một trong những nút thắt lớn nhất của nó. (Để biết thêm về dữ liệu lớn, hãy xem 5 Khóa học dữ liệu lớn hữu ích bạn có thể tham gia trực tuyến.)
Lý do ETL rất quan trọng là vì hầu hết dữ liệu mà một doanh nghiệp thu thập chưa sẵn sàng, ở dạng thô, cho một giải pháp phân tích để tiêu hóa. Để giải pháp phân tích tạo ra thông tin chi tiết, dữ liệu thô cần được trích xuất từ ứng dụng hiện đang tồn tại, chuyển thành định dạng mà chương trình phân tích có thể đọc và sau đó được tải vào chính chương trình phân tích.
Quá trình này tương tự như nấu ăn. Thành phần thô của bạn là dữ liệu thô của bạn. Chúng cần được chiết xuất (mua từ cửa hàng), biến đổi (nấu chín), sau đó được nạp (mạ), trước khi chúng có thể được phân tích (nếm). Khó khăn và chi phí có thể tăng lên một cách khó lường - thật dễ dàng để tự làm phô mai mac n ', nhưng khó hơn nhiều để tạo ra một thực đơn cho người sành ăn cho 40 người trong bữa tiệc tối. Không cần phải nói, một sai lầm tại bất kỳ thời điểm nào có thể làm cho bữa ăn của bạn khó tiêu.
