Trang Chủ Âm thanh Phân tích Hadoop: không quá dễ dàng trên nhiều nguồn dữ liệu

Phân tích Hadoop: không quá dễ dàng trên nhiều nguồn dữ liệu

Mục lục:

Anonim

Hadoop là một nơi tuyệt vời để giảm tải dữ liệu để xử lý phân tích hoặc mô hình hóa khối lượng lớn hơn của một nguồn dữ liệu duy nhất không thể có với các hệ thống hiện có. Tuy nhiên, khi các công ty đưa dữ liệu từ nhiều nguồn vào Hadoop, nhu cầu phân tích dữ liệu trên các nguồn khác nhau ngày càng tăng, điều này có thể cực kỳ khó đạt được. Bài đăng này là phần đầu tiên trong loạt bài gồm ba phần giải thích các vấn đề mà các tổ chức gặp phải, khi họ cố gắng phân tích các nguồn và loại dữ liệu khác nhau trong Hadoop và cách giải quyết những thách thức này. Bài đăng hôm nay tập trung vào các vấn đề xảy ra khi kết hợp nhiều nguồn nội bộ. Hai bài viết tiếp theo giải thích tại sao những vấn đề này gia tăng về độ phức tạp, khi các nguồn dữ liệu bên ngoài được thêm vào và cách tiếp cận mới giúp giải quyết chúng.

Dữ liệu từ các nguồn khác nhau khó kết nối và bản đồ

Dữ liệu từ các nguồn khác nhau có các cấu trúc khác nhau gây khó khăn cho việc kết nối và ánh xạ các loại dữ liệu với nhau, thậm chí dữ liệu từ các nguồn nội bộ. Việc kết hợp dữ liệu có thể đặc biệt khó khăn nếu khách hàng có nhiều số tài khoản hoặc một tổ chức đã mua lại hoặc sáp nhập với các công ty khác. Trong vài năm qua, một số tổ chức đã cố gắng sử dụng các ứng dụng khám phá dữ liệu hoặc khoa học dữ liệu để phân tích dữ liệu từ nhiều nguồn được lưu trữ trong Hadoop. Cách tiếp cận này có vấn đề vì nó liên quan đến nhiều phỏng đoán: người dùng phải quyết định sử dụng khóa ngoại nào để kết nối các nguồn dữ liệu khác nhau và đưa ra các giả định khi tạo lớp phủ mô hình dữ liệu. Những dự đoán này khó kiểm tra và thường không chính xác khi áp dụng ở quy mô, dẫn đến phân tích dữ liệu bị lỗi và không tin tưởng các nguồn.

Các chuyên gia của Hadoop cố gắng hợp nhất dữ liệu với nhau

Do đó, các tổ chức muốn phân tích dữ liệu qua các nguồn dữ liệu đã nhờ đến việc thuê các chuyên gia của Hadoop để tạo các tập lệnh tùy chỉnh, nguồn cụ thể để hợp nhất các tập dữ liệu lại với nhau. Các chuyên gia Hadoop này thường không phải là chuyên gia tích hợp dữ liệu hoặc giải quyết thực thể, nhưng họ làm tốt nhất có thể để giải quyết các nhu cầu tức thời của tổ chức. Các chuyên gia này thường sử dụng Pig hoặc Java để viết các quy tắc cứng và nhanh để xác định cách kết hợp dữ liệu có cấu trúc từ các nguồn cụ thể, ví dụ: các bản ghi khớp dựa trên số tài khoản. Khi tập lệnh cho hai nguồn đã được viết, nếu cần thêm nguồn thứ ba, tập lệnh đầu tiên phải được loại bỏ và tập lệnh mới được thiết kế để kết hợp ba nguồn cụ thể. Điều tương tự xảy ra nếu một nguồn khác được thêm vào và cứ thế. Cách tiếp cận này không chỉ không hiệu quả mà còn thất bại khi áp dụng ở quy mô, xử lý các trường hợp cạnh kém, có thể dẫn đến một số lượng lớn các bản ghi trùng lặp và thường hợp nhất nhiều bản ghi không nên kết hợp.

Phân tích Hadoop: không quá dễ dàng trên nhiều nguồn dữ liệu