Q:
Làm thế nào có thể môi trường kho dữ liệu hiện tại có quy mô tốt nhất để đáp ứng nhu cầu phân tích dữ liệu lớn?
A:Các dự án kho dữ liệu cá nhân cần được đánh giá trên cơ sở từng trường hợp. Nói chung, khi cố gắng kéo dài một thiết kế kho dữ liệu hiện có để xử lý tốt hơn các phân tích dữ liệu lớn, có một quy trình cốt lõi để tìm ra những gì cần phải làm. Các chuyên gia CNTT có thể gọi đây là "nhân rộng" hoặc "nhân rộng".
Hội thảo trên web: Big Iron, Gặp gỡ dữ liệu lớn: Giải phóng dữ liệu máy tính lớn với Hadoop & Spark Đăng ký ở đây |
Mở rộng quy mô thường liên quan đến việc xem xét có đủ sức mạnh xử lý, nhận đủ bộ nhớ và cung cấp các hoạt động máy chủ mạnh hơn để xử lý tất cả các tập dữ liệu lớn hơn mà doanh nghiệp sẽ xử lý. Ngược lại, nhân rộng ra có thể có nghĩa là thu thập các cụm phần cứng máy chủ và kết nối chúng lại với nhau để thu thập dữ liệu lớn.
Một số chuyên gia CNTT đã gợi ý rằng phương pháp phổ biến hơn với Apache Hadoop và các công cụ và nền tảng dữ liệu lớn phổ biến khác là mở rộng quy mô và phân cụm phần cứng để đạt được các hiệu ứng mong muốn. Tuy nhiên, những người khác chỉ ra rằng với công nghệ ngày nay, kho dữ liệu có thể mở rộng bằng cách sử dụng chiến lược mua sắm bổ sung tài nguyên cho máy chủ, chẳng hạn như bằng cách có số lượng lõi xử lý cao hơn cùng với lượng RAM lớn hơn.
Cho dù chúng mở rộng hoặc mở rộng ra, kho dữ liệu cần có thêm tài sản phần cứng vật lý để có thể xử lý khối lượng công việc dữ liệu lớn hơn. Họ cũng cần quản trị con người bổ sung, có nghĩa là đào tạo nhiều hơn cho các nhóm nội bộ. Rất nhiều kế hoạch cần phải đi vào dự án để xác định loại căng thẳng và áp lực nào mà khối lượng công việc dữ liệu lớn hơn sẽ có trên một hệ thống di sản hiện có để phù hợp với hệ sinh thái dữ liệu lớn mới. Một vấn đề lớn là tắc nghẽn lưu trữ, yêu cầu nâng cấp lên trung tâm lưu trữ và các loại tắc nghẽn hiệu suất khác có thể làm hỏng hệ thống non trẻ nếu không được xử lý.