Mục lục:
Định nghĩa - Khai thác dữ liệu có nghĩa là gì?
Khai thác dữ liệu là quá trình phân tích các mẫu dữ liệu ẩn theo các quan điểm khác nhau để phân loại thành thông tin hữu ích, được thu thập và lắp ráp trong các khu vực chung, như kho dữ liệu, để phân tích hiệu quả, thuật toán khai thác dữ liệu, tạo điều kiện cho việc ra quyết định kinh doanh và thông tin khác yêu cầu để cuối cùng cắt giảm chi phí và tăng doanh thu.
Khai thác dữ liệu còn được gọi là khám phá dữ liệu và khám phá kiến thức.
Techopedia giải thích Khai thác dữ liệu
Các bước chính liên quan đến quy trình khai thác dữ liệu là:
- Trích xuất, chuyển đổi và tải dữ liệu vào kho dữ liệu
- Lưu trữ và quản lý dữ liệu trong cơ sở dữ liệu đa chiều
- Cung cấp quyền truy cập dữ liệu cho các nhà phân tích kinh doanh bằng phần mềm ứng dụng
- Trình bày dữ liệu được phân tích dưới dạng dễ hiểu, chẳng hạn như biểu đồ
Bước đầu tiên trong khai thác dữ liệu là thu thập dữ liệu quan trọng cho doanh nghiệp. Dữ liệu của công ty là giao dịch, không hoạt động hoặc siêu dữ liệu. Dữ liệu giao dịch liên quan đến các hoạt động hàng ngày như bán hàng, hàng tồn kho và chi phí, vv Dữ liệu phi hoạt động thường được dự báo, trong khi siêu dữ liệu liên quan đến thiết kế cơ sở dữ liệu logic. Các mô hình và mối quan hệ giữa các yếu tố dữ liệu đưa ra thông tin liên quan, có thể làm tăng doanh thu của tổ chức. Các tổ chức với sự tập trung mạnh mẽ của người tiêu dùng đối phó với các kỹ thuật khai thác dữ liệu cung cấp hình ảnh rõ ràng về các sản phẩm được bán, giá cả, cạnh tranh và nhân khẩu học của khách hàng.
Chẳng hạn, gã khổng lồ bán lẻ Wal-Mart truyền tất cả thông tin liên quan đến kho dữ liệu với terabyte dữ liệu. Dữ liệu này có thể dễ dàng được truy cập bởi các nhà cung cấp cho phép họ xác định mô hình mua hàng của khách hàng. Họ có thể tạo ra các mô hình về thói quen mua sắm, hầu hết các ngày mua sắm, hầu hết được tìm kiếm cho các sản phẩm và dữ liệu khác sử dụng các kỹ thuật khai thác dữ liệu.
Bước thứ hai trong khai thác dữ liệu là chọn một thuật toán phù hợp - một cơ chế tạo ra mô hình khai thác dữ liệu. Hoạt động chung của thuật toán liên quan đến việc xác định xu hướng trong một tập hợp dữ liệu và sử dụng đầu ra cho định nghĩa tham số. Các thuật toán phổ biến nhất được sử dụng để khai thác dữ liệu là thuật toán phân loại và thuật toán hồi quy, được sử dụng để xác định mối quan hệ giữa các yếu tố dữ liệu. Các nhà cung cấp cơ sở dữ liệu lớn như Oracle và SQL kết hợp các thuật toán khai thác dữ liệu, chẳng hạn như phân cụm và hồi quy, để đáp ứng nhu cầu khai thác dữ liệu.