Mục lục:
- Định nghĩa - Khám phá tri thức trong cơ sở dữ liệu (KDD) có nghĩa là gì?
- Techopedia giải thích Khám phá tri thức trong cơ sở dữ liệu (KDD)
Định nghĩa - Khám phá tri thức trong cơ sở dữ liệu (KDD) có nghĩa là gì?
Khám phá tri thức trong cơ sở dữ liệu (KDD) là quá trình khám phá kiến thức hữu ích từ bộ sưu tập dữ liệu. Kỹ thuật khai thác dữ liệu được sử dụng rộng rãi này là một quá trình bao gồm chuẩn bị và lựa chọn dữ liệu, làm sạch dữ liệu, kết hợp kiến thức trước đó về các tập dữ liệu và diễn giải các giải pháp chính xác từ các kết quả quan sát được.
Các lĩnh vực ứng dụng chính của KDD bao gồm tiếp thị, phát hiện gian lận, viễn thông và sản xuất.
Techopedia giải thích Khám phá tri thức trong cơ sở dữ liệu (KDD)
Theo truyền thống, khai thác dữ liệu và khám phá kiến thức được thực hiện thủ công. Thời gian trôi qua, lượng dữ liệu trong nhiều hệ thống đã tăng lên lớn hơn kích thước terabyte và không còn có thể được duy trì bằng tay. Hơn nữa, đối với sự tồn tại thành công của bất kỳ doanh nghiệp nào, việc khám phá các mẫu cơ bản trong dữ liệu được coi là cần thiết. Kết quả là, một số công cụ phần mềm đã được phát triển để khám phá dữ liệu ẩn và đưa ra các giả định, tạo thành một phần của trí tuệ nhân tạo.
Quá trình KDD đã đạt đến đỉnh cao trong 10 năm qua. Bây giờ nó chứa nhiều cách tiếp cận khác nhau để khám phá, bao gồm học tập quy nạp, thống kê Bayes, tối ưu hóa truy vấn ngữ nghĩa, thu nhận kiến thức cho các hệ thống chuyên gia và lý thuyết thông tin. Mục tiêu cuối cùng là trích xuất kiến thức cấp cao từ dữ liệu cấp thấp.
KDD bao gồm các hoạt động đa ngành. Điều này bao gồm lưu trữ và truy cập dữ liệu, mở rộng thuật toán cho các tập dữ liệu lớn và diễn giải kết quả. Quá trình làm sạch dữ liệu và truy cập dữ liệu có trong kho dữ liệu tạo điều kiện thuận lợi cho quá trình KDD. Trí tuệ nhân tạo cũng hỗ trợ KDD bằng cách khám phá các quy luật thực nghiệm từ thử nghiệm và quan sát. Các mẫu được nhận dạng trong dữ liệu phải hợp lệ trên dữ liệu mới và có một số mức độ chắc chắn. Những mô hình này được coi là kiến thức mới. Các bước liên quan đến toàn bộ quy trình KDD là:
- Xác định mục tiêu của quy trình KDD từ quan điểm của khách hàng.
- Hiểu các lĩnh vực ứng dụng liên quan và kiến thức cần có
- Chọn một tập dữ liệu đích hoặc tập hợp con của các mẫu dữ liệu mà việc khám phá được thực hiện.
- Làm sạch và tiền xử lý dữ liệu bằng cách quyết định các chiến lược để xử lý các trường bị thiếu và thay đổi dữ liệu theo yêu cầu.
- Đơn giản hóa các tập dữ liệu bằng cách loại bỏ các biến không mong muốn. Sau đó, phân tích các tính năng hữu ích có thể được sử dụng để thể hiện dữ liệu, tùy thuộc vào mục tiêu hoặc nhiệm vụ.
- Kết hợp các mục tiêu KDD với các phương thức khai thác dữ liệu để đề xuất các mẫu ẩn.
- Chọn thuật toán khai thác dữ liệu để khám phá các mẫu ẩn. Quá trình này bao gồm quyết định mô hình và tham số nào có thể phù hợp với quy trình KDD tổng thể.
- Tìm kiếm các mẫu quan tâm trong một hình thức đại diện cụ thể, bao gồm các quy tắc phân loại hoặc cây, hồi quy và phân cụm.
- Giải thích kiến thức cần thiết từ các mẫu khai thác.
- Sử dụng kiến thức và kết hợp nó vào một hệ thống khác để tiếp tục hành động.
- Tài liệu và làm báo cáo cho các bên quan tâm.