Mục lục:
Định nghĩa - Khai thác có nghĩa là gì?
Khai thác là quá trình lấy thông tin liên quan từ các nguồn dữ liệu theo một mẫu cụ thể để sử dụng trong môi trường lưu trữ dữ liệu. Khai thác thêm ý nghĩa cho dữ liệu và là bước đầu tiên của quá trình chuyển đổi dữ liệu. Khai thác chỉ chọn ra một số dữ liệu nhất định phù hợp với một điều kiện hoặc danh mục từ một bộ sưu tập dữ liệu khổng lồ đến từ nhiều nguồn khác nhau.
Techopedia giải thích khai thác
Trong môi trường lưu trữ dữ liệu, một bộ dữ liệu khổng lồ đến từ các cấu trúc khác nhau và các nguồn không có cấu trúc phải được xử lý, chuyển đổi và lưu trữ để rút ra kết luận và dự đoán có ý nghĩa. Dữ liệu đến từ các nguồn chính phải được nhập vào hệ thống lưu trữ dữ liệu một cách có hệ thống giúp dễ dàng thực hiện các hoạt động khác nhau trên dữ liệu. Quá trình này được gọi là khai thác. Khai thác thêm cấu trúc vào dữ liệu phi cấu trúc khác bằng cách tuân theo các quy tắc nhất định. Sau đây là một số kỹ thuật được sử dụng trong trích xuất dữ liệu:
- Khớp mẫu
- Cách tiếp cận dựa trên bảng
- Phân tích văn bản