Mục lục:
- Định nghĩa - Khai thác dữ liệu phi cấu trúc có nghĩa là gì?
- Techopedia giải thích Khai thác dữ liệu phi cấu trúc
Định nghĩa - Khai thác dữ liệu phi cấu trúc có nghĩa là gì?
Khai thác dữ liệu phi cấu trúc là thực hành xem xét dữ liệu tương đối không có cấu trúc và cố gắng lấy các bộ dữ liệu tinh chỉnh hơn từ nó. Nó thường bao gồm trích xuất dữ liệu từ các nguồn không được sử dụng theo truyền thống cho các hoạt động khai thác dữ liệu.Techopedia giải thích Khai thác dữ liệu phi cấu trúc
Nói chung, khai thác dữ liệu là thực hành kết hợp thông qua các tập dữ liệu và cố gắng chỉ lấy các bit thông tin có giá trị nhất thành một định dạng cụ thể. Điều này thường khó khăn hơn với dữ liệu tương đối không có cấu trúc. Các chuyên gia CNTT định nghĩa dữ liệu phi cấu trúc là dữ liệu không ở định dạng cụ thể, dữ liệu "nặng văn bản" hoặc dữ liệu bị "ẩn" trong các tài liệu không chính xác không được đặt hàng chính thức để cung cấp thông tin kỹ thuật.
Một ví dụ về một tài liệu phi cấu trúc sẽ là một bức thư hoặc thư từ giữa hai hoặc nhiều bên. Trong khai thác dữ liệu phi cấu trúc, các công nghệ sẽ phá vỡ bức thư đó, tìm kiếm các thông tin nhận dạng và bit thông tin cụ thể như tên của các bên liên quan, ngày gửi thư, tên của các doanh nghiệp liên quan, số lượng tiền tệ hoặc định lượng khác bit dữ liệu hoặc mã được gán cho các sản phẩm, dịch vụ hoặc giao dịch cụ thể. Những loại dữ liệu đó được khai thác và sau đó được đặt ở định dạng mà doanh nghiệp hoặc các bên khác có thể sử dụng để tham khảo nhanh hoặc cho các ứng dụng kinh doanh thông minh được phát triển.
