Mục lục:
- Định nghĩa - Khai thác dữ liệu văn bản có nghĩa là gì?
- Techopedia giải thích Khai thác dữ liệu văn bản
Định nghĩa - Khai thác dữ liệu văn bản có nghĩa là gì?
Khai thác dữ liệu văn bản liên quan đến việc kết hợp thông qua một tài liệu văn bản hoặc tài nguyên để có được thông tin có cấu trúc có giá trị. Điều này đòi hỏi các công cụ phân tích tinh vi xử lý văn bản để thu thập các từ khóa cụ thể hoặc các điểm dữ liệu chính từ các định dạng được coi là tương đối thô hoặc không có cấu trúc.
Khai thác dữ liệu văn bản còn được gọi là khai thác văn bản hoặc phân tích văn bản.
Techopedia giải thích Khai thác dữ liệu văn bản
Trong khai thác dữ liệu văn bản, các hệ thống được thiết kế sử dụng những thứ như phân loại và phân tích từ vựng để xác định phần nào của tài liệu văn bản có giá trị như dữ liệu khai thác. Các mô hình thống kê thường hữu ích và các hệ thống cũng có thể sử dụng phương pháp phỏng đoán hoặc phỏng đoán thuật toán để cố gắng xác định phần nào của văn bản là quan trọng. Các hệ thống kiểm soát khác bao gồm gắn thẻ và phân tích từ khóa, trong đó các công cụ tìm kiếm các danh từ riêng hoặc các thẻ và từ khóa khác để tìm ra nội dung được viết.
Một thành phần độc đáo khác của khai thác văn bản thường được gọi là phân tích tình cảm. Trong phân tích tình cảm, thường khó khăn hơn nhiều so với phân tích thống kê, các công cụ phân tích cố gắng tìm ra tâm trạng hoặc tình cảm đằng sau văn bản bằng văn bản và các khía cạnh khác của những gì nó đang giải quyết ở mức độ rất chủ quan và trực quan. Với sự xuất hiện của các công cụ trí tuệ nhân tạo, rất nhiều tiến bộ đã được thực hiện trong phân tích tình cảm, như vậy việc khai thác dữ liệu văn bản hiện đại không chỉ là thu thập các tài liệu tham khảo định lượng và liên quan đến việc đưa các mô hình khái niệm cấp cao vào khai thác văn bản để tìm ra những cách mới và độc đáo để tổng hợp dữ liệu có giá trị.