Mục lục:
Định nghĩa - Khai thác web có nghĩa là gì?
Khai thác web là quá trình sử dụng các kỹ thuật và thuật toán khai thác dữ liệu để trích xuất thông tin trực tiếp từ Web bằng cách trích xuất nó từ các tài liệu và dịch vụ Web, nội dung Web, siêu liên kết và nhật ký máy chủ. Mục tiêu của khai thác Web là tìm kiếm các mẫu trong dữ liệu Web bằng cách thu thập và phân tích thông tin để hiểu rõ hơn về xu hướng, ngành công nghiệp và người dùng nói chung.Techopedia giải thích về Khai thác web
Khai thác web là một nhánh của khai thác dữ liệu tập trung vào World Wide Web là nguồn dữ liệu chính, bao gồm tất cả các thành phần của nó từ nội dung Web, nhật ký máy chủ đến mọi thứ ở giữa. Nội dung của dữ liệu được khai thác từ Web có thể là một tập hợp các sự kiện mà các trang Web có chứa và chúng có thể bao gồm văn bản, dữ liệu có cấu trúc như danh sách và bảng và thậm chí cả hình ảnh, video và âm thanh.
Danh mục khai thác Web:
- Khai thác nội dung web - Đây là quá trình khai thác thông tin hữu ích từ nội dung của các trang Web và tài liệu Web, chủ yếu là các tệp văn bản, hình ảnh và âm thanh / video. Các kỹ thuật được sử dụng trong chuyên ngành này đã được rút ra rất nhiều từ xử lý ngôn ngữ tự nhiên (NLP) và truy xuất thông tin.
- Khai thác cấu trúc web - Đây là quá trình phân tích các nút và cấu trúc kết nối của một trang web thông qua việc sử dụng lý thuyết đồ thị. Có hai điều có thể thu được từ điều này: cấu trúc của một trang web về cách nó được kết nối với các trang web khác và cấu trúc tài liệu của chính trang web đó, như cách mỗi trang được kết nối.
- Khai thác sử dụng web - Đây là quá trình trích xuất các mẫu và thông tin từ nhật ký máy chủ để hiểu rõ hơn về hoạt động của người dùng bao gồm người dùng đến từ đâu, có bao nhiêu lần nhấp vào mục nào trên trang web và các loại hoạt động được thực hiện trên trang web.