Mục lục:
Định nghĩa - Web Crawler có nghĩa là gì?
Trình thu thập dữ liệu Web là một bot Internet giúp lập chỉ mục Web. Họ thu thập dữ liệu một trang tại một thời điểm thông qua một trang web cho đến khi tất cả các trang đã được lập chỉ mục. Trình thu thập dữ liệu web giúp thu thập thông tin về một trang web và các liên kết liên quan đến chúng và cũng giúp xác thực mã HTML và siêu liên kết.
Trình thu thập dữ liệu Web còn được gọi là trình thu thập dữ liệu Web, trình chỉ mục tự động hoặc đơn giản là trình thu thập thông tin.
Techopedia giải thích Trình thu thập dữ liệu trên web
Trình thu thập dữ liệu web thu thập thông tin như URL của trang web, thông tin thẻ meta, nội dung trang Web, các liên kết trong trang web và các điểm đến dẫn từ các liên kết đó, tiêu đề trang web và bất kỳ thông tin liên quan nào khác. Họ theo dõi các URL đã được tải xuống để tránh tải xuống cùng một trang. Một sự kết hợp của các chính sách như chính sách truy cập lại, chính sách lựa chọn, chính sách song song và chính sách lịch sự xác định hành vi của trình thu thập dữ liệu Web. Có rất nhiều thách thức đối với các trình thu thập dữ liệu web, cụ thể là World Wide Web, liên tục phát triển, lựa chọn nội dung, nghĩa vụ xã hội và đối phó với các đối thủ.
Trình thu thập dữ liệu web là thành phần chính của các công cụ và hệ thống tìm kiếm Web nhìn vào các trang web. Chúng giúp lập chỉ mục các mục Web và cho phép người dùng gửi truy vấn theo chỉ mục và cũng cung cấp các trang web khớp với các truy vấn. Một cách sử dụng khác của trình thu thập dữ liệu Web là trong lưu trữ Web, bao gồm các tập hợp lớn các trang web sẽ được thu thập và lưu trữ định kỳ. Trình thu thập dữ liệu web cũng được sử dụng trong khai thác dữ liệu, trong đó các trang được phân tích cho các thuộc tính khác nhau như thống kê và phân tích dữ liệu sau đó được thực hiện trên chúng.
