Trình thu thập dữ liệu web là gì? - định nghĩa từ techopedia

2025

Mục lục:

Định nghĩa - Web Crawler có nghĩa là gì?
Techopedia giải thích Trình thu thập dữ liệu trên web

Định nghĩa - Web Crawler có nghĩa là gì?

Trình thu thập dữ liệu Web là một bot Internet giúp lập chỉ mục Web. Họ thu thập dữ liệu một trang tại một thời điểm thông qua một trang web cho đến khi tất cả các trang đã được lập chỉ mục. Trình thu thập dữ liệu web giúp thu thập thông tin về một trang web và các liên kết liên quan đến chúng và cũng giúp xác thực mã HTML và siêu liên kết.

Trình thu thập dữ liệu Web còn được gọi là trình thu thập dữ liệu Web, trình chỉ mục tự động hoặc đơn giản là trình thu thập thông tin.

Techopedia giải thích Trình thu thập dữ liệu trên web

Trình thu thập dữ liệu web thu thập thông tin như URL của trang web, thông tin thẻ meta, nội dung trang Web, các liên kết trong trang web và các điểm đến dẫn từ các liên kết đó, tiêu đề trang web và bất kỳ thông tin liên quan nào khác. Họ theo dõi các URL đã được tải xuống để tránh tải xuống cùng một trang. Một sự kết hợp của các chính sách như chính sách truy cập lại, chính sách lựa chọn, chính sách song song và chính sách lịch sự xác định hành vi của trình thu thập dữ liệu Web. Có rất nhiều thách thức đối với các trình thu thập dữ liệu web, cụ thể là World Wide Web, liên tục phát triển, lựa chọn nội dung, nghĩa vụ xã hội và đối phó với các đối thủ.

Trình thu thập dữ liệu web là thành phần chính của các công cụ và hệ thống tìm kiếm Web nhìn vào các trang web. Chúng giúp lập chỉ mục các mục Web và cho phép người dùng gửi truy vấn theo chỉ mục và cũng cung cấp các trang web khớp với các truy vấn. Một cách sử dụng khác của trình thu thập dữ liệu Web là trong lưu trữ Web, bao gồm các tập hợp lớn các trang web sẽ được thu thập và lưu trữ định kỳ. Trình thu thập dữ liệu web cũng được sử dụng trong khai thác dữ liệu, trong đó các trang được phân tích cho các thuộc tính khác nhau như thống kê và phân tích dữ liệu sau đó được thực hiện trên chúng.

Trình thu thập dữ liệu web là gì? - định nghĩa từ techopedia

Dữ liệu số: tại sao những gì được thu thập lại quan trọng

Vào tháng 6 năm 2012, Ủy ban Thương mại Liên bang đã đánh giá mức phạt 800.000 đô la đối với Spokeo, một người thu thập dữ liệu. FTC cho biết Spokeo đã vi phạm Đạo luật báo cáo tín dụng công bằng bằng cách tiếp thị hồ sơ người tiêu dùng của mình mà không thực hiện ...

Ai sở hữu tất cả các dữ liệu thu thập về bạn? câu trả lời có thế làm bạn ngạc nhiên

Khách mời của tôi vào Chủ nhật ngày 26 tháng 10 của Chương trình phát thanh johnmac hàng tuần là biên tập viên của blog / bản tin dữ liệu dữ dội và là tác giả của Bói toán dữ liệu: Chiến lược dữ liệu lớn, Pam Baker. Trong quá trình ...

Trình thu thập dữ liệu web là gì? - định nghĩa từ techopedia

Mục lục:

Định nghĩa - Web Crawler có nghĩa là gì?

Techopedia giải thích Trình thu thập dữ liệu trên web

Dữ liệu số: tại sao những gì được thu thập lại quan trọng

Ai sở hữu tất cả các dữ liệu thu thập về bạn? câu trả lời có thế làm bạn ngạc nhiên

Làm thế nào để quét dữ liệu cho học máy trở thành nút cổ chai tốn nhiều công sức nhất kể từ khi nhập dữ liệu thủ công trong di chuyển kế thừa?

Lựa chọn của người biên tập

Web 2.0 là gì? - định nghĩa từ techopedia

Web 3.0 là gì? - định nghĩa từ techopedia

Sáng kiến truy cập web (wai) là gì? - định nghĩa từ techopedia

Tác giả web là gì? - định nghĩa từ techopedia

Lựa chọn của người biên tập

Bigquery là gì? - định nghĩa từ techopedia

Root là gì? - định nghĩa từ techopedia

Một trang web hợp tác là gì? - định nghĩa từ techopedia

Luật của Godwin là gì? - định nghĩa từ techopedia

Lựa chọn của người biên tập

Ngôn ngữ lệnh máy in (pcl) là gì? - định nghĩa từ techopedia

Máy nén / giải nén (codec) là gì? - định nghĩa từ techopedia

Pentium là gì? - định nghĩa từ techopedia

Thiết bị ngoại vi là gì? - định nghĩa từ techopedia

Lựa chọn của người biên tập

Google chrome là gì? - định nghĩa từ techopedia

Hỗ trợ cuối cùng là gì? - định nghĩa từ techopedia

Một sản phẩm cuối đời (sản phẩm eol) là gì? - định nghĩa từ techopedia

Hội tụ từ di động đến di động (mmc) là gì? - định nghĩa từ techopedia

Lựa chọn của người biên tập

Quản lý thông tin sản phẩm doanh nghiệp (epim) là gì? - định nghĩa từ techopedia

Một màn hình hiển thị head-up (hud) là gì? - định nghĩa từ techopedia

Phân vùng tương đương (ep) là gì? - định nghĩa từ techopedia

Một mmorpg là gì? - định nghĩa từ techopedia

Các loại phổ biến