Mục lục:
Định nghĩa - Canonicalization có nghĩa là gì?
Canonicalization là quá trình chuyển đổi dữ liệu liên quan đến nhiều hơn một đại diện thành một định dạng được phê duyệt tiêu chuẩn. Chuyển đổi như vậy đảm bảo rằng dữ liệu phù hợp với quy tắc chính tắc. Điều này so sánh các biểu diễn khác nhau để đảm bảo tính tương đương, để đếm số lượng cấu trúc dữ liệu riêng biệt, để áp đặt thứ tự sắp xếp có ý nghĩa và cải thiện hiệu quả thuật toán, do đó loại bỏ các phép tính lặp đi lặp lại.
Canonicalization được sử dụng trong nhiều ứng dụng Internet và máy tính để tạo dữ liệu chính tắc từ thông tin phi núi. Đại diện dữ liệu Canonical được sử dụng rộng rãi trong
tối ưu hóa công cụ tìm kiếm (SEO), máy chủ Web, Unicode và XML.
Thuật ngữ này còn được gọi là C14N, chuẩn hóa hoặc chuẩn hóa.
Techopedia giải thích Canonicalization
Trong SEO, chuẩn hóa URL liên quan đến nội dung Web với nhiều hơn một URL có thể. Điều này có thể tạo ra sự khác biệt trong các tìm kiếm vì công cụ tìm kiếm có thể không biết URL nào sẽ được hiển thị. Canonicalization chọn URL tốt nhất từ một số lựa chọn, thường là tham khảo các trang chủ. Mặc dù các URL nhất định có vẻ giống nhau, các máy chủ Web trả về các kết quả khác nhau cho các URL. Các công cụ tìm kiếm chỉ xem xét một URL ở dạng chính tắc.
Bảo mật máy tính được dựa trên tiêu chuẩn hóa tên tập tin. Một số máy chủ Web có thể có quy tắc bảo mật để thực thi các tệp chỉ trong một thư mục cụ thể. Sau đó, tệp chỉ được thực hiện nếu đường dẫn có thư mục được chỉ định trong tên của nó. Chăm sóc đặc biệt phải được thực hiện để kiểm tra nếu tên tập tin là một đại diện duy nhất. Lỗ hổng như vậy được gọi là thư mục traversal.
Hầu hết các ký tự trong tiêu chuẩn Unicode có mã hóa độ dài thay đổi. Điều này đòi hỏi phải xem xét từng ký tự chuỗi và làm cho việc xác thực chuỗi trở nên phức tạp hơn. Nếu tất cả các mã hóa ký tự không được xem xét trong quá trình triển khai phần mềm, sẽ phát sinh khả năng xảy ra lỗi. Vấn đề này có thể được loại bỏ bằng cách sử dụng mã hóa duy nhất cho mỗi ký tự. Cách thay thế tốt nhất, mà bất kỳ phần mềm nào cũng có thể thực hiện, là kiểm tra xem chuỗi có được hợp quy hóa hay không. Các chuỗi không được chuẩn hóa có thể bị từ chối.
Tài liệu XML chính tắc là tài liệu XML ở dạng chính tắc XML. Nó được định nghĩa bởi đặc tả XML chuẩn. Canonicalization trong XML giúp loại bỏ khoảng trắng trong các thẻ, sắp xếp các tham chiếu không gian tên và loại bỏ các phần thừa và sử dụng các mã hóa ký tự cụ thể. Nó cũng loại bỏ các khai báo XML và DOCTYPE, ngoài việc chuyển đổi các URL tương đối thành các URL tuyệt đối.
