Trang Chủ Phát triển Mã thông báo là gì? - định nghĩa từ techopedia

Mã thông báo là gì? - định nghĩa từ techopedia

Mục lục:

Anonim

Định nghĩa - Tokenization có nghĩa là gì?

Mã thông báo là hành động chia chuỗi chuỗi thành các phần như từ, từ khóa, cụm từ, ký hiệu và các yếu tố khác được gọi là mã thông báo. Mã thông báo có thể là các từ riêng lẻ, cụm từ hoặc thậm chí toàn bộ câu. Trong quá trình mã thông báo, một số ký tự như dấu chấm câu bị loại bỏ. Các mã thông báo trở thành đầu vào cho một quy trình khác như phân tích cú pháp và khai thác văn bản.

Mã thông báo được sử dụng trong khoa học máy tính, nơi nó đóng một phần lớn trong quá trình phân tích từ vựng.

Techopedia giải thích mã thông báo

Mã thông báo chủ yếu dựa vào các phương pháp phỏng đoán đơn giản để phân tách các mã thông báo bằng cách thực hiện theo một số bước sau:

  • Mã thông báo hoặc từ được phân tách bằng khoảng trắng, dấu chấm câu hoặc ngắt dòng
  • Khoảng trắng hoặc dấu chấm câu có thể có hoặc không được bao gồm tùy theo nhu cầu
  • Tất cả các ký tự trong các chuỗi liền kề là một phần của mã thông báo. Mã thông báo có thể được tạo thành từ tất cả các ký tự alpha, ký tự chữ và số hoặc chỉ các ký tự số.

Bản thân token cũng có thể là dấu phân cách. Ví dụ, trong hầu hết các ngôn ngữ lập trình, số nhận dạng có thể được đặt cùng với các toán tử số học mà không có khoảng trắng. Mặc dù có vẻ như điều này sẽ xuất hiện dưới dạng một từ hoặc mã thông báo, ngữ pháp của ngôn ngữ thực sự coi toán tử toán học (mã thông báo) là một dấu tách, vì vậy ngay cả khi nhiều mã thông báo được ghép lại với nhau, chúng vẫn có thể được phân tách thông qua toán học nhà điều hành.

Mã thông báo là gì? - định nghĩa từ techopedia