Q:
Sự khác biệt giữa lời nói với văn bản và chatbot là gì?
A:Nhiều sự khác biệt đáng kể giữa công nghệ chuyển văn bản và chatbot là một phần của những gì đang được kiểm tra trong quá trình phát triển nhanh chóng của các dự án chatbot và voicebot.
Công nghệ chuyển lời nói thành văn bản đơn giản là công nghệ chuyển đổi lời nói thành văn bản trên trang kỹ thuật số. Đó là chức năng đầy đủ của nó, nhưng nó không phải là một thiết kế đơn giản. Để chuyển đổi lời nói thành văn bản, công nghệ phải chia các từ và câu thành các âm vị riêng lẻ và làm việc với chúng theo các thuật toán phức tạp để tạo ra văn bản chính xác và thể hiện những gì người nói nói.
Chatbots, mặt khác, là những công nghệ hoàn thành mục tiêu giao tiếp với con người. Có hai loại chatbot: chatbot văn bản và voicebots. Các chatbot văn bản đã tồn tại lâu hơn nhiều, vì chúng không cần yếu tố chuyển lời nói thành văn bản mà các voicebots sử dụng.
Sự khác biệt chính giữa công nghệ lời nói và văn bản trò chuyện là phạm vi. Như đã đề cập, tất cả các công nghệ chuyển lời nói thành văn bản cần làm là phiên âm lời nói bằng lời nói. Mặt khác, chatbot cần có bài phát biểu dưới bất kỳ hình thức nào được tạo ra, hiểu nó và đưa ra các phản hồi tìm cách vượt qua bài kiểm tra Turing - bài kiểm tra xem liệu công nghệ có thể đánh lừa con người nghĩ rằng mình là ai không nói chuyện với người khác.
Với ý nghĩ đó, chatbot dễ dàng tạo ra hơn nhiều so với voicebots. Chatbot nhận văn bản của con người và cung cấp phản hồi văn bản. Ngay cả các chatbot tương đối đơn giản cũng có thể cung cấp kết quả thú vị và thú vị cho con người kể từ cuối những năm 1980 và đầu những năm 1990.
Mặt khác, voicebot phải thực hiện lời nói bằng lời nói, chuyển đổi nó thành văn bản, kiểm tra độ chính xác, tạo phản hồi và xây dựng phản hồi đó từ ngôn ngữ máy thành lời nói có thể nghe được. Số lượng lớn các tác vụ khá quan trọng này có nghĩa là voicebot cần rất nhiều sức mạnh tính toán và rất nhiều thiết kế để xây dựng.
Các dự án như Siri, Cortana và Alexa là một phần của sự tiên phong trong công nghệ voicebot. Họ cũng minh họa rằng công nghệ này vẫn còn ở giai đoạn sơ khai. Mặc dù Alexa và các công nghệ khác có thể phản ứng bằng lời nói với lời nói của con người, nhưng chúng không thực sự có khả năng theo nghĩa mà chúng ta liên kết với lời nói của con người nói chung. Nói cách khác, có khá nhiều hạn chế đối với các phản hồi mà các công nghệ này có thể cung cấp. Thậm chí còn có một khả năng hạn chế của thế hệ trợ lý cá nhân ngày nay để thực sự tạo ra lời nói thành văn bản, ví dụ, cho mục đích sao chép email hoặc giúp ai đó viết một bài luận mà không cần dùng tay. Một số chương trình chuyển lời nói cụ thể trên thị trường thực hiện việc này tốt hơn Siri hoặc Cortana, có thể là do phân bổ nguồn lực. Tuy nhiên, có những dấu hiệu cho thấy tiến trình voicebot sẽ sớm được thực hiện - chẳng hạn như nền tảng Lex của Amazon cho phép môi trường phòng thu để xây dựng các loại công nghệ này.
Trong một bài luận thông minh và mang tính hướng dẫn về chủ đề này, Tobias Goebel nói về sự khác biệt giữa các công nghệ này, trái ngược với quá trình phiên mã, mà bài phát biểu thành văn bản, với công việc hiểu, mà các chatbot phải làm.
Trong khi loại bỏ nhu cầu nhận dạng giọng nói sẽ giúp mọi thứ trở nên dễ dàng hơn đối với một chatbot, thách thức chính để xây dựng các bot hoạt động nằm ở sự hiểu biết ngôn ngữ tự nhiên, ông Go Goelel viết.
Goebel cũng xác định nhiều người chơi hiện tại trong ngành:
Người dẫn đầu thị trường về nhận dạng giọng nói là Nuance, người đứng sau các hệ thống nổi tiếng như Dragon NataturalSpeaking để đọc chính tả trên PC, xuất hiện từ những năm 1990, nhưng Siri: nhiệm vụ nhận dạng / phiên âm giọng nói được thực hiện trong đám mây của Apple sử dụng Công nghệ Nuance đằng sau hậu trường. Các dịch vụ khác là LumenVox, Verbio hoặc Tương tác, nhưng nhận dạng giọng nói hiện cũng được cung cấp dưới dạng dịch vụ đám mây thông qua API bởi những người như Amazon, Google, Microsoft và IBM.
Khi chatbot phát triển, người ta cho rằng sự hiểu biết của họ sẽ tiếp tục tăng theo một số quỹ đạo - và cũng chủ yếu giả định rằng nhiều công nghệ bot sẽ chuyển từ giao diện văn bản sang giao diện bằng lời nói, đòi hỏi thêm sức mạnh tính toán.