Mục lục:
Định nghĩa - Text to Speech (TTS) có nghĩa là gì?
Chuyển văn bản thành giọng nói (TTS) là một quá trình mô hình hóa ngôn ngữ tự nhiên, đòi hỏi phải thay đổi các đơn vị văn bản thành các đơn vị lời nói để trình bày âm thanh. Điều này trái ngược với lời nói với văn bản, trong đó một công nghệ tiếp nhận lời nói và cố gắng ghi lại chính xác chúng dưới dạng văn bản. Chuyển văn bản thành giọng nói hiện đang phổ biến trong các công nghệ tìm cách kết xuất âm thanh từ văn bản kỹ thuật số để hỗ trợ những người không thể đọc hoặc sử dụng cho các loại sử dụng khác.Techopedia giải thích văn bản thành lời nói (TTS)
Phát triển khả năng chuyển văn bản thành giọng nói bao gồm một số thách thức độc đáo. Đặc biệt trong ngôn ngữ tiếng Anh, nơi có rất nhiều từ đồng âm có cách phát âm khác nhau, các chương trình máy tính dựa vào mô hình xác suất để đoán cách phát âm mong muốn của một từ trong văn bản kỹ thuật số. Chương trình cũng phải chuyển đổi các đơn vị văn bản thành âm vị, đơn vị phát âm lời nói nhỏ nhất. Kết quả là nhiều công nghệ chuyển văn bản thành giọng nói ít hơn không thể sai được, mặc dù các nhà phát triển đã đạt được tiến bộ lớn về các công nghệ này trong nhiều năm.
Theo thời gian, các chuyên gia đã quan sát thấy một số thực tiễn tốt nhất để phát triển TTS. Chúng bao gồm các cơ sở âm vị và cách tiếp cận kết hợp với các phân tích dự đoán. Các chương trình tốt nhất cũng có thể làm việc với các yêu cầu bộ nhớ tối thiểu và dễ cài đặt. Các nhà phát triển tiếp tục làm việc trên các tài nguyên TTS cho bất kỳ ngôn ngữ nào, làm việc thông qua các thách thức lớn của sự mơ hồ và các trở ngại khác để hiển thị chính xác hơn.