Trang Chủ Phần mềm Công nghệ nhận dạng giọng nói: hữu ích hay đau đớn?

Công nghệ nhận dạng giọng nói: hữu ích hay đau đớn?

Mục lục:

Anonim

Bạn đã bao giờ gọi cho một công ty để nhận được sự giúp đỡ hoặc thanh toán hóa đơn của mình, chỉ để được chào đón bằng một giọng nói dễ nghe muốn nói chuyện với bạn - nhưng không thể hiểu được một nửa những gì bạn đang nói? Hoặc có thể bạn sở hữu một chiếc iPhone và trong khi Siri lần đầu tiên có vẻ là một đồng minh tốt, bạn đã nhận ra rằng đôi khi (OK, hãy trung thực, thường xuyên), cô ấy chỉ không nhận được nó? Công nghệ nhận dạng giọng nói (VRT), còn được gọi là lời nói thành văn bản, rơi vào một cái bẫy phổ biến: nó có khả năng cực kỳ tuyệt vời (và cậu bé, chúng ta đang tìm kiếm nó), nhưng thường xuyên hơn, đó là nghiến răng tập thể dục trong thất vọng.


Từng là một ý tưởng thuộc về lĩnh vực khoa học viễn tưởng, nhận dạng giọng nói đã phát triển từ thời kỳ đầu của thập niên 1950, khi hệ thống Bell Lab Laboratory Audrey được thiết kế để nhận ra các chữ số được nói bằng một giọng nói, với mạng điện tử hiện đại mà chúng ta hiện đang tương tác trên cơ sở hàng ngày - với kết quả hỗn hợp.

Để nói chuyện với con người, vui lòng bấm 0

Nhiều doanh nghiệp ngày nay sử dụng các hệ thống được gọi là phản hồi bằng giọng nói tương tác (IVR) để xử lý các cuộc gọi dịch vụ khách hàng. Việc sử dụng phổ biến nhất là cho các menu điều hướng bằng giọng nói, nhưng một số công ty sử dụng các hệ thống IVR có thể truy cập thông tin tài khoản của khách hàng và trả lời các câu hỏi nhỏ. Phần mềm Menu IVR thường có vốn từ vựng hạn chế, có thể bị giới hạn ở "có", "không" và số. Các hệ thống phức tạp hơn có thể nhận ra các từ và cụm từ dành riêng cho công ty.


Các hệ thống này đang trở nên phổ biến hơn - ít nhất là đối với các doanh nghiệp - vì một lý do đơn giản: chúng có hiệu quả về chi phí. Theo báo cáo năm 2010 của Tạp chí Phố Wall, một cuộc gọi của khách hàng thông thường đạt được một đại lý có giá từ 3 đến 9 đô la, trong khi một cuộc gọi được xử lý thông qua một hệ thống tự động chỉ tốn từ năm đến bảy xu. Và, tất nhiên, các chương trình máy tính không mệt mỏi, bị bệnh hoặc trở nên thất vọng với khách hàng (mặc dù khách hàng chắc chắn trở nên thất vọng với họ!).


May mắn thay, điều này không phải lúc nào cũng có nghĩa là IVR lấy đi công việc của mọi người - hoặc ít nhất là tất cả mọi người đang biến mất khỏi các trung tâm cuộc gọi. Những người trợ giúp kích hoạt bằng giọng nói này cho phép đại diện dịch vụ khách hàng của con người làm việc hiệu quả hơn bằng cách điều khiển các cuộc gọi và trả lời các câu hỏi đơn giản.


Tất nhiên, đối với người dùng tương tác với các công nghệ này, không phải lúc nào cũng thuận buồm xuôi gió. Công nghệ đang giúp cải thiện các vấn đề phổ biến trong công nghệ IVR, chẳng hạn như sự cố với các điểm nhấn, nhưng việc sa thải các hệ thống tự động vẫn là một chủ đề phổ biến trực tuyến. Kiểm tra tiểu phẩm hài này về một thang máy được trang bị nhận dạng giọng nói, trong đó nêu bật sự thất vọng mà các trục trặc trong hệ thống IVR có thể tạo ra.

Ứng dụng điện thoại cá nhân: Siri, Google Now

Hầu hết mọi người đều quen thuộc với nhận dạng giọng nói cho điện thoại thông minh. Trong khi phần lớn các mẫu điện thoại mới nhất đi kèm với VR, thì sự nổi tiếng của họ - và nổi tiếng - đã tăng lên khi Apple giới thiệu Siri, "trợ lý cá nhân" được kích hoạt bằng giọng nói nhẹ nhàng cho iPhone 4S vào năm 2011. Google sớm tạo ra một đối thủ cạnh tranh trực tiếp: Google Bây giờ cho hệ điều hành Android Jelly Bean. Cả hai hệ thống đều có giọng nói nữ và các tính năng nhận dạng tinh vi cho phép người dùng "nói chuyện" với điện thoại của họ bằng ngôn ngữ thông thường.


Nhưng trong khi các hệ thống này tinh vi và chức năng hơn đáng kể so với người tiền nhiệm, chúng cũng cho thấy công nghệ này vẫn còn một chặng đường dài. Truyện cười về thất bại của Siri đã trở thành một meme Internet phổ biến. Một người đàn ông thậm chí đã kiện Apple vì quảng cáo sai về khả năng của Siri.


Có lẽ đó là lý do tại sao Apple tạo ra Siri để trở nên tiên tiến và nhiều thông tin hơn, phần mềm VR cũng có một chút về phía hỗn xược. Ví dụ: nếu bạn nói một trong những dòng công nghệ tình báo khét tiếng nhất trong lịch sử điện ảnh từ bộ phim năm 2001 "2001: A Space Odyssey" - "mở cửa khoang bay" - Siri sẽ trả lời bằng câu trả lời từ bộ phim, " Tôi xin lỗi (tên của bạn), tôi sợ rằng tôi không thể làm điều đó ", hoặc mỉa mai hơn, " chúng tôi các nhân viên tình báo sẽ không bao giờ sống như vậy, rõ ràng. "


Gọi bạn bằng tên chỉ là một trong những chức năng cố gắng làm cho Siri dễ yêu hơn, và con người hơn một chút. Trợ lý VR có thể thực hiện theo lệnh thoại để thực hiện cuộc gọi, đọc chính tả và gửi văn bản, thực hiện tìm kiếm thông tin trên Internet, tìm cửa hàng gần đó, chỉ đường lái xe và hơn thế nữa, tất cả mà không cần phải chạm vào bất cứ điều gì. Câu trả lời được nói đồng thời qua điện thoại và hiển thị trên màn hình.


Google Now, phần VR của nền tảng Android Jelly Bean, rất giống với Siri. Hệ thống này cung cấp các khả năng nhận dạng rộng rãi tương tự bằng cách dịch lời nói thông thường thành các lệnh cho phép người dùng thực hiện cuộc gọi, gửi văn bản, chạy tìm kiếm, thực hiện tính toán và chuyển đổi, lấy định nghĩa từ, đặt báo thức, phát bài hát và nhận bản đồ và chỉ đường.


Với các trợ lý giọng nói cá nhân như Siri và Google Now, những lợi ích là rõ ràng. Mọi thứ từ gọi điện và nhắn tin đến tìm kiếm và giải trí đều nhanh hơn và dễ dàng hơn. Chỉ cần nói những gì bạn muốn và (hầu hết thời gian) ứng dụng VR sẽ lấy nó cho bạn. Công nghệ thực hành của VR đặc biệt hữu ích khi lái xe. Và trong khi nhiều người đã chê bai những sai sót của Siri, và các nhà văn đã lập luận rằng khả năng điều hành cuộc sống của người dùng về cơ bản của Google Now là một sự xúc phạm đôi chút, hầu hết mọi người vẫn cảm thấy những công nghệ tương lai này khá tuyệt vời.


Tất nhiên, các ứng dụng điện thoại cá nhân như Siri và Google Now không hoàn hảo - mặc dù chúng cho thấy công nghệ này có thể dẫn đầu trong tương lai. Điều đó có nghĩa là ngay cả khi Siri đưa ra một câu trả lời sai, chúng ta vẫn có thể cười và tha thứ cho cô ấy, biết rằng phiên bản tiếp theo sẽ tốt hơn nhiều.

Trường hợp VR rơi phẳng

Nếu bạn đã từng gặp IVR khi bạn gọi cho một doanh nghiệp, bạn có thể đã nhận thấy những rào cản nhất định trong giao tiếp. Một số chương trình sử dụng giọng nói chuyển văn bản thành giọng nói robot phát âm sai từ và làm cho mọi thứ trở nên khó hiểu. Những người khác có vấn đề về độ nhạy dẫn đến việc phần mềm không thể xử lý những gì bạn đang nói nếu bạn quá to, quá mềm hoặc không phát âm cẩn thận.


Ngoài ra, nhiều người vẫn không cảm thấy thoải mái khi nói chuyện với máy. Nếu bạn chạy một vài tìm kiếm trên IVR, bạn sẽ bắt gặp những danh sách mọi người đã cùng nhau tìm cách vượt qua các hệ thống IVR và đến với "người thật". Các giải pháp này bao gồm từ "tiếp tục nhấn 0 cho người vận hành" đến "chửi rủa máy cho đến khi nó lấy được con người". Kết quả là, phần lớn sự phát triển gần đây trong các hệ thống IVR đã xoay quanh việc làm cho chúng trở nên ngon miệng hơn đối với con người; làm cho giọng nói trở nên thông cảm hơn và ít robot hơn, làm cho hệ thống dễ điều hướng hơn và cho người gọi biết toàn bộ sự việc sẽ mất bao lâu từ đầu đến cuối. Điều đó cho thấy công nghệ tốt hơn chỉ là một nửa trận chiến ở đây; nửa còn lại bắt người dùng lên máy bay nói chuyện với máy.

Những mục tiêu trong tương lai là gì

Bất chấp những thách thức này, công nghệ nhận dạng giọng nói đang được cải thiện mọi lúc. Các ứng dụng như Siri và Google Now - sai sót và tất cả - vẫn cực kỳ ấn tượng về hiệu suất của chúng và một số công ty đang mở rộng khả năng VR sang các ứng dụng khác.


Ví dụ, Nuance, người tạo ra phần mềm phát âm văn bản Dragon NataturalSpeaking, đã phát triển điều khiển giọng nói cho TV và ô tô, và các phiên bản của công nghệ này được tích hợp vào một số TV Samsung và hệ thống giải trí SYNC được sử dụng trong một số xe Ford.


Và khi Google và Apple tiếp tục tìm ra cách sử dụng mới cho các công nghệ nhận dạng giọng nói của họ, có khả năng chúng ta sẽ ngày càng nói chuyện với tất cả các loại máy móc hàng ngày, từ TV đến máy nướng bánh mì của chúng ta. Và, một lần nữa, có vẻ như khoa học viễn tưởng đã đúng. Chúng ta chỉ cần hy vọng những nhà văn thông minh đó đã sai về một điều. Nếu các máy này đang tiếp quản, bạn có thể gặp nhiều rắc rối vào lần tới khi bạn yêu cầu Siri "mở cửa khoang pod".

Công nghệ nhận dạng giọng nói: hữu ích hay đau đớn?