Trang Chủ Âm thanh Tôi nghe người chết? công nghệ ngôn ngữ tự nhiên làm cho tiếng nói trong quá khứ và hiện tại trở nên sống động

Tôi nghe người chết? công nghệ ngôn ngữ tự nhiên làm cho tiếng nói trong quá khứ và hiện tại trở nên sống động

Mục lục:

Anonim

Những ngày này, hầu hết các giọng nói máy tính là passé. Bạn có thể không quá bận tâm về cyborg và robot khi bạn nghe thấy "droid" trên điện thoại của bạn giúp bạn thanh toán hóa đơn hoặc hỏi bạn muốn bộ phận nào bạn muốn. Nhưng nếu bạn đột nhiên nghe thấy Kurt Cobain chọc bạn về thông tin thẻ thì sao? Hoặc John F. Kennedy nói với bạn về những điều kỳ diệu của việc bỏ phiếu sớm? Hoặc Elvis nhận được tên và địa chỉ của bạn trước khi đột nhập vào "một hunk, một hunk của tình yêu cháy bỏng?"


Tất cả những thứ này sẽ … hơi lạ, nhưng điều hấp dẫn hơn nữa là công nghệ về cơ bản đã có ở đây. Chỉ một thập kỷ trước, chúng tôi đã rất ngạc nhiên bởi khả năng nói chuyện của máy tính. Bây giờ, chúng ta sắp được thả nổi bởi nhiều giọng nói miễn phí, máy tính tạo ra âm thanh giống như mọi người chúng ta biết.

Những thay đổi lớn trong NLP

Nếu bạn chú ý đến lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), bạn có thể đã nghe về một số tiến bộ gần đây vượt xa các giọng nói trợ lý ảo đóng hộp mà chúng ta nghe thấy trong các hệ thống định vị toàn cầu (GPS) và kinh doanh tự động đường dây điện thoại.


Sự khởi đầu của NLP đòi hỏi rất nhiều nghiên cứu về cơ học chung của lời nói của con người. Các nhà nghiên cứu và kỹ sư đã phải xác định ngữ âm riêng lẻ, xếp chúng thành các thuật toán lớn hơn để tạo ra các cụm từ và câu, sau đó cố gắng quản lý tất cả từ đó ở cấp độ meta để tạo ra thứ gì đó nghe có vẻ thực. Theo thời gian, các nhà lãnh đạo NLP đã thành thạo điều này và bắt đầu xây dựng các thuật toán tiên tiến để hiểu con người nói gì. Đặt hai thứ này lại với nhau, các công ty đã đưa ra các trình điều khiển cho các trợ lý ảo ngày nay và các nhân viên thanh toán hóa đơn hoàn toàn bằng kỹ thuật số, có phong cách - trong khi khó chịu - vẫn rất tuyệt vời khi bạn dừng lại để nghĩ về công việc đi vào họ.


Bây giờ, một số công ty đang vượt ra ngoài tiếng nói ảo chung để đưa ra một kết quả được cá nhân hóa cụ thể hơn. Điều này đòi hỏi phải thông qua từ vựng của một người cụ thể và thu thập một lượng lớn video giọng nói độc đáo, sau đó áp dụng kho lưu trữ này cho nhịp điệu phức tạp về ngữ âm, nhấn mạnh, nhịp và tất cả các tín hiệu nhỏ khác mà các nhà ngôn ngữ học thường nhóm theo biểu ngữ rộng rãi của "giai điệu".


Điều phát ra là một giọng nói mà người nghe nghĩ là "thuộc sở hữu" của một người cụ thể - hoặc là người mà họ biết và đã nói chuyện, hoặc người mà họ nhận ra giọng nói là kết quả của sự nổi tiếng của người đó.


Từ Elvis đến Martin Luther King, giọng nói của bất kỳ ai cũng có thể được "nhân bản" theo cách này - miễn là có một bản ghi đáng kể về bài phát biểu của họ. Bằng cách áp dụng phân tích và thao tác chi tiết hơn nữa cho từng âm thanh nhỏ, các công ty có thể tạo ra một bản sao ảo của giọng nói của ai đó nghe rất giống âm thanh thật.

Những sáng tạo "Chuyển văn bản thành giọng nói" thú vị tại VivoText

VivoText, chẳng hạn, là một công ty đang nỗ lực cách mạng hóa việc sử dụng giọng nói nhân tạo cho tất cả các loại chiến dịch, từ audiobook đến phản hồi bằng giọng nói tương tác (IVR). Tại VivoText, các nhóm nghiên cứu và sản xuất đang nghiên cứu các quy trình, về mặt lý thuyết, có thể sao chép cụ thể giọng nói của những người nổi tiếng đã qua đời, như chính Ol Eyes Blue Eyes.


"Để sao chép giọng nói của Frank Sinatra, chúng tôi thực sự sẽ đi qua di sản được ghi âm của anh ấy", Gershon Silbert, CEO của VivoText, nói về cách thức công nghệ này có thể hoạt động.


Ngay bây giờ, VivoText đang làm việc để lưu trữ tiếng nói của những người vẫn còn ở với chúng tôi, chẳng hạn như phóng viên NPR Conan của NPR, người đã đăng ký làm người mẫu cho dự án tiên phong về CNTT này. Một video quảng cáo cho thấy các nhân viên của VivoText đang nỗ lực tạo ra các mô-đun mã ngữ âm bằng cách sử dụng đầu vào bằng giọng nói được cung cấp từ Conan. Sau đó, họ tạo ra các mô hình cho các công cụ chuyển văn bản thành giọng nói (TTS) gợi lên một kết quả nhân cách và nhân cách hóa đáng kể.


Theo Ben Feibeld, phó chủ tịch chiến lược và phát triển kinh doanh tại VivoText, máy tính hoạt động ở cấp độ âm vị (sử dụng các phần nhỏ nhất của lời nói) để phù hợp với mô hình thịnh vượng cho giọng nói của con người.


"Nó biết cách nói chuyện bằng giọng nói", Feibeld nói, bằng cách sử dụng "lựa chọn đơn vị", máy tính chọn một số phần để ghép một từ ngắn, giống như từ "Thứ sáu" được đưa ra năm thành phần giúp phát triển một sự nhấn mạnh đặc biệt và kết quả âm.

Tiếng nói nhân tạo trong tiếp thị

Vì vậy, làm thế nào để làm việc này trong tiếp thị? Các sản phẩm của VivoText có thể cực kỳ hữu ích trong việc tạo ra các sản phẩm, như audiobook, có thể tiếp cận đối tượng mục tiêu. Ví dụ, giọng nói của Elvis sẽ hiệu quả hơn bao nhiêu so với giọng nói tự động, chung chung, tự động ngày nay nếu nó được sử dụng để bán các sản phẩm liên quan đến giải trí?


Hoặc, làm thế nào về chính trị? Feibman đã nghiên cứu các ý tưởng khác nhau để sử dụng các dự án như thế này để tăng cường tiếp thị cho các công ty hoặc các bên khác cần nhắn tin hiệu quả hơn.


"Nếu bạn biết bất kỳ chính trị gia nào tranh cử tổng thống, điều này có thể có 10 triệu cử tri bang swing nhận được một cuộc gọi cá nhân từ một ứng cử viên, cảm ơn họ đã hỗ trợ họ, nói với họ nơi họ cần đi bầu cử, thời tiết và tất cả các trang trí đêm trước cuộc bầu cử, "Feibman nói.

Giọng nói của bạn sống

Có một ứng dụng rõ ràng khác cho tất cả các công nghệ này. Các công ty ngôn ngữ tự nhiên như VivoText có thể tạo ra một dịch vụ cá nhân có thể tải tất cả dữ liệu giọng nói của khách hàng vào một sản phẩm cho phép người đó "nói mãi mãi".


Triển khai thực tế có thể sẽ đưa ra một số câu hỏi về cách chúng ta nghe và tiếp thu giọng nói. Ví dụ, cần những gì để làm cho một luồng âm thanh nghe giống hệt ai đó? Làm thế nào tốt chúng ta phải biết một người để nhận ra một giọng nói cụ thể? Và thật thú vị, điều gì xảy ra nếu một dịch vụ ngôn ngữ tự nhiên tạo ra một bức tranh biếm họa thô thiển, thay vì một sự bắt chước hấp dẫn?


Đánh giá kết quả, Feibeld nói, thường phụ thuộc vào việc xem xét bối cảnh. Ví dụ, ông nói rằng trẻ em thường không đặt câu hỏi về việc ai sẽ nói khi họ nghe một câu chuyện. Họ chỉ muốn nhiều hơn. Nhưng ngoài ra, nhiều người lớn có thể không nghĩ về việc ai đang nói chuyện với họ, đưa ra một kịch bản cụ thể, chẳng hạn như phát sóng thụ động hoặc tin nhắn điện thoại. Ngoài ra, việc đánh lừa máy tính qua điện thoại sẽ dễ dàng hơn vì âm thanh bị bóp nghẹt có thể che giấu những trục trặc hoặc sự khác biệt khác giữa kết quả máy tính và giọng nói của con người.


"Điều đó không xảy ra với bạn để thách thức tính xác thực của giọng nói", Feibeld nói.

Vào năm 2525

Khi các công ty tiến lên trong việc phát triển các sản phẩm và dịch vụ và trả lời những câu hỏi này, các công nghệ "lời nói sống" có thể thúc đẩy chúng ta hướng tới sự hội tụ của công nghệ và trí tuệ con người, được gọi là trí tuệ nhân tạo (AI).


Nếu máy tính có thể nói như chúng ta, chúng có thể lừa người dùng khác nghĩ rằng họ nghĩ giống chúng ta, ăn theo nguyên tắc kỳ dị lớn hơn, khi John von Neumann, một nhà tiên phong công nghệ thời kỳ những năm 1950 được truyền bá bởi các nhà văn và những nhà tư tưởng như Ray Kurzweil. Cuốn sách "The Singularity is near" của Kurzweil năm 2005 đã kích thích một số người và khiến những người khác sợ hãi. Kurzweil dự đoán rằng vào năm 2045, "trí thông minh" như một hiện tượng sẽ trở nên vô dụng từ bộ não con người và di chuyển vào công nghệ, làm mờ ranh giới giữa máy móc và chủ nhân của chúng.


Bất tử trong lời bài hát "In the Year 2525" của Zager & Evans (không ai làm những bản ballad khoa học viễn tưởng rùng rợn như những kẻ này)


Vào năm 4545

Bạn sẽ không cần răng, sẽ không cần

đôi mắt của bạn

Bạn sẽ không tìm thấy thứ gì để nhai

Không ai sẽ nhìn vào bạn


Vào năm 5555

Cánh tay bạn khập khiễng ở hai bên

Chân của bạn không có gì để làm

Một số máy đang làm điều đó cho bạn


Là máy tính lên tiếng một bước theo hướng này? Là một cách mới để thuê ngoài một số chức năng của cơ thể con người (hay phổ biến hơn là mô phỏng chúng), loại tiến bộ công nghệ này là một trong những tiến bộ lớn nhất - và có thể không được báo cáo - tiến lên trong tương lai đơn lẻ . (về "điểm kỳ dị" trong Máy tính sẽ có thể bắt chước tâm trí con người?)

Tôi nghe người chết? công nghệ ngôn ngữ tự nhiên làm cho tiếng nói trong quá khứ và hiện tại trở nên sống động