Translator cũng có khả năng dịch bài phát biểu. Công nghệ này được tiếp xúc trong tính năng trực tiếp Translator (http://translate.it), các ứng dụng Translator, Skype Translator và cũng ban đầu được thực hiện chỉ có thông qua các tính năng dịch Skype và trong các ứng dụng Microsoft Translator trên iOS và Android, chức năng này bây giờ đã có cho các nhà phát triển với phiên bản mới nhất của mở API dựa trên phần còn lại có sẵn trên cổng thông tin Azure.
Mặc dù nó có vẻ giống như một quá trình chuyển tiếp thẳng tại một cái nhìn đầu tiên để xây dựng một công nghệ dịch thuật từ các viên gạch công nghệ hiện có, nó đòi hỏi công việc nhiều hơn chỉ đơn giản là cắm một hiện “truyền thống” con người-to-máy nhận dạng giọng nói động cơ để dịch văn bản hiện có một.
Để đúng dịch các “nguồn” bài phát biểu từ một ngôn ngữ đến một ngôn ngữ “mục tiêu” khác nhau, Hệ thống đi qua một quá trình bốn bước.
- Nhận dạng giọng nói, để chuyển đổi âm thanh thành văn bản
- TrueText: một công nghệ của Microsoft bình thường hóa văn bản để làm cho nó thích hợp hơn cho dịch thuật
- Dịch thông qua các công cụ dịch văn bản được mô tả ở trên, nhưng trên các mô hình dịch đặc biệt được phát triển cho cuộc nói chuyện thực sự sống
- Chuyển văn bản thành giọng nói, khi cần thiết, để tạo ra âm thanh dịch.
Nhận dạng giọng nói tự động (ASR) Nhận dạng giọng nói tự động (ASR) được thực hiện bằng cách sử dụng hệ thống mạng nơ-ron (NN) đào tạo về phân tích hàng nghìn giờ phát biểu âm thanh đến. Mô hình này được đào tạo về sự tương tác giữa con người với con người chứ không phải là lệnh con người-to-Machine, sản xuất nhận dạng giọng nói được tối ưu hóa cho các cuộc trò chuyện bình thường. Để đạt được điều này, nhiều dữ liệu hơn là cần thiết cũng như một DNN lớn hơn so với truyền thống của con người-to-máy ASRs.
Tìm hiểu thêm về Bài phát biểu của Microsoft cho các dịch vụ văn bản.
Văn bản TrueText Khi con người trò chuyện với những người khác, chúng tôi không nói một cách hoàn hảo, rõ ràng hoặc gọn gàng như chúng ta thường nghĩ rằng chúng ta làm. Với công nghệ TrueText, văn bản chữ được chuyển thành phản ánh chặt chẽ hơn ý định người dùng bằng cách loại bỏ sự disfluout nói (từ phụ), chẳng hạn như “UM” s, “ah”, “và” s, “như” s, stutters, và repetitions. Văn bản này cũng được thực hiện dễ đọc hơn và có thể dịch được bằng cách thêm câu, dấu câu thích hợp và viết hoa. Để đạt được những kết quả này, chúng tôi đã sử dụng những thập kỷ làm việc về công nghệ ngôn ngữ, chúng tôi phát triển từ Translator để tạo TrueText. Sơ đồ sau đây mô tả, thông qua một ví dụ thực, sự chuyển đổi khác nhau TrueText hoạt động để bình thường hóa văn bản chữ này.
Dịch Văn bản sau đó được dịch vào bất kỳ ngôn ngữ và phương ngữ hỗ trợ bởi Translator.
Các bản dịch sử dụng API dịch tiếng nói (như một nhà phát triển) hoặc trong ứng dụng dịch hoặc dịch vụ giọng nói, được hỗ trợ với các bản dịch dựa trên mạng nơ-ron mới nhất cho tất cả các ngôn ngữ Ở đây danh sách đầy đủ). Những mô hình này cũng được xây dựng bằng cách mở rộng các mô hình dịch thuật văn bản hiện tại, chủ yếu là viết, với nhiều văn bản nói-corpora để xây dựng một mô hình tốt hơn cho các loại trò chuyện nói của bản dịch. Các mô hình này cũng có sẵn thông qua danh mục tiêu chuẩn “bài phát biểu” của API dịch văn bản truyền thống.
Đối với bất kỳ ngôn ngữ nào không được hỗ trợ bởi dịch thuật thần kinh, bản dịch SMT truyền thống được thực hiện.
Văn bản sang giọng nói Nếu ngôn ngữ đích là một trong 18 văn bản thành giọng nói được hỗ trợ Ngôn ngữ, và trường hợp sử dụng yêu cầu đầu ra âm thanh, văn bản sau đó được chuyển đổi thành đầu ra giọng nói bằng cách sử dụng tổng hợp giọng nói. Giai đoạn này được bỏ qua trong tình huống dịch giọng nói sang văn bản.
Tìm hiểu thêm về Văn bản của Microsoft để dịch vụ giọng nói.