美國西部時間 12 月 13 日,微軟發布了可支持多人多語言溝通的 Microsoft Translator 現場翻譯功能(Live Feature)。通過 Microsoft Translator 現場翻譯功能,用戶可借助個人已聯網的智能設備(智能手機、平板電腦和個人計算機等)實現多人、多語言、跨設備且面對面交談的現場翻譯。這一創新技術將不僅讓人類進一步接近徹底打破語言障礙的終極目標,而且距離逼死高薪同傳工作者的日子也又進了一步。
Microsoft Translator 現場翻譯功能提供了豐富多樣的使用場景,解決了用戶在面對面時由于語言不通而導致的交流不暢。例如,幫助身處異國的旅行者更方便地與酒店前臺、出租車司機和博物館導游等進行交流。該功能不僅適用于一對一交談(例如旅行者向酒店前臺問詢),還可以支持一對多互動(例如一名導游與一群游客交談)以及多對多溝通(例如多語言的商務會議和學術討論)。每個人只需在各自的智能設備上打開 Microsoft Translator 應用程序,掃描二維碼并進入聊天界面,即可開始交流。
James Simmonds-Read 在倫敦的兒童福利會工作,他的工作是向移民和難民提供幫助,而他工作對象中的大多是販賣人口罪行的年輕受害者。對于 James Simmonds-Read 而言,克服語言障礙是至關重要的。
「他們都是來尋求避難的,其中相當多數人都面臨語言障礙,」他說。「我們不得不頻繁借助翻譯。」然而,人工翻譯的介入又帶來了額外的挑戰,因為它意味著這些年輕人必須面對第三方譯員說出一些敏感信息。
最近,兒童福利會找到了一個更好的解決方案。他們開始使用 Microsoft Translator 的現場翻譯功能(Live Feature),可借助已聯網的智能手機、平板電腦和個人計算機等設備為多人、多語言、面對面交談提供現場翻譯。
Simmonds-Read 說,這項技術讓他不再需要第三方譯員就可以與兒童福利會所服務的年輕人直接溝通。
人工智能是「主謀」根據微軟提供的資料,Microsoft Translator 凝聚了微軟研究院 20 多年在自然語言處理領域的研究成果,匯集了機器學習(特別是深度學習人工智能)、大數據、 語言學、云計算等多種前沿技術。目前,Microsoft Translator 支持包括中文普通話在內的 9 種語言的語音輸入,近 60 種語言的文字翻譯。全球已有數千家企業在使用微軟自動翻譯技術,以提高業務效率和服務質量。
這一功能以 Microsoft Translator 語音翻譯技術為基礎,該技術已先用于 Skype Translator,后者讓使用不同語言的人群能在網上進行實時交流。
「Skype Translator 能讓被地區和語言阻隔的人順暢交流,「但它不能滿足面對面交談的需求,」微軟人工智能及微軟研究事業部機器翻譯組研究經理 Arul Menezes 說。他和他的同事們都認為,面對面跨語種交流所要用到的技術,應該更接近于《星際迷航》和其他科幻作品中隨處可見的「通用翻譯器」。
對于「個人通用翻譯器」,團隊決定利用業已廣泛采用的移動設備,而不再開發專用的翻譯硬件。Microsoft Translator 團隊項目經理 Tanvi Surti 說:「眼下,智能手機隨處可見,幾乎人手一只。」Surti 負責領導 Microsoft Translator 現場翻譯功能的開發。
該團隊開發了一項技術,讓現有的 Microsoft Translator 手機應用與網站形成了一個整體。「我們花了很多時間思考用戶體驗設計,」Surti 說。「比如我們倆說著兩種不同的語言,我們如何做到快速對接以便有更多的時間和注意力用于考慮交談內容?」
新功能使用起來非常簡單。首先,用戶通過手機端應用或網站登錄這項服務,選擇自己的語言并發起新會話。這一過程將生成一個代碼以及一個二維碼,其他參與者可以輸入這代碼或掃描二維碼加入,然后選擇自己的語言,談話就可以開始了。
交談一方在發言時要按下鍵盤空格鍵或屏幕上的虛擬按鈕,就像使用對講機一樣。幾秒鐘后,他們所說話語的翻譯文本就出現在其他對話參與者的設備屏幕上,當然是以其各自的母語呈現。對于部分語言,系統還提供有聲的語音翻譯。
深層神經網絡機器翻譯技術本身是由運行在云中的算法所驅動的,通過使用基于深層神經網絡的翻譯技術,與先前所謂的「統計型機器翻譯」相比,它能夠提供更流暢、聽起來更有「人味」的翻譯。
兩種方法都涉及根據早前經專業人士翻譯的文檔文本數據對算法進行訓練,以便讓系統了解一種語言中的單詞和短語如何用另一種語言來表達。然而,統計型方法局限在由一兩個鄰近詞語形成的上下文范圍內對某個單詞進行翻譯,這可能會導致翻譯出來的語句笨拙而迂回。
「神經網絡」受到了掌握多門語言的人類在翻譯過程中大腦中發生的模式識別過程的啟發,實現了更自然的語音翻譯。
例如,在非神經世界中,「一群貓」和「一只貓」被視為不同的實體;而人類大腦以及神經網絡則把這兩者視為密切相關的詞。神經網絡也可以解析「住宿」和「星宿」兩個詞中「宿」字的含義區別。Menezes 解釋說:「單詞已經不再被視為它所代表的事物,而是一個包含 500 個維度的向量,其本質是 500 組數字,而每一個數字都反映了這個單詞的某一個方面。」
神經網絡在開始翻譯之前,首先用 1000 個維度的向量對每個單詞在整個句子語境下的含義進行建模,無論這句話有 5 個詞還是 20 個詞都是這樣處理的。這一包含 1000 個維度的模型(而非單詞)隨后被翻譯成另一種語言。
此外,Fontana 表示,隨著該技術被使用的次數越多,翻譯的質量也會不斷提高。他希望看到 Microsoft Translator 能被包括旅行者、導游、教師和社會工作者在內的廣泛的用戶群體所采用。
在兒童福利會供職的 Simmonds-Read 說,他已經可以預見到這項技術的多種用途,包括陪同非英語移民和難民一道參加與政府官員和潛在雇主的會面等。
「人們在不能溝通的時候幾乎是被隔絕的,」他說。
支持多人、多語言、跨設備的 Microsoft Translator 現場翻譯功能已通過現有的 Windows, iOS 和 Android 版本 Microsoft Translator 應用程序更新發布。
Copyright @ 2005-2020 南京同傳翻譯公司 版權所有