聚焦AI,讀懂下一個大時代!
今天上午,由中國互聯(lián)網(wǎng)協(xié)會主辦的2017中國互聯(lián)網(wǎng)大會在北京北京舉行。會上,谷歌翻譯研發(fā)科學(xué)家高勤發(fā)表了《利用機器學(xué)習(xí)消除語言障礙》 的演講,闡述了谷歌神經(jīng)網(wǎng)絡(luò)翻譯背后的技術(shù)以及未來研發(fā)的方向。
全球僅20%的人能看懂英文,谷歌翻譯支持100種語言翻譯
據(jù)悉,谷歌翻譯在2006年就已經(jīng)推出,經(jīng)過11年的發(fā)展已經(jīng)支持超過100種語言的翻譯,覆蓋世界99%的網(wǎng)民。據(jù)高勤透露,谷歌翻譯每天提供超過10億次的翻譯,月度活躍用戶超過10億人次,其中95%來自于美國以外地區(qū)。
目前,谷歌翻譯支持手機攝像頭識別即時翻譯,手機麥克風(fēng)和揚聲器即時對話翻譯,離線翻譯等等。
高勤在會上解釋了谷歌翻譯服務(wù)推出的原因,“今天全世界互聯(lián)網(wǎng)內(nèi)容中英文占到了50%。與此同時僅有20%的人口能夠看懂英文??梢哉f對于世界上大多數(shù)的人來說互聯(lián)網(wǎng)上的大部分內(nèi)容是與他們絕緣的。”
神經(jīng)網(wǎng)絡(luò)翻譯初露鋒芒,已堪比非專業(yè)人工翻譯
而谷歌翻譯質(zhì)量的大幅提升則得益于神經(jīng)網(wǎng)絡(luò)翻譯的發(fā)展。據(jù)悉,谷歌的神經(jīng)網(wǎng)絡(luò)翻譯從2015年9月研發(fā),13個月后上線。谷歌的測試顯示,神經(jīng)網(wǎng)絡(luò)機器翻譯和非專業(yè)人工翻譯已經(jīng)相當(dāng)接近,對于英中、中英翻譯也取得最大的提升。
高勤還透露了谷歌神經(jīng)網(wǎng)絡(luò)研發(fā)的過程。高勤稱,谷歌神經(jīng)網(wǎng)絡(luò)在研發(fā)之初預(yù)期要花三年時間來完成,但實際發(fā)布時間超乎我們意料。據(jù)了解,2015年9月,谷歌翻譯項目開始基于TensorFlow研發(fā),2016年2月獲得首個產(chǎn)品規(guī)模模型,2016年11月總計16個語言上線,自此神經(jīng)網(wǎng)絡(luò)機器翻譯初具規(guī)模。目前,谷歌翻譯中超過50%的流量采用神經(jīng)網(wǎng)絡(luò)翻譯。這得益于谷歌在機器學(xué)習(xí)軟硬件上的全面布局,尤其是谷歌張量處理器(TPU)的誕生。
高勤認為,神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)技術(shù)是一種革命性的改變?;诙陶Z的統(tǒng)計機器翻譯是拼圖過程,通過對短語對的排列和組合,嘗試找出較好的翻譯選項,而整個決策過程是離散的,支持這個決策的信息也都是局部的。神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)反其道而行之,做每一步翻譯過程中可以利用云語言與目標(biāo)語言所有信息,使整個決策過程既是連續(xù)也是全局的。
探索多語言模型:疑似發(fā)現(xiàn)多語言的通用語!
然而,從一個實驗室研究結(jié)果到服務(wù)10億人的產(chǎn)品,其中仍有很長的路要走。
目前來看,因為語言的不同,谷歌翻譯仍需要對200個模型進行訓(xùn)練與維護,這仍然是極為繁重的任務(wù)。因此,谷歌翻譯目前已將目光投向多語言模型。所謂多語言模型是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種語言的互相翻譯。如,可以將英語、西班牙語、韓語放在同一個翻譯模型中進行翻譯。高勤稱,實現(xiàn)多語言模型的機器翻譯其方法可以非常簡單,只需要將我們想要翻譯的目標(biāo)語言代碼通過特殊符號形式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可以處理多種語言的翻譯。如,要翻譯到日語,只需要在原語言前加入2ja+簡單符號。通過這樣處理的多語言簡單符號,很多情況下其性能超過單語言情況。
高勤同時指出,多語言模型可以非常好地處理零數(shù)據(jù)翻譯,無需通過英語中轉(zhuǎn)就可以實現(xiàn)兩者非英語語言的翻譯,這為未來構(gòu)建統(tǒng)一翻譯模型提供了可能性。
最新研究顯示,谷歌翻譯團隊目前對多語言模型、以及在神經(jīng)網(wǎng)絡(luò)內(nèi)部對不同語言中意義相近的句子向量表示進行多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域,這表明神經(jīng)網(wǎng)絡(luò)內(nèi)部對多種語言的表示具有一定的普適性。高勤表示,“這是否代表我們找到了一種能夠代表多種語言的通用語呢?現(xiàn)在還不能確定。我認為還需要進一步研究。”
谷歌翻譯下一步:探究新的模型結(jié)構(gòu),追求性能極限
目前,谷歌已經(jīng)推出神經(jīng)網(wǎng)絡(luò)機器翻譯模型,其API接口已提供開發(fā)者下載使用。高勤稱,下一步我們將繼續(xù)致力于改進數(shù)字、日期、姓名、品牌以及不常見短語翻譯,同時進一步研究新的模型結(jié)構(gòu)與訓(xùn)練方法。
高勤稱,過去一年的研究,我們對神經(jīng)網(wǎng)絡(luò)機器翻譯的認識仍然非常膚淺。我們認為神經(jīng)網(wǎng)絡(luò)機器翻譯僅僅是初露鋒芒,并沒有達到性能的極限。
已有0人發(fā)表了評論