文章來源:GoogleBlog 翻譯:黃瑋 文章投稿:news@top25.cn 谷歌發(fā)布tf-seq2seq開源框架 4月11日,Google的大腦研究團(tuán)隊(duì)發(fā)布了 tf-seq2seq這個(gè)開源的TensorFlow框架,它能夠輕易進(jìn)行實(shí)驗(yàn)而達(dá)到現(xiàn)有的效果,團(tuán)隊(duì)制作了該框架的代碼庫(kù)和模塊等,能夠最好地支持其功能。 去年,該團(tuán)隊(duì)發(fā)布了Google神經(jīng)機(jī)器翻譯(GoogleNeural Machine Translation,GNMT),它是一個(gè)序列到序列sequence-to-sequence(“seq2seq”)的模型,目前用于Google翻譯系統(tǒng)中。雖然GNMT在翻譯質(zhì)量上有長(zhǎng)足的進(jìn)步,但是它還是受限于訓(xùn)練的框架無(wú)法對(duì)外部研究人員開放的短板。 tf-seq2seq:支持各種標(biāo)準(zhǔn)seq2seq模型的配置
一個(gè)seq2seq模型能夠翻譯普通話到英文,每次翻譯中,編碼器都會(huì)處理1個(gè)漢字(黑色箭頭),并生產(chǎn)一個(gè)輸出向量(見藍(lán)色箭頭),解碼器會(huì)逐字生成英文翻譯,每次都處理最后一個(gè)詞的前一個(gè)狀態(tài),并處理一個(gè)加權(quán)的所有的編碼輸出(aka attention[3],藍(lán)色),最后輸出下一個(gè)英文詞。注意在應(yīng)用中研究人員使用的是wordpieces[4]來處理生詞。 tf-seq2seq:應(yīng)用于各種序列到序列的任務(wù) 除了機(jī)器翻譯外,tf-seq2seq能夠應(yīng)用于序列到序列的任務(wù)(例如學(xué)習(xí)基于一個(gè)輸入序列產(chǎn)生輸出序列的情況),包括機(jī)器總結(jié)、圖像處理、語(yǔ)言識(shí)別和對(duì)話建模。該研究團(tuán)隊(duì)希望提出的新框架能夠加速深度學(xué)習(xí)的研究,具體可以見其GitHub的項(xiàng)目庫(kù)GitHub repository。 論文摘要 神經(jīng)機(jī)器翻譯(NMT)在過去幾年中取得了顯著的進(jìn)步,現(xiàn)在生產(chǎn)系統(tǒng)正在部署到終端用戶。 目前架構(gòu)的一個(gè)主要缺點(diǎn)是訓(xùn)練費(fèi)用昂貴,通常需要幾天到幾周的GPU時(shí)間來收斂。 這使得窮盡的超參數(shù)搜索,如通常與其他神經(jīng)網(wǎng)絡(luò)架構(gòu)一樣,非常昂貴。 在這項(xiàng)工作中,我們介紹了NMT架構(gòu)超參數(shù)的第一次大規(guī)模分析。對(duì)應(yīng)于GPU上的標(biāo)準(zhǔn)WMT英語(yǔ)超過250000小時(shí)的德語(yǔ)翻譯任務(wù)。 我們的實(shí)驗(yàn)為構(gòu)建和擴(kuò)展NMT架構(gòu)提供了新的見解和實(shí)用建議。 作為這一貢獻(xiàn)的一部分,我們發(fā)布了一個(gè)開放源碼的NMT框架,使研究人員能夠輕松實(shí)驗(yàn)新技術(shù),并重現(xiàn)現(xiàn)有技術(shù)的結(jié)果。 論文關(guān)鍵數(shù)據(jù)對(duì)比:
參考文獻(xiàn)
AIJob社是《全球人工智能》旗下專門為AI開發(fā)工程師免費(fèi)服務(wù)的求職平臺(tái)。我們將竭盡全力幫助每一個(gè)ai工程師對(duì)接自己喜歡的企業(yè),推薦給你喜歡的直接領(lǐng)導(dǎo),幫你談一個(gè)最好的薪資待遇。 微信咨詢:aihr007 簡(jiǎn)歷投遞:hr@top25.cn 企業(yè)合作:job@top25.cn |
|