日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

單模型可完成6項(xiàng)NLP任務(wù),哈工大SCIR LTP再度升級(jí),4.0版本面世

 板橋胡同37號(hào) 2020-06-17
機(jī)器之心發(fā)布

機(jī)器之心編輯部

迄今為止,這一 NLP 開(kāi)源基礎(chǔ)技術(shù)平臺(tái)在 GitHub 上共獲得了 2.5k 的 Star 量,760 多個(gè) Fork 數(shù)量,被包括清華大學(xué)、北京大學(xué)、CMU 等國(guó)內(nèi)外眾多大學(xué)及科研機(jī)構(gòu)在內(nèi)的 600 余家研究單位簽署協(xié)議使用。



LTP 4.0 來(lái)了,帶著它全新升級(jí)的武力值。

LTP 的全稱(chēng)為「Language Technology Platform」,是哈工大社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)歷時(shí)多年研發(fā)的一整套高效、高精度的中文自然語(yǔ)言處理開(kāi)源基礎(chǔ)技術(shù)平臺(tái)

該平臺(tái)集詞法分析(分詞、詞性標(biāo)注、命名實(shí)體識(shí)別)、句法分析(依存句法分析)和語(yǔ)義分析(語(yǔ)義角色標(biāo)注、語(yǔ)義依存分析)等多項(xiàng)自然語(yǔ)言處理技術(shù)于一體。其中句法分析、語(yǔ)義分析等多項(xiàng)關(guān)鍵技術(shù)多次在 CoNLL 國(guó)際評(píng)測(cè)中獲得了第 1 名。此外,平臺(tái)還榮獲了 2010 年中國(guó)中文信息學(xué)會(huì)科學(xué)技術(shù)一等獎(jiǎng)、2016 年黑龍江省科技進(jìn)步一等獎(jiǎng)。
 
目前,LTP 已被包括清華大學(xué)、北京大學(xué)、CMU 等國(guó)內(nèi)外眾多大學(xué)及科研機(jī)構(gòu)在內(nèi)的 600 余家研究單位簽署協(xié)議使用,同時(shí)向百度、騰訊、華為、訊飛等多家知名公司收費(fèi)授權(quán)。

在 GitHub 上,這一項(xiàng)目的星標(biāo)數(shù)量已經(jīng)達(dá)到 2.5k,F(xiàn)ork 數(shù) 750 多個(gè)。有效解決了自然語(yǔ)言處理技術(shù)入行門(mén)檻高,準(zhǔn)確率、效率偏低,缺少共享數(shù)據(jù)和程序資源,重復(fù)開(kāi)發(fā)現(xiàn)象嚴(yán)重,結(jié)果可視化差,錯(cuò)誤分析困難,較難真正支持各類(lèi)應(yīng)用研究等眾多問(wèn)題。


項(xiàng)目地址:https://github.com/HIT-SCIR/ltp

全新升級(jí),LTP 4.0 版本面世

近日,哈工大 SCIR 本科生馮云龍等同學(xué)在車(chē)萬(wàn)翔教授指導(dǎo)下,對(duì) LTP 進(jìn)行了新一輪的全面升級(jí),并推出了 LTP 4.0 版本。此次升級(jí)的主要改進(jìn)為:

  • 基于多任務(wù)學(xué)習(xí)框架進(jìn)行統(tǒng)一學(xué)習(xí),使得全部六項(xiàng)任務(wù)可以共享語(yǔ)義信息,達(dá)到了知識(shí)遷移的效果。既有效提升了系統(tǒng)的運(yùn)行效率,又極大縮小了模型的占用空間

  • 基于預(yù)訓(xùn)練模型進(jìn)行統(tǒng)一的表示 ,有效提升了各項(xiàng)任務(wù)的準(zhǔn)確率

  • 基于教師退火模型蒸餾出單一的多任務(wù)模型,進(jìn)一步提高了系統(tǒng)的準(zhǔn)確率

  • 基于 PyTorch 框架開(kāi)發(fā),提供了原生的 Python 調(diào)用接口,通過(guò) pip 包管理系統(tǒng)一鍵安裝,極大提高了系統(tǒng)的易用性。


下表列出了新舊版 LTP 在精度、效率和模型大小方面的對(duì)比:


為了模型的小巧易用,本次發(fā)布的版本基于哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文 ELECTRA Small 預(yù)訓(xùn)練模型。后續(xù)將陸續(xù)發(fā)布基于不同預(yù)訓(xùn)練模型的版本,為使用的開(kāi)發(fā)者提供更多準(zhǔn)確率和效率平衡點(diǎn)的選擇。

測(cè)試環(huán)境如下:

  • Python 3.7

  • LTP 4.0 Batch Size = 1

  • CentOS 3.10.0-1062.9.1.el7.x86_64

  • Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz


此處速度數(shù)據(jù)在人民日?qǐng)?bào)命名實(shí)體測(cè)試數(shù)據(jù)上獲得,速度計(jì)算方式均為所有任務(wù)順序執(zhí)行的結(jié)果。另外,語(yǔ)義角色標(biāo)注與語(yǔ)義依存新舊版采用的語(yǔ)料不相同,因此無(wú)法直接比較(新版語(yǔ)義依存使用 SemEval 2016 語(yǔ)料,語(yǔ)義角色標(biāo)注使用 CTB 語(yǔ)料)。

使用方法

新版 LTP 采用原生 Python 實(shí)現(xiàn),僅需運(yùn)行 pip install ltp 即可安裝使用。調(diào)用方式:

from ltp import LTP
ltp = LTP() # 默認(rèn)自動(dòng)下載并加載 Small 模型
segment, hidden = ltp.seg(['他叫湯姆去拿外衣。'])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)
 
更多項(xiàng)目信息,可訪問(wèn) http:///。

世界人工智能大會(huì)線上活動(dòng)(WAIC)是由上海市政府打造的國(guó)際頂級(jí)人工智能會(huì)議。為進(jìn)一步促進(jìn)人工智能技術(shù)與產(chǎn)業(yè)相融合,推動(dòng)開(kāi)發(fā)者技術(shù)生態(tài)建設(shè),WAIC 2020年黑客馬拉松將于7月9日-11日期間舉辦。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多