迄今為止,這一 NLP 開(kāi)源基礎(chǔ)技術(shù)平臺(tái)在 GitHub 上共獲得了 2.5k 的 Star 量,760 多個(gè) Fork 數(shù)量,被包括清華大學(xué)、北京大學(xué)、CMU 等國(guó)內(nèi)外眾多大學(xué)及科研機(jī)構(gòu)在內(nèi)的 600 余家研究單位簽署協(xié)議使用。
 LTP 4.0 來(lái)了,帶著它全新升級(jí)的武力值。LTP 的全稱(chēng)為「Language Technology Platform」,是哈工大社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)歷時(shí)多年研發(fā)的一整套高效、高精度的中文自然語(yǔ)言處理開(kāi)源基礎(chǔ)技術(shù)平臺(tái)。該平臺(tái)集詞法分析(分詞、詞性標(biāo)注、命名實(shí)體識(shí)別)、句法分析(依存句法分析)和語(yǔ)義分析(語(yǔ)義角色標(biāo)注、語(yǔ)義依存分析)等多項(xiàng)自然語(yǔ)言處理技術(shù)于一體。其中句法分析、語(yǔ)義分析等多項(xiàng)關(guān)鍵技術(shù)多次在 CoNLL 國(guó)際評(píng)測(cè)中獲得了第 1 名。此外,平臺(tái)還榮獲了 2010 年中國(guó)中文信息學(xué)會(huì)科學(xué)技術(shù)一等獎(jiǎng)、2016 年黑龍江省科技進(jìn)步一等獎(jiǎng)。目前,LTP 已被包括清華大學(xué)、北京大學(xué)、CMU 等國(guó)內(nèi)外眾多大學(xué)及科研機(jī)構(gòu)在內(nèi)的 600 余家研究單位簽署協(xié)議使用,同時(shí)向百度、騰訊、華為、訊飛等多家知名公司收費(fèi)授權(quán)。在 GitHub 上,這一項(xiàng)目的星標(biāo)數(shù)量已經(jīng)達(dá)到 2.5k,F(xiàn)ork 數(shù) 750 多個(gè)。有效解決了自然語(yǔ)言處理技術(shù)入行門(mén)檻高,準(zhǔn)確率、效率偏低,缺少共享數(shù)據(jù)和程序資源,重復(fù)開(kāi)發(fā)現(xiàn)象嚴(yán)重,結(jié)果可視化差,錯(cuò)誤分析困難,較難真正支持各類(lèi)應(yīng)用研究等眾多問(wèn)題。 項(xiàng)目地址:https://github.com/HIT-SCIR/ltp近日,哈工大 SCIR 本科生馮云龍等同學(xué)在車(chē)萬(wàn)翔教授指導(dǎo)下,對(duì) LTP 進(jìn)行了新一輪的全面升級(jí),并推出了 LTP 4.0 版本。此次升級(jí)的主要改進(jìn)為:基于多任務(wù)學(xué)習(xí)框架進(jìn)行統(tǒng)一學(xué)習(xí),使得全部六項(xiàng)任務(wù)可以共享語(yǔ)義信息,達(dá)到了知識(shí)遷移的效果。既有效提升了系統(tǒng)的運(yùn)行效率,又極大縮小了模型的占用空間 基于預(yù)訓(xùn)練模型進(jìn)行統(tǒng)一的表示 ,有效提升了各項(xiàng)任務(wù)的準(zhǔn)確率 基于教師退火模型蒸餾出單一的多任務(wù)模型,進(jìn)一步提高了系統(tǒng)的準(zhǔn)確率 基于 PyTorch 框架開(kāi)發(fā),提供了原生的 Python 調(diào)用接口,通過(guò) pip 包管理系統(tǒng)一鍵安裝,極大提高了系統(tǒng)的易用性。 下表列出了新舊版 LTP 在精度、效率和模型大小方面的對(duì)比: 為了模型的小巧易用,本次發(fā)布的版本基于哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文 ELECTRA Small 預(yù)訓(xùn)練模型。后續(xù)將陸續(xù)發(fā)布基于不同預(yù)訓(xùn)練模型的版本,為使用的開(kāi)發(fā)者提供更多準(zhǔn)確率和效率平衡點(diǎn)的選擇。此處速度數(shù)據(jù)在人民日?qǐng)?bào)命名實(shí)體測(cè)試數(shù)據(jù)上獲得,速度計(jì)算方式均為所有任務(wù)順序執(zhí)行的結(jié)果。另外,語(yǔ)義角色標(biāo)注與語(yǔ)義依存新舊版采用的語(yǔ)料不相同,因此無(wú)法直接比較(新版語(yǔ)義依存使用 SemEval 2016 語(yǔ)料,語(yǔ)義角色標(biāo)注使用 CTB 語(yǔ)料)。新版 LTP 采用原生 Python 實(shí)現(xiàn),僅需運(yùn)行 pip install ltp 即可安裝使用。調(diào)用方式:from ltp import LTP ltp = LTP() # 默認(rèn)自動(dòng)下載并加載 Small 模型 segment, hidden = ltp.seg(['他叫湯姆去拿外衣。']) pos = ltp.pos(hidden) ner = ltp.ner(hidden) srl = ltp.srl(hidden) dep = ltp.dep(hidden) sdp = ltp.sdp(hidden) 更多項(xiàng)目信息,可訪問(wèn) http:///。世界人工智能大會(huì)線上活動(dòng)(WAIC)是由上海市政府打造的國(guó)際頂級(jí)人工智能會(huì)議。為進(jìn)一步促進(jìn)人工智能技術(shù)與產(chǎn)業(yè)相融合,推動(dòng)開(kāi)發(fā)者技術(shù)生態(tài)建設(shè),WAIC 2020年黑客馬拉松將于7月9日-11日期間舉辦。
|