日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

面試題:文本摘要中的NLP技術(shù)

 印度阿三17 2021-03-26

析:





人類很難手動(dòng)匯總大型文本文檔。文本摘要是NLP為源文檔創(chuàng)建簡(jiǎn)短、準(zhǔn)確和流暢的摘要問(wèn)題。

隨著推送通知和文章摘要獲得越來(lái)越多的注意力,為長(zhǎng)文本生成智能且準(zhǔn)確摘要的任務(wù)每天都在增長(zhǎng)。

通過(guò)首先計(jì)算整個(gè)文本文檔的單詞頻率來(lái)自動(dòng)匯總文本。


然后,存儲(chǔ)和排序100個(gè)最常用的單詞。

然后根據(jù)它包含的高頻詞數(shù)對(duì)每個(gè)句子進(jìn)行評(píng)分,更高頻率的詞,價(jià)值更大。


最后,根據(jù)它們?cè)谠嘉谋局械奈恢脕?lái)獲取和排序前X個(gè)句子。

[object Object]
文本摘要有兩種基本方法:提取和抽象。
前者從原始文本中提取單詞和單詞短語(yǔ)以創(chuàng)建摘要。
后者是學(xué)習(xí)內(nèi)部語(yǔ)言表示以生成更像人類的摘要,解釋原始文本的意圖。

提取摘要的方法是通過(guò)選擇子集來(lái)工作。
這是通過(guò)從實(shí)際文章中提取短語(yǔ)或句子以形成摘要來(lái)完成的,LexRank和TextRank是眾所周知的摘要總結(jié),它們都使用了Google PageRank算法的變體。
· LexRank是一種無(wú)監(jiān)督的基于圖形的算法,它使用IDF修改的余弦作為兩個(gè)句子之間的相似性度量。
該相似度用作兩個(gè)句子之間的圖形邊緣的權(quán)重。
LexRank還采用了智能后處理步驟,確保為摘要選擇的頂級(jí)句子彼此不太相似。
· TextRank是一種類似于LexRank的算法,具有一些增強(qiáng)功能,例如使用詞形化而不是詞干,結(jié)合詞性標(biāo)注和命名實(shí)體分辨率,從文章中提取關(guān)鍵短語(yǔ),以及根據(jù)這些短語(yǔ)提取摘要句子。
除了文章摘要外,TextRank還從文章中提取了有意義的關(guān)鍵短語(yǔ)。

抽象概括的模型屬于深度學(xué)習(xí)。
使用深度學(xué)習(xí)的文本摘要已經(jīng)取得了一定的突破。
以下是一些NLP領(lǐng)域最大公司最顯著的公布結(jié)果:
· Facebook的神經(jīng)注意是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),它利用基于本地注意力的模型,能夠根據(jù)輸入句子生成摘要中的每個(gè)單詞。
· Google Brain的Sequence-to-Sequence模型遵循編碼器-解碼器架構(gòu)。
編碼器負(fù)責(zé)讀取源文檔并將其編碼為內(nèi)部表示,解碼器是一種語(yǔ)言模型,負(fù)責(zé)使用源文檔的編碼表示在輸出摘要中生成每個(gè)單詞。
· IBM Watson使用類似的序列到序列模型,但具有注意力和雙向遞歸神經(jīng)網(wǎng)絡(luò)功能。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多