文獻(xiàn)太多看不過來？教你用R語言快速挖掘pubmed文獻(xiàn)信息數(shù)據(jù)

whwywu 2021-04-10

展開全文

今天給大家分享兩個(gè)用來挖掘PubMed的R包，有了現(xiàn)成的工具，省去了不少自己寫爬蟲的功夫，可以實(shí)現(xiàn)：快速分析研究方向的發(fā)文趨勢，通過關(guān)鍵詞找到合適自己的投稿期刊，看看自己領(lǐng)域內(nèi)的大牛人物；這么多好玩的功能，趕緊行動(dòng)起來吧，玩轉(zhuǎn)pubmed吧！

RISmed：適合快速分析pubmed文獻(xiàn)，統(tǒng)計(jì)文章的機(jī)構(gòu)作者信息，期刊信息發(fā)表的年份等發(fā)文趨勢情況，這個(gè)包自帶網(wǎng)絡(luò)爬取功能，可以即時(shí)下載期刊信息。

pumed.mineR：比較適合用來做pubmed摘要文本的數(shù)據(jù)挖掘，有摘要英文文本分詞、詞頻統(tǒng)計(jì)的功能，摘要內(nèi)文本基因名的頻率統(tǒng)計(jì)的功能。

RISmed包的使用

RISmed下載文獻(xiàn)數(shù)據(jù)

沒有安裝RISmed可以從CRAN上安裝,先載入這個(gè)包。

按照Pubmed的檢索式寫一個(gè)字符串，并將他賦值給search_topic，這里我選擇了表觀遺傳和突觸可塑性兩個(gè)關(guān)鍵詞作為檢索式，中間用AND代表邏輯值同時(shí)包含兩個(gè)字段的文獻(xiàn)，還可以通過添加[author]搜索作者,[Affiliation]搜索機(jī)構(gòu)，各種pubmed支持的檢索詞都可以直接添加；接下來調(diào)用EUtilsSummary函數(shù)，第一個(gè)參數(shù)傳入檢索式的字符串search_topic，db用于選擇NCBI的數(shù)據(jù)庫類型，可以選擇NCBI的其他基因蛋白數(shù)據(jù)庫，不僅限于Pubmed；retmax用于設(shè)置最大獲取量，這里為了演示只獲取了100條；mindate和maxdate分別設(shè)定檢索的開始時(shí)間和結(jié)束時(shí)間。這一步其實(shí)只返回了pubmedID，和pubmed檢索式，沒有真正進(jìn)行文獻(xiàn)信息爬取。最后使用summary查看檢索結(jié)果。我們可以看到它返回了pubmed實(shí)際的檢索式，年份以及網(wǎng)絡(luò)狀態(tài)碼。

文獻(xiàn)數(shù)據(jù)展現(xiàn)

接下來EUtilsGet這個(gè)函數(shù)將會(huì)依據(jù)之前的pubmedID進(jìn)行文獻(xiàn)信息爬取，并返回一個(gè)Medline對象，這一步需要一定網(wǎng)絡(luò)速度，特別是連接pubmed的速度，國內(nèi)有的地方速度還是很慢的，就不一定能下載下來哦，可以多執(zhí)行幾次試試。

這個(gè) Medline是一個(gè)S4的對象，里面包含了文章的接收、發(fā)表日期，全部的作者和作者機(jī)構(gòu),文章的摘要。

有了文章的摘要，其實(shí)可以利用文本分析工具進(jìn)行英文分詞，計(jì)算詞頻，但是這個(gè)工作用后面介紹的包pumed.mineR進(jìn)行效率更高。接下來可以可視化一下，分析這個(gè)領(lǐng)域內(nèi)發(fā)論文最多的雜志，還怕找不到合適的期刊投稿嗎？各種數(shù)據(jù)探索性數(shù)據(jù)分析的方法可以搭配使用，滿滿的潛力！我們可以看到表觀遺傳和突觸可塑性的文章,當(dāng)然這里樣本量有點(diǎn)少，等我網(wǎng)速好，可以增加點(diǎn)樣本量。

Mesh醫(yī)學(xué)主題詞統(tǒng)計(jì)

還有一個(gè)很厲害的功能是提取Mesh醫(yī)學(xué)主題詞，提取出來的word是一個(gè)list，list里面是每一篇文章的Mesh，它以一個(gè)data.frame存儲(chǔ)；里面有些文章是沒有mesh信息的。所以第一步先去除缺失值，再將list使用unlist拆開一下，使用dplyr包去除重復(fù)詞，并提取里面所有的mesh主題詞，使用table函數(shù)計(jì)算詞頻。

詞云可視化

下面繪制詞云，可視化結(jié)果,載入wordcloud2包繪制可交互的詞云，這包傳入兩列數(shù)據(jù)，第一列是詞，第二列是頻率，一鍵自動(dòng)化圖；也可以用wordcloud和RColorBrewer繪制，這個(gè)可以到處PDF矢量圖。

pumed.mineR的使用

下載文獻(xiàn)數(shù)據(jù)構(gòu)建對象

這個(gè)包并不能即時(shí)的通過包內(nèi)函數(shù)爬取pubmed數(shù)據(jù)，需要自行從pubmed上下載，摘要信息，然后導(dǎo)入包內(nèi)的函數(shù)。

我們首先先從pubmed上根據(jù)自己的需要檢索文獻(xiàn)，如圖點(diǎn)擊SAVE，選擇ALL RESULTS，數(shù)據(jù)類型選擇ABSTRACT，即可下載所有的文章摘要等信息數(shù)據(jù)，下載好的數(shù)據(jù)是一個(gè)txt文本文件。

如果需要特定的幾篇文章，可以選中文章前面的勾，不打勾默認(rèn)是下載全部文章信息，這里下載了1059篇文章的信息。導(dǎo)入摘要數(shù)據(jù)成一個(gè)S4對象。

重點(diǎn)來了，廢了我好大的功夫才找到solution，之前在文本分詞的時(shí)候出現(xiàn)錯(cuò)誤，后來發(fā)現(xiàn)由于分詞時(shí)遇到特殊字符造成，通過 Sys.setlocale設(shè)置系統(tǒng)參數(shù)解決。接下來分詞,計(jì)算詞頻。

詞頻的統(tǒng)計(jì)及可視化

選取前15個(gè)出現(xiàn)頻率最高的詞可視化一下。

基因名統(tǒng)計(jì)與可視化

gene_atomization函數(shù)原理大概是把文獻(xiàn)的摘要進(jìn)行分詞，比對摘要中出現(xiàn)的基因名并進(jìn)行統(tǒng)計(jì)，我們從圖中可以看到表觀遺傳和突觸可塑性的研究中，出現(xiàn)最多的基因有HDAC2、DNMT1。

總結(jié)

通過比較RISmed 、pumed.mineR這兩個(gè)R包的函數(shù)，RISmed可以用于查詢某領(lǐng)域內(nèi)文獻(xiàn)的逐年發(fā)文趨勢，發(fā)文機(jī)構(gòu)，發(fā)文作者等信息，方便對整個(gè)研究建立全局的了解。pumed.mineR則適合用來挖掘摘要文本，它內(nèi)置文本處理函數(shù)，短時(shí)間內(nèi)了解上千篇文獻(xiàn)的研究不是夢。

有了這兩個(gè)R包神器，還怕文獻(xiàn)讀不過來嗎？趕緊分析一下自己研究方向的文獻(xiàn)，看看自己研究領(lǐng)域的發(fā)文趨勢吧！

征稿啟事

“醫(yī)學(xué)方”始終致力于服務(wù)“醫(yī)學(xué)人”，將最前沿、最有價(jià)值的臨床、科研原創(chuàng)文章推送給各位臨床醫(yī)師、科研人員。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： whwywu > 《爬蟲》

舉報(bào)/認(rèn)領(lǐng)