今天給大家分享兩個(gè)用來挖掘PubMed的R包,有了現(xiàn)成的工具,省去了不少自己寫爬蟲的功夫,可以實(shí)現(xiàn):快速分析研究方向的發(fā)文趨勢,通過關(guān)鍵詞找到合適自己的投稿期刊,看看自己領(lǐng)域內(nèi)的大牛人物;這么多好玩的功能,趕緊行動(dòng)起來吧,玩轉(zhuǎn)pubmed吧! RISmed:適合快速分析pubmed文獻(xiàn),統(tǒng)計(jì)文章的機(jī)構(gòu)作者信息,期刊信息發(fā)表的年份等發(fā)文趨勢情況,這個(gè)包自帶網(wǎng)絡(luò)爬取功能,可以即時(shí)下載期刊信息。 pumed.mineR:比較適合用來做pubmed摘要文本的數(shù)據(jù)挖掘,有摘要英文文本分詞、詞頻統(tǒng)計(jì)的功能,摘要內(nèi)文本基因名的頻率統(tǒng)計(jì)的功能。 RISmed包的使用 1 RISmed下載文獻(xiàn)數(shù)據(jù) 沒有安裝RISmed可以從CRAN上安裝,先載入這個(gè)包。 按照Pubmed的檢索式寫一個(gè)字符串,并將他賦值給search_topic,這里我選擇了表觀遺傳和突觸可塑性兩個(gè)關(guān)鍵詞作為檢索式,中間用AND代表邏輯值同時(shí)包含兩個(gè)字段的文獻(xiàn),還可以通過添加[author]搜索作者,[Affiliation]搜索機(jī)構(gòu),各種pubmed支持的檢索詞都可以直接添加;接下來調(diào)用EUtilsSummary函數(shù),第一個(gè)參數(shù)傳入檢索式的字符串search_topic,db用于選擇NCBI的數(shù)據(jù)庫類型,可以選擇NCBI的其他基因蛋白數(shù)據(jù)庫,不僅限于Pubmed;retmax用于設(shè)置最大獲取量,這里為了演示只獲取了100條;mindate和maxdate分別設(shè)定檢索的開始時(shí)間和結(jié)束時(shí)間。這一步其實(shí)只返回了pubmedID,和pubmed檢索式,沒有真正進(jìn)行文獻(xiàn)信息爬取。最后使用summary查看檢索結(jié)果。我們可以看到它返回了pubmed實(shí)際的檢索式,年份以及網(wǎng)絡(luò)狀態(tài)碼。 2 文獻(xiàn)數(shù)據(jù)展現(xiàn) 接下來EUtilsGet這個(gè)函數(shù)將會(huì)依據(jù)之前的pubmedID進(jìn)行文獻(xiàn)信息爬取,并返回一個(gè)Medline對象,這一步需要一定網(wǎng)絡(luò)速度,特別是連接pubmed的速度,國內(nèi)有的地方速度還是很慢的,就不一定能下載下來哦,可以多執(zhí)行幾次試試。 這個(gè) Medline是一個(gè)S4的對象,里面包含了文章的接收、發(fā)表日期,全部的作者和作者機(jī)構(gòu),文章的摘要。 有了文章的摘要,其實(shí)可以利用文本分析工具進(jìn)行英文分詞,計(jì)算詞頻,但是這個(gè)工作用后面介紹的包pumed.mineR進(jìn)行效率更高。接下來可以可視化一下,分析這個(gè)領(lǐng)域內(nèi)發(fā)論文最多的雜志,還怕找不到合適的期刊投稿嗎?各種數(shù)據(jù)探索性數(shù)據(jù)分析的方法可以搭配使用,滿滿的潛力!我們可以看到表觀遺傳和突觸可塑性的文章,當(dāng)然這里樣本量有點(diǎn)少,等我網(wǎng)速好,可以增加點(diǎn)樣本量。 3 Mesh醫(yī)學(xué)主題詞統(tǒng)計(jì) 還有一個(gè)很厲害的功能是提取Mesh醫(yī)學(xué)主題詞,提取出來的word是一個(gè)list,list里面是每一篇文章的Mesh,它以一個(gè)data.frame存儲(chǔ);里面有些文章是沒有mesh信息的。所以第一步先去除缺失值,再將list使用unlist拆開一下,使用dplyr包去除重復(fù)詞,并提取里面所有的mesh主題詞,使用table函數(shù)計(jì)算詞頻。 4 詞云可視化 下面繪制詞云,可視化結(jié)果,載入wordcloud2包繪制可交互的詞云,這包傳入兩列數(shù)據(jù),第一列是詞,第二列是頻率,一鍵自動(dòng)化圖;也可以用wordcloud和RColorBrewer繪制,這個(gè)可以到處PDF矢量圖。 pumed.mineR的使用 1 下載文獻(xiàn)數(shù)據(jù)構(gòu)建對象 這個(gè)包并不能即時(shí)的通過包內(nèi)函數(shù)爬取pubmed數(shù)據(jù),需要自行從pubmed上下載,摘要信息,然后導(dǎo)入包內(nèi)的函數(shù)。 我們首先先從pubmed上根據(jù)自己的需要檢索文獻(xiàn),如圖點(diǎn)擊SAVE,選擇ALL RESULTS,數(shù)據(jù)類型選擇ABSTRACT,即可下載所有的文章摘要等信息數(shù)據(jù),下載好的數(shù)據(jù)是一個(gè)txt文本文件。 如果需要特定的幾篇文章,可以選中文章前面的勾,不打勾默認(rèn)是下載全部文章信息,這里下載了1059篇文章的信息。導(dǎo)入摘要數(shù)據(jù)成一個(gè)S4對象。 重點(diǎn)來了,廢了我好大的功夫才找到solution,之前在文本分詞的時(shí)候出現(xiàn)錯(cuò)誤,后來發(fā)現(xiàn)由于分詞時(shí)遇到特殊字符造成,通過 Sys.setlocale設(shè)置系統(tǒng)參數(shù)解決。接下來分詞,計(jì)算詞頻。 2 詞頻的統(tǒng)計(jì)及可視化 選取前15個(gè)出現(xiàn)頻率最高的詞可視化一下。 3 基因名統(tǒng)計(jì)與可視化 gene_atomization函數(shù)原理大概是把文獻(xiàn)的摘要進(jìn)行分詞,比對摘要中出現(xiàn)的基因名并進(jìn)行統(tǒng)計(jì),我們從圖中可以看到表觀遺傳和突觸可塑性的研究中,出現(xiàn)最多的基因有HDAC2、DNMT1。 總 結(jié) 通過比較RISmed 、pumed.mineR這兩個(gè)R包的函數(shù),RISmed可以用于查詢某領(lǐng)域內(nèi)文獻(xiàn)的逐年發(fā)文趨勢,發(fā)文機(jī)構(gòu),發(fā)文作者等信息,方便對整個(gè)研究建立全局的了解。pumed.mineR則適合用來挖掘摘要文本,它內(nèi)置文本處理函數(shù),短時(shí)間內(nèi)了解上千篇文獻(xiàn)的研究不是夢。 有了這兩個(gè)R包神器,還怕文獻(xiàn)讀不過來嗎?趕緊分析一下自己研究方向的文獻(xiàn),看看自己研究領(lǐng)域的發(fā)文趨勢吧! 征 稿 啟 事 “醫(yī)學(xué)方”始終致力于服務(wù)“醫(yī)學(xué)人”,將最前沿、最有價(jià)值的臨床、科研原創(chuàng)文章推送給各位臨床醫(yī)師、科研人員。 |
|