推薦一些優(yōu)秀的開(kāi)源Java爬蟲(chóng)項(xiàng)目

然并卵書屋 2017-01-15

展開(kāi)全文

作者：路人甲

鏈接：https://zhuanlan.zhihu.com/p/24844250

1、Gecco

github地址：xtuhcy/gecco

Gecco是一款用java語(yǔ)言開(kāi)發(fā)的輕量化的易用的網(wǎng)絡(luò)爬蟲(chóng)。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架，只需要配置一些jquery風(fēng)格的選擇器就能很快的寫出一個(gè)爬蟲(chóng)。Gecco框架有優(yōu)秀的可擴(kuò)展性，框架基于開(kāi)閉原則進(jìn)行設(shè)計(jì)，對(duì)修改關(guān)閉、對(duì)擴(kuò)展開(kāi)放。

2、WebCollector

github地址：CrawlScript/WebCollector

WebCollector是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的JAVA爬蟲(chóng)框架（內(nèi)核），它提供精簡(jiǎn)的的API，只需少量代碼即可實(shí)現(xiàn)一個(gè)功能強(qiáng)大的爬蟲(chóng)。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。

推薦一些優(yōu)秀的開(kāi)源Java爬蟲(chóng)項(xiàng)目

3、Spiderman

碼云地址：l-weiwei/Spiderman2 - 碼云 - 開(kāi)源中國(guó)

使用案例：展現(xiàn)垂直爬蟲(chóng)的能力 - 像風(fēng)一樣自由

Spiderman 是一個(gè)基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛，它的目標(biāo)是通過(guò)簡(jiǎn)單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁(yè)信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

4、WebMagic

碼云地址：flashsword20/webmagic - 碼云 - 開(kāi)源中國(guó)

webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架，它提供簡(jiǎn)單靈活的API，只需少量代碼即可實(shí)現(xiàn)一個(gè)爬蟲(chóng)。webmagic采用完全模塊化的設(shè)計(jì)，功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內(nèi)容抽取、持久化)，支持多線程抓取，分布式抓取，并支持自動(dòng)重試、自定義UA/cookie等功能。

推薦一些優(yōu)秀的開(kāi)源Java爬蟲(chóng)項(xiàng)目

5、Heritrix

github地址：internetarchive/heritrix3

Heritrix是一個(gè)開(kāi)源，可擴(kuò)展的web爬蟲(chóng)項(xiàng)目。用戶可以使用它來(lái)從網(wǎng)上抓取想要的資源。Heritrix設(shè)計(jì)成嚴(yán)格按照robots.txt文件的排除指示和META robots標(biāo)簽。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。

推薦一些優(yōu)秀的開(kāi)源Java爬蟲(chóng)項(xiàng)目

6、crawler4j

github地址：yasserg/crawler4j · GitHub

crawler4j是Java實(shí)現(xiàn)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)。提供了簡(jiǎn)單易用的接口，可以在幾分鐘內(nèi)創(chuàng)建一個(gè)多線程網(wǎng)絡(luò)爬蟲(chóng)。

7、Nutch

github地址：apache/nutch

Nutch 是一個(gè)開(kāi)源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。
在Nutch的進(jìn)化過(guò)程中，產(chǎn)生了Hadoop、Tika、Gora和Crawler Commons四個(gè)Java開(kāi)源項(xiàng)目。如今這四個(gè)項(xiàng)目都發(fā)展迅速，極其火爆，尤其是Hadoop，其已成為大規(guī)模數(shù)據(jù)處理的事實(shí)上的標(biāo)準(zhǔn)。Tika使用多種現(xiàn)有的開(kāi)源內(nèi)容解析項(xiàng)目來(lái)實(shí)現(xiàn)從多種格式的文件中提取元數(shù)據(jù)和結(jié)構(gòu)化文本，Gora支持把大數(shù)據(jù)持久化到多種存儲(chǔ)實(shí)現(xiàn)，Crawler Commons是一個(gè)通用的網(wǎng)絡(luò)爬蟲(chóng)組件。

8、SeimiCrawler

github地址：zhegexiaohuozi/SeimiCrawler

SeimiCrawler是一個(gè)敏捷的，獨(dú)立部署的，支持分布式的Java爬蟲(chóng)框架，希望能在最大程度上降低新手開(kāi)發(fā)一個(gè)可用性高且性能不差的爬蟲(chóng)系統(tǒng)的門檻，以及提升開(kāi)發(fā)爬蟲(chóng)系統(tǒng)的開(kāi)發(fā)效率。在SeimiCrawler的世界里，絕大多數(shù)人只需關(guān)心去寫抓取的業(yè)務(wù)邏輯就夠了，其余的Seimi幫你搞定。設(shè)計(jì)思想上SeimiCrawler受Python的爬蟲(chóng)框架Scrapy啟發(fā)，同時(shí)融合了Java語(yǔ)言本身特點(diǎn)與Spring的特性，并希望在國(guó)內(nèi)更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默認(rèn)的HTML解析器是JsoupXpath(獨(dú)立擴(kuò)展項(xiàng)目，非jsoup自帶),默認(rèn)解析提取HTML數(shù)據(jù)工作均使用XPath來(lái)完成（當(dāng)然，數(shù)據(jù)處理亦可以自行選擇其他解析器）。并結(jié)合SeimiAgent徹底完美解決復(fù)雜動(dòng)態(tài)頁(yè)面渲染抓取問(wèn)題。

推薦一些優(yōu)秀的開(kāi)源Java爬蟲(chóng)項(xiàng)目

9、Jsoup

github地址：jhy/jsoup

中文指南：jsoup開(kāi)發(fā)指南,jsoup中文文檔

jsoup 是一款Java 的HTML解析器，可直接解析URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過(guò)DOM，CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。

更多精選內(nèi)容請(qǐng)關(guān)注我們的公眾號(hào)：wow1ke

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：然并卵書屋 > 《待分類1》

舉報(bào)/認(rèn)領(lǐng)