一般我們說到爬蟲程序,我們總是會想到python的爬蟲,然而python爬蟲擁有一些天生的劣勢,python的具體實現(xiàn)基本是固定好的,我們無法了解底層的實現(xiàn),這也就導(dǎo)致很多網(wǎng)站都可以反爬蟲,今天由我給大家介紹一下使用java來寫作一個爬蟲,java的爬蟲功能相當(dāng)強(qiáng)大,目前我就沒發(fā)現(xiàn)任何網(wǎng)站可以對java爬蟲有抵制作用。 工具/原料eclipse jdk 1.7版本及以上 首先我們先來介紹一下我們需要import的jar包吧: 1.org.jsoup,這個是一個java解析html的包,它的作用是解析網(wǎng)頁的代碼,這個功能特別強(qiáng)大以至于沒有任何網(wǎng)站可以做到反解析。 2.java.io,這一部分其實是不需要的,我用到這個只是因為我先把網(wǎng)頁保存在本地,再進(jìn)行網(wǎng)頁代碼的解析。至于為什么要這么做,會在之后的說明中提到。 3.java.net 這個包是java的網(wǎng)絡(luò)包,我們必須依賴于這個包來使用java連接網(wǎng)絡(luò)。 |
|
來自: 西北望msm66g9f > 《編程》