日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼 瘋狂代碼!

 daomucun 2011-01-31

搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼

國外開發(fā)的相關(guān)程序
1、Nutch
網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼
官方網(wǎng)站 http://www./
中文站點(diǎn) http://www./
最新版本:Nutch 0.7.2 Released
Nutch 是一個(gè)開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具,可以建立自己內(nèi)部網(wǎng)的搜索引擎,也可以針對整個(gè)網(wǎng)絡(luò)建立搜索引擎。自由(Free)而免費(fèi)(Free)。
2、Lucene
網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼
官方網(wǎng)站  http://lucene.
中文站點(diǎn)  http://www./
Lucene 是apache軟件基金會(huì) jakarta項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開放源代碼的全文檢索引擎工具包[用Java寫的],即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的 架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡單易用的工具包,以 方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。
3、Larbin: http://larbin./index-eng.html
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
國內(nèi)開發(fā)的相關(guān)程序
1、SQLET - 開放源碼的中文搜索引擎
官方網(wǎng)站 http://www./
SQLET, 是Search & Query &Link, 加后綴 let,表示小的,小型的意思.打算建立一個(gè)能搜上億張網(wǎng)頁的基于主題功能的中文搜索引擎.支持3種索引方 式:MySql_table_Index,Lucene_Index,SQLET_Index.網(wǎng)頁抓取可以保存在文件系統(tǒng)及數(shù)據(jù)庫里。自帶 WebServer.
2、菲度垂直搜索引擎代碼
菲度http://www. 為一個(gè)垂直在線搜索的演示版,主要對國內(nèi)一些購物站點(diǎn)進(jìn)行搜索整理,
語言:VB.net(c#)
二、中文分詞程序代碼
1、計(jì)算所漢語詞法分析系統(tǒng) ICTCLAS
中 國科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞正確率高達(dá)97.58%(最近的973專家組評(píng)測結(jié)果),基于角色標(biāo)注的未登錄 詞識(shí)別能取得高于90%召回率,其中中國人名的識(shí)別召回率接近98%,分詞和詞性標(biāo)注處理速度為31.5KB/s。ICTCLAS 和計(jì)算所其他14項(xiàng)免費(fèi)發(fā)布的成果被中外媒體廣泛地報(bào)道,國內(nèi)很多免費(fèi)的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。
下載頁面:http://www./project/project.php?proj_id=6
由于 ICTCLAS 是由 C 語言寫成的,現(xiàn)在主流的開發(fā)工具用起來不太方便,于是有一些熱心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。
(1)fenci,Java 的 ICTCLAS,下載頁面:http://www./printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一個(gè) Java 的 ICTCLAS,已經(jīng)找不到下載頁面,點(diǎn)擊本地下載
(3)小叮咚中文分詞,曾經(jīng)有下載頁面,現(xiàn)在找不到了。據(jù)作者介紹,從 ICTCLAS 中改進(jìn),有 Java,C# 和 C++ 三個(gè)版本,介紹頁面:http://www./accesine
2、海量智能分詞研究版
海量智能計(jì)算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專家、學(xué)者和愛好者進(jìn)行研究。
下載頁面:http://www./cgi-bin/download/download.asp?id=8
3、其他
(1)CSW中文智能分詞組件
運(yùn)行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發(fā)語言中調(diào)用。
簡介: CSW中文智能分詞DLL組件,可將一段文本自動(dòng)的按常規(guī)漢語詞組進(jìn)行拆分,并以指定方式進(jìn)行分隔,且可對其拆分后的詞組進(jìn)行語義、詞頻標(biāo)注。其廣范應(yīng)用于各行各業(yè)的信息資料檢索、分析。
下載頁面:http://www./
(2) C# 寫的中文分詞組件
據(jù)作者介紹,一個(gè) DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫,獨(dú)立開發(fā)。
下載頁面:http://www./article.asp?id=48
三、開源spider一覽
spider是搜索引擎的必須模塊.spider數(shù)據(jù)的結(jié)果直接影響到搜索引擎的評(píng)價(jià)指標(biāo).
第一個(gè)spider程序由MIT的Matthew K Gray操刀該程序的目的是為了統(tǒng)計(jì)互聯(lián)網(wǎng)中主機(jī)的數(shù)目
Spier定義(關(guān)于Spider的定義,有廣義和狹義兩種).
  • 狹義:利用標(biāo)準(zhǔn)的http協(xié)議根據(jù)超鏈和web文檔檢索的方法遍歷萬維網(wǎng)信息空間的軟件程序.
  • 廣義:所有能利用http協(xié)議檢索web文檔的軟件都稱之為spider.
其中Protocol Gives Sites Way To Keep Out The 'Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相關(guān)的協(xié)議,大家有興趣參考robotstxt.org.
Heritrix
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.
語言:JAVA, (下載地址)
WebLech URL Spider
WebLech is a fully featured web site download/mirror tool in Java, which supports many features required to download websites and emulate standard web-browser behaviour as much as possible. WebLech is multithreaded and comes with a GUI console.
語言:JAVA, (下載地址)
JSpider
A Java implementation of a flexible and extensible web spider engine. Optional modules allow functionality to be added (searching dead links, testing the performance and scalability of a site, creating a sitemap, etc ..
語言:JAVA, (下載地址)
WebSPHINX
WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.
語言:JAVA, (下載地址)
PySolitaire
PySolitaire is a fork of PySol Solitaire that runs correctly _disibledevent=>語言網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼ython , (下載地址)
The Spider Web Network Xoops Mod Team    
The Spider Web Network Xoops Module Team provides modules for the Xoops community written in the PHP coding language. We develop mods and or take existing php script and port it into the Xoops format. High quality mods is our goal.
語言:php , (下載地址)
Fetchgals
A multi-threaded web spider that finds free porn thumbnail galleries by visiting a list of known TGPs (Thumbnail Gallery Posts). It optionally downloads the located pictures and movies. TGP list is included. Public domain perl script running _disibledevent=>語言:perl , (下載地址)
Where Spider
The purpose of the Where Spider software is to provide a database system for storing URL addresses. The software is used for both ripping links and browsing them offline. The software uses a pure XML database which is easy to export and import.
語言:XML , (下載地址)
Sperowider Website Archiving Suite is a set of Java applications, the primary purpose of which is to spider dynamic websites, and to create static distributable archives with a full text search index usable by an associated Java applet.
語言:Java , (下載地址)
SpiderPy is a web crawling spider program written in Python that allows users to collect files and search web sites through a configurable interface.
語言網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼ython , (下載地址)
Spider is a complete standalone Java application designed to easily integrate varied datasources. * XML driven framework * Scheduled pulling * Highly extensible * Provides hooks for custom post-processing and configuration
語言:Java , (下載地址)
WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based _disibledevent=>語言:java , (下載地址)
ASpider
Robust featureful multi-threaded CLI web spider using apache commons httpclient v3.0 written in java. ASpider downloads any files matching your given mime-types from a website. Tries to reg.exp. match emails by default, logging all results using log4j.
語言:java , (下載地址)
larbin
Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day _disibledevent=>下載地址)
webloupeSpidered Data RetrievalSpiderPySperowider
三、SEO相關(guān)資源
  1、域名信息查詢
★ 查詢國際頂級(jí)域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int, .museum, .net, .org),可以通過ICANN授權(quán)的域名注冊商來查詢,也可以直接到INTERNIC網(wǎng)站查詢,網(wǎng)址是
http://www./whois.html
   http://www./
★ 查詢?nèi)蚋鱾€(gè)地理頂級(jí)域名是否已經(jīng)被注冊可以到下列網(wǎng)址查詢(其中也包括國內(nèi)域名.cn):
http://www./cgi/domains.cgi?User=NoAds
★ 查詢國內(nèi)域名的注冊情況,
http://ewhois./index.jsp
       ★ 萬網(wǎng)的域名注冊信息查詢
      http://www./
       ★ IP地址查詢、域名注冊信息Whois查詢
   http://ip./
2、alexa相關(guān)與搜索排行榜
    ★ 中文排名500強(qiáng)
   http://www./site/ds/top_sites?ts_mode=lang&lang=zh_gb2312
    ★ Google Zeitgeist--Google搜索排行榜
   http://www.google.com/press/intl-zeitgeist.html#cn
    ★ 百度中文搜索風(fēng)云榜
   http://top.baidu.com/
★ 雅虎搜索排行榜
http://misc./top_index.html
★ 搜狗搜索指數(shù)
http://www.sogou.com/top/
3、搜索關(guān)鍵詞查詢
★ google關(guān)鍵字查詢 https://adwords.google.com/select/KeywordSandbox
★ 百度關(guān)鍵字查詢 http://www2.baidu.com/inquire/dsquery.php
★ 搜狐關(guān)鍵詞 http://db.sohu.com/regurl/pv_price/query_consumer.asp
4、seo項(xiàng)目/工具
★網(wǎng)頁質(zhì)量 http://category./cgi-bin/category/category.cgi
★關(guān)鍵詞密度 http://www./seo/keyword.asp
★搜索引擎蜘蛛模擬器  http://www./search-engine-spider-simulator.php
★Google Dance查詢工具:http://www./
5、seo網(wǎng)站
  英文網(wǎng)站
搜索觀察  http://www./
seochat http://www.
中文網(wǎng)站
1>美國尚奇公司 http://www.
全球領(lǐng)先的網(wǎng)站設(shè)計(jì)和搜索引擎優(yōu)化服務(wù)公司 ,目前中國區(qū)負(fù)責(zé)人為--柳煥斌
尚奇博客社區(qū)  blog.
網(wǎng)絡(luò)蜘蛛,搜索引擎/網(wǎng)絡(luò)蜘蛛程序代碼
在這里可以獲取最新的SEO行業(yè)信息
2>搜索引擎優(yōu)化交流中心    http://www.
SEO從業(yè)者網(wǎng)站
1>尚奇中國區(qū)負(fù)責(zé)人為--柳煥斌  http://blog./category/robinliu/
2>seo專業(yè)人士--bianyue    http://www./

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多