總結(jié)一下Meta的用法及robot.txt的講解
meta是用來在HTML文檔中模擬HTTP協(xié)議的響應(yīng)頭報文。meta 標(biāo)簽用于網(wǎng)頁的<head>與</head>中,meta 標(biāo)簽的用處很多。meta 的屬性有兩種:name和http-equiv。name屬性主要用于描述網(wǎng)頁,對應(yīng)于content(網(wǎng)頁內(nèi)容),以便于搜索引擎機器人查找、分類(目前幾乎所有的搜索引擎都使用網(wǎng)上機器人自動查找meta值來給網(wǎng)頁分類)。這其中最重要的是description(站點在搜索引擎上的描述)和keywords(分類關(guān)鍵詞),所以應(yīng)該給每頁加一個meta值。比較常用的有以下幾個: name 屬性 1、<meta name="generator" contect="">用以說明生成工具(如Microsoft FrontPage 4.0)等; 2、<meta name="keywords" contect="">向搜索引擎說明你的網(wǎng)頁的關(guān)鍵詞; 3、<meta name="description" contect="">告訴搜索引擎你的站點的主要內(nèi)容; 4、<meta name="author" contect="你的姓名">告訴搜索引擎你的站點的制作的作者; 5、<meta name="robots" contect="all|none|index|noindex|follow|nofollow"> 其中的屬性說明如下: 設(shè)定為all:文件將被檢索,且頁面上的鏈接可以被查詢; 設(shè)定為none:文件將不被檢索,且頁面上的鏈接不可以被查詢; 設(shè)定為index:文件將被檢索; 設(shè)定為follow:頁面上的鏈接可以被查詢; 設(shè)定為noindex:文件將不被檢索,但頁面上的鏈接可以被查詢; 設(shè)定為nofollow:文件將不被檢索,頁面上的鏈接可以被查詢。 http-equiv屬性 1、<meta http-equiv="Content-Type" contect="text/html";charset=gb_2312-80"> 和 <meta http-equiv="Content-Language" contect="zh-CN">用以說明主頁制作所使用的文字以及語言; 又如英文是ISO-8859-1字符集,還有BIG5、utf-8、shift-Jis、Euc、Koi8-2等字符集; 2、<meta http-equiv="Refresh" contect="n;url=http://yourlink">定時讓網(wǎng)頁在指定的時間n內(nèi),跳轉(zhuǎn)到頁面http;//yourlink; 3、<meta http-equiv="Expires" contect="Mon,12 May 2001 00:20:00 GMT">可以用于設(shè)定網(wǎng)頁的到期時間,一旦過期則必須到服務(wù)器上重新調(diào)用。需要注意的是必須使用GMT時間格式; 4、<meta http-equiv="Pragma" contect="no-cache">是用于設(shè)定禁止瀏覽器從本地機的緩存中調(diào)閱頁面內(nèi)容,設(shè)定后一旦離開網(wǎng)頁就無法從Cache中再調(diào)出; 5、<meta http-equiv="set-cookie" contect="Mon,12 May 2001 00:20:00 GMT">cookie設(shè)定,如果網(wǎng)頁過期,存盤的cookie將被刪除。需要注意的也是必須使用GMT時間格式; 6、<meta http-equiv="Pics-label" contect="">網(wǎng)頁等級評定,在IE的internet選項中有一項內(nèi)容設(shè)置,可以防止瀏覽一些受限制的網(wǎng)站,而網(wǎng)站的限制級別就是通過meta屬性來設(shè)置的; 7、<meta http-equiv="windows-Target" contect="_top">強制頁面在當(dāng)前窗口中以獨立頁面顯示,可以防止自己的網(wǎng)頁被別人當(dāng)作一個frame頁調(diào)用; 8、<meta http-equiv="Page-Enter" contect="revealTrans(duration=10,transtion=50)">和<meta http-equiv="Page-Exit" contect="revealTrans(duration=20,transtion=6)">設(shè)定進入和離開頁面時的特殊效果,這個功能即FrontPage中的“格式/網(wǎng)頁過渡”,不過所加的頁面不能夠是一個frame頁面。 關(guān)于robots.txt的講解 1.什么是robots.txt文件? 2.robots.txt文件放在哪里? 見示例:
1.robots.txt文件的格式? "robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示: 在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細情況如下: User-agent: Disallow: 4.robots.txt文件用法舉例 |
|
來自: 素行 > 《Java Spider》