告訴你robots.txt的制作
首先,我們要明確什么是robots.txt文件?
搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件。您可以在您的網站中創建一個純文本文件robots.txt,在文件中聲明該網站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
這里提醒一下,請注意:當你網站不希望搜索引擎全部收錄時才用到robots.txt文件(比如你網站后臺頁面)如果你希望搜索引擎全部收錄你的網站,請建立一個空的robots.txt文件。
1。首先告訴大家robots.txt文件要放在你網站的根目錄里面。當你修改了你的robots.txt一般會在48小時內生效(對于搜索引擎來說)。
2。如果你要禁止搜索引擎在搜索你網站時顯示快照,而只對你的網站索引,什么辦呢?百度支持通過設置網頁的meta,防止搜索引擎顯示網站的快照。方法如下:
要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的 <HEAD> 部分:
<meta name="robots" content="noarchive">
要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:
<meta name="baiduspider" content="noarchive">
注:此標記只是禁止百度顯示該網頁的快照,百度會繼續為網頁建索引,并在搜索結果中顯示網頁摘要。
3。我們來看一下如何寫robots.txt,他的格式是什么樣的。
該文本是以 User-agent: 作為文本記錄開頭的。這個值有什么樣呢?它是來描述搜索引擎robots的名字。
比如說你要專指百度搜索引擎你就可以寫為 User-agent: baiduspider
同樣的谷歌就是 User-agent:googlespider 比如你要描述SOSO圖片蜘蛛你可以寫 User-agent:Sosoimagespider 這樣都可以 如果你要針對所有搜索引擎呢 User-agent: *
就是所有搜索引擎全部概括了。
robots.txt 除了第一項 User-agent: 還有其他兩項 Disallow: Allow: 但是User-agent: 是唯一項 他后面可以加若干Disallow和Allow行 也就是這種格式
User-agent: *
Disallow:
Disallow:
Disallow:
Allow:
Allow:
Allow: 后面加多少個Disallow和Allow行都可以 是根據你需要來加的。好了我接著說 Disallow
該項就是告訴搜索引擎我不希望我網站的那些網頁收錄的。你就可以用Disallow的描述來限制搜索引擎 我們來舉個例子,比如我要限制所有搜索引擎不收錄我的后臺目錄admin 那么我們什么做呢?來看一下
User-agent: *
Disallow:/admin/
就可以了 如果是要顯示百度不要收錄我的這個目錄其實搜索引擎可以什么做呢 前面我們說到了
User-agent: baiduspider
Disallow:/admin/
你問如果是要禁止所有搜索引擎訪問全站應該什么辦呢?我們來看一下
User-agent: *
Disallow:/
如果要禁止訪問多個文件夾呢 比如我要禁止訪問 Admin image data 3個文件夾
User-agent: *
Disallow:/Admin/
Disallow:/image/
Disallow:/data/
這樣就可以了
我們來解釋一下Allow行是做什么的?其實這個Allow和Disallow是相反的。Allow他的意思就是希望搜索引擎訪問我網站的一下路徑,Allow通常與Disallow搭配使用。下面我們舉個例子
我要允許訪問特定目錄中的部分url 比如我不要他訪問我Admin目錄 但是我希望他訪問我Admin目錄里面的hdd.html 什么辦呢?這時候我們就可以用到Allow了 來看例子
User-agent: *
Allow:/admin/hdd
Disallow:/Admin/
這樣就可以了
順便所一下 在robots.txt里面可以使用"*"和"$":
baiduspider支持使用通配符"*"和"$"來模糊匹配url。
"$" 匹配行結束符。
"*" 匹配0或多個任意字符。
舉個例子: 使用"*"限制訪問url 。禁止訪問/iea/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
User-agent: *
Disallow:/iea/*.htm 就可以了。
再來舉個例子 關于使用"$"限制訪問url , 僅允許訪問以".htm"為后綴的URL。
User-agent: *
Allow: .htm$
Disallow: /