欧美一级特黄特色视频|免费观看a黄一级视频|久久综合丝袜精品东京热|国产伦一区二区精品视频|成年免费视频一区二区三区|日本一区二区三区视频在线|久久综合精品无码AV专区|亚洲国产婷婷香蕉久久久久久竹菊

蘇州天匯信息技術(shù)有限公司

服務(wù)電話:
0512-67593133   客服QQ:QQ咨詢

建站幫助TIANHUI

天匯用心服務(wù)每一位顧客

讓搜索引擎快速收錄網(wǎng)站頁面解決辦法

[建站幫助]   發(fā)布時(shí)間 [2010-5-17 8:48:03]   蘇州天匯公司
  讓搜索引擎快速收錄網(wǎng)站頁面解決辦法 robots.txt,是用來聲明網(wǎng)站中不希望被搜索引擎收錄的內(nèi)容或用來指定搜索引擎收錄內(nèi)容的規(guī)則文件。
 

  我們知道,現(xiàn)代搜索引擎收錄網(wǎng)站頁面是通過網(wǎng)絡(luò)爬蟲(英文名稱有很多:bots,spider,Crawler,collector,walker,Slurp等等)進(jìn)行頁面采集,即由網(wǎng)絡(luò)爬蟲進(jìn)入網(wǎng)站,將網(wǎng)站頁面以及頁面下的連接頁面進(jìn)行下載,然后通過內(nèi)容分析器來分析頁面內(nèi)容。而在這個(gè)過程中,robots.txt的作用就在于告訴網(wǎng)絡(luò)爬蟲,那些頁面不能采集,那些頁面能采集。一般來說,主流搜索引擎的網(wǎng)絡(luò)爬蟲都是遵守robots.txt規(guī)范的。具體的robots規(guī)范可參見以下網(wǎng)站:www.robotstxt.orgwww.w3.org。

  robots.txt要求保存為小寫,存放在網(wǎng)站根目錄下,并保證可以通過www.yourdomain.com/robots.txt進(jìn)行訪問的。

  我們填寫robots.txt一般只需要注意兩個(gè)語法規(guī)則就可以了:User-agent和Disallow。User-agent是規(guī)定允許采集本站頁面的搜索引擎;Disallow規(guī)定不允許采集的頁面路徑。
 
例一、
  User-agent: *
  Disallow:
  上面規(guī)則表示允許所有搜索引擎的爬蟲收錄本站頁面,并且允許采集所有頁面。本例還有一個(gè)簡便的方式,就是創(chuàng)建一個(gè)命名為robots.txt的空文檔,放入網(wǎng)站個(gè)目錄就好了!
  
例二、
  User-agent: *
  Disallow: /admin/
  上面規(guī)則表示允許所有搜索引擎爬蟲收錄本站頁面,但不允許收錄/damin/目錄下的所有頁面。我們知道,admin目錄下的頁面,往往存放著后臺管理頁面,為了安全起見,我們不允許搜索引擎把/admin/目錄下頁面收錄。
  
例三、
  User-agent: Baiduspider
  Disallow:
  上面規(guī)表示只允許Baidu爬蟲收錄本站頁面,并且允許收錄所有頁面。
  
例四、
  User-agent: *
  Disallow: /
  上面規(guī)則表示任何搜索引擎爬蟲都不得收錄本站所有頁面。對于一些不希望公開站點(diǎn)的網(wǎng)站來說,的確是比較有用的!
  
  知道以上規(guī)則,我們就可以巧妙利用robots.txt。
  

  國內(nèi)常見的搜索引擎爬蟲有:
Baiduspider、Googlebot、Slurp、MSNBOT、iaskspider、sogou+spider、Zhuaxia.com+1+Subscribers、Feedsky+crawler

本文地址:http://www.xiaoneo.com/Article/ArticleView_25.html