如何查看網站被搜尋引擎抓取的情況

以百度為例, 用於抓取網頁的程序叫做Baiduspider -百度蜘蛛,我們查看網站被百度抓取的情況主要是分析,網站日誌裡百度蜘蛛Baiduspider的活躍性:抓取頻率,返回的HTTP狀態碼

查看日誌的方式:

通過FTP,在網站根目錄找到一個日誌文件,文件名一般包含log,下載解壓裡面的記事本,這即是網站的日誌,記錄了網站被訪問和操作的情況。

因為各個服務器和主機的情況不同,不同的主機日誌功能記錄的內容不同,有的甚至沒有日誌功能。

日誌內容如下:

61.195.168.28 – - [11/Jan/2011:04:02:45 +0800] “GET /bbs/thread-7303-1-1.html HTTP/1.1″ 200 3490 “-” “Baiduspider+(+ http:/ /www.baidu.com/search/spider.htm )”   

分析:

GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個頁面。

200 代表成功抓取。

3490 代表抓取了3490個字節。

如果你的日誌里格式不是如此,則代表日誌格式設置不同。

很多日誌裡可以看到200 0 0和200 0 64 則都代表正常抓取。

抓取頻率是通過查看每日的日誌裡百度蜘蛛抓取次數來獲知。抓取頻率並沒有一個規範的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。當然,我們希望百度蜘蛛每日抓取的次數越多越好。

This entry was posted in SEO 技術教學 and tagged . Bookmark the permalink.