網(wǎng)站做好了,我們還需要引導(dǎo)蜘蛛來網(wǎng)站抓取,了解蜘蛛的抓取規(guī)律,我們才能更好的去優(yōu)化網(wǎng)站。而想要分析出搜索引擎蜘蛛爬取的規(guī)律,我們就需要懂得分析網(wǎng)站日志,那么網(wǎng)站日志怎么分析?有什么作用?一起隨武榮網(wǎng)絡(luò)(0595wr.cn)來詳細了解一下吧。
一、蜘蛛日志分析返回狀態(tài)碼:
1、200:代表服務(wù)器返回頁面成功;
2、404:代表頁面無法訪問;
3、301:代表頁面301轉(zhuǎn)向(重定向);
4、304:代表客戶端已經(jīng)執(zhí)行了GET,但文件未變化;
5、500:代表服務(wù)器遇到錯誤,無法完成請求;
6、403:代表表示服務(wù)器拒絕請求。
二、在日志中能看到哪些數(shù)據(jù)?
在文件中我們可以看到蜘蛛的IP地址、訪問的時間、蜘蛛抓取的網(wǎng)頁地址、http狀態(tài)碼、請求方式、字節(jié)數(shù)等,日志代碼示例如下:
220.181.108.79- - [18/May/2020:10:30:32 +0800] “GET /soft/17.html HTTP/1.1” 200 6779 “-” “Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http:// www.baidu.com/search/spider.html)
三、蜘蛛日志分析有什么作用?
1、通過分析我們可以判斷蜘蛛有沒對站點進行抓取,有沒成功,也可以判斷網(wǎng)站是不是符合搜索引擎的抓取規(guī)范,如有抓取失敗可以找出原因。
2、可以判斷哪些頁面蜘蛛的訪問頻率太高,影響了服務(wù)器的正常運行,我們可以做出調(diào)整,限制蜘蛛的訪問頻率來保證服務(wù)器速度的穩(wěn)定。
3、通過蜘蛛日志分析文件,我們可以判斷有多少權(quán)重蜘蛛,看到蜘蛛的訪問路徑,更好的優(yōu)化站內(nèi)結(jié)構(gòu),同時可以判斷出惡意攻擊的行為。
四、常見搜索引擎的蜘蛛所使用的Agent列表
Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; +)
Baidu蜘蛛 :Baiduspider+(+)
Sogou搜狗蜘蛛 :Sogou web spider/4.0(+#07)