1、抓取異常究竟指什么
對于互聯(lián)網(wǎng)中可正常訪問的頁面,通過百度蜘蛛抓取所獲取到的內(nèi)容應(yīng)與普通用戶訪問到是一致的,而抓取異常是除此以外的情況。
2、網(wǎng)站抓取異常有什么嚴(yán)重的影響
如果網(wǎng)站中存在大量網(wǎng)頁抓取異常,網(wǎng)站就會被搜索引擎認(rèn)為存在用戶體驗(yàn)上的缺陷,從而對網(wǎng)站的評價將會受到大幅度的影響,而網(wǎng)站在百度搜索引擎中的表現(xiàn)將會被終影響到。推薦閱讀:什么樣的網(wǎng)站利于百度蜘蛛抓取
3、關(guān)于死鏈接
死鏈接就是指那些頁面已經(jīng)無效,無法對用戶提供任何有價值信息的頁面,包括協(xié)議死鏈和內(nèi)容死鏈兩種形式。
什么是協(xié)議死鏈:如404、403、503狀態(tài)等常見死鏈會在頁面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)中有明確的表示。
什么是內(nèi)容死鏈;對于服務(wù)器來說,它有著正常的服務(wù)器狀態(tài),但是已經(jīng)變更為不存在內(nèi)容、或者是已刪除或需要權(quán)限等與原內(nèi)容無關(guān)的信息頁面。
對于死鏈,建議對死鏈數(shù)據(jù)進(jìn)行及時修復(fù),或推送死鏈數(shù)據(jù),為使搜索引擎更快地發(fā)現(xiàn)死鏈,將死鏈對用戶以及搜索引擎的影響減少。推薦閱讀:如何吸引百度蜘蛛與抓取的頻率
4、關(guān)于IP禁封
對網(wǎng)絡(luò)的出口IP地址進(jìn)行限制,禁止該IP段的使用者進(jìn)行內(nèi)容訪問,就是禁封。
5、關(guān)于UA禁封
用戶代理(User-Agent)即是UA,服務(wù)器是通過UA才能識別訪問者的身份。而UA禁封就是網(wǎng)站針對指定UA的訪問,返回異常頁面(如403,500)或跳轉(zhuǎn)到其他頁面的情況。
6、關(guān)于異常重定向
即為重定向?qū)⒕W(wǎng)絡(luò)請求重新指向其他位置。永久重定向(301跳轉(zhuǎn)協(xié)議)和暫時重定向(302跳轉(zhuǎn)協(xié)議),目前百度都可以識別和支持是兩種常見的重定向。
對于長時間跳轉(zhuǎn)到其他域名的情況,如網(wǎng)站更換域名,建議您使用301跳轉(zhuǎn)協(xié)議。
7、其他異常
針對百度refer的作弊:這是網(wǎng)頁針對從百度的refer返回不同于正常內(nèi)容的行為的一種反應(yīng)。針對百度ua的作弊:網(wǎng)頁對百度UA返回不同于頁面原內(nèi)容的行為。
JS跳轉(zhuǎn)作弊:用戶在通過搜索結(jié)果進(jìn)入頁面后發(fā)生了跳轉(zhuǎn)的情況,這是由于網(wǎng)頁加載了百度無法識別的JS跳轉(zhuǎn)代碼。
壓力過大引起的偶然禁封:根據(jù)站點(diǎn)的規(guī)模,訪問量等信息,百度會自動設(shè)定一個合理的抓取壓力。但是如壓力控制失常等異常情況下,根據(jù)自身負(fù)荷,服務(wù)器會進(jìn)行保護(hù)性的偶然封禁。這種情況下,會在返回碼中返回其含義是 “Service Unavailable ,如果網(wǎng)站已空閑,等百度蜘蛛會過段時間再來嘗試抓取時,這個鏈接就會被成功抓取。
咨詢熱線
13683819778聯(lián)系電話
微信掃一掃