眾所周知,只有被搜索引擎蜘蛛抓取并被收錄的頁(yè)面,才有可能參與到搜索結(jié)果排名的競(jìng)爭(zhēng)中,所以如何建立網(wǎng)站與搜索引擎蜘蛛之間的關(guān)系,是站長(zhǎng)們最為關(guān)注的問(wèn)題。
搜索引擎蜘蛛(又被稱為:網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)爬蟲(chóng)),采用極其復(fù)雜的抓取策略去遍歷互聯(lián)網(wǎng)中盡可能多的網(wǎng)站,而且還要在保證對(duì)網(wǎng)站用戶體驗(yàn)不受影響的綜合考量下,抓取更多有價(jià)值的資源。各大搜索引擎每天都會(huì)派出大量蜘蛛,起點(diǎn)一般是權(quán)重比較高的網(wǎng)站或是訪問(wèn)量很大的服務(wù)器。
搜索引擎蜘蛛會(huì)順著內(nèi)外鏈入口訪問(wèn)更多的網(wǎng)站頁(yè)面,把網(wǎng)頁(yè)信息存入數(shù)據(jù)庫(kù)。就像圖書(shū)館一樣把不同的圖書(shū)分類整理,最后壓縮加密成自己可以讀取的方式放在硬盤(pán)上,供搜索的用戶索取。我們搜索的因特網(wǎng),就是這個(gè)數(shù)據(jù)庫(kù)。
從搜索引擎蜘蛛抓取的原理來(lái)看,SEO站長(zhǎng)要想培養(yǎng)蜘蛛定期抓取網(wǎng)站,應(yīng)該做到以下三點(diǎn):
一、規(guī)律性更新高質(zhì)量的網(wǎng)站文章內(nèi)容
首先,搜索引擎蜘蛛喜歡抓取規(guī)律更新的網(wǎng)站。從一定意義上說(shuō),網(wǎng)站的更新頻率與抓取頻率是成正比的。即使在網(wǎng)站前期沒(méi)有蜘蛛來(lái)抓取文章,也要定期更新。這樣蜘蛛才會(huì)獲取并統(tǒng)計(jì)這個(gè)網(wǎng)站更新的規(guī)律,定期來(lái)進(jìn)行新增內(nèi)容抓取,使網(wǎng)站文章更新后,能夠盡可能快的被抓取到。
其次,原創(chuàng)度、新鮮度較高的文章內(nèi)容更容易被蜘蛛抓取收錄。網(wǎng)站如果存在大量重復(fù)性的內(nèi)容,會(huì)讓蜘蛛覺(jué)得抓取太多而沒(méi)有意義,還會(huì)使搜索引擎對(duì)網(wǎng)站質(zhì)量產(chǎn)生質(zhì)疑,甚至?xí)?dǎo)致懲罰。“新鮮度”主要指內(nèi)容的熱門(mén)程度和實(shí)效性,新近發(fā)生的“大事”、“熱門(mén)事件”是比較容易被用戶關(guān)注和被蜘蛛抓取。
除了以上兩點(diǎn)外,關(guān)鍵詞的分布也對(duì)蜘蛛的抓取有重要的影響。因?yàn)樗阉饕娣直骓?yè)面內(nèi)容的重要因素之一就是關(guān)鍵詞,但是關(guān)鍵詞過(guò)多的堆砌會(huì)被搜索引擎視為“作弊”行為,所以關(guān)鍵詞的分布應(yīng)該在控制在2%-8%左右的密度。
二、確保服務(wù)器穩(wěn)定工作
服務(wù)器的穩(wěn)定性不但關(guān)系到網(wǎng)站用戶體驗(yàn)度的問(wèn)題,還會(huì)對(duì)蜘蛛的抓取造成很大影響。站長(zhǎng)們應(yīng)該定期檢查服務(wù)器狀態(tài),查看網(wǎng)站日志,檢查是否有500狀態(tài)碼等標(biāo)記,及時(shí)發(fā)現(xiàn)存在的隱患。
如果網(wǎng)站遇到黑客攻擊、服務(wù)器網(wǎng)站誤刪、服務(wù)器硬件癱瘓等問(wèn)題,并且宕機(jī)超過(guò)12個(gè)小時(shí),應(yīng)該立即開(kāi)啟百度站長(zhǎng)平臺(tái)的閉站保護(hù)功能,防止百度誤判斷網(wǎng)站出現(xiàn)大量抓取無(wú)效及死鏈頁(yè)面,應(yīng)及時(shí)修復(fù)網(wǎng)站與服務(wù)器。
長(zhǎng)期不穩(wěn)定的服務(wù)器會(huì)導(dǎo)致蜘蛛不能有效爬取頁(yè)面,降低搜索引擎友好度,從而出現(xiàn)收錄下降、排名下降的情況。所以網(wǎng)站一定要選擇性能穩(wěn)定的服務(wù)器。
三、優(yōu)化網(wǎng)站結(jié)構(gòu)
如果網(wǎng)站內(nèi)容好,但是頁(yè)面卻收錄卻寥寥無(wú)幾時(shí),多數(shù)是因?yàn)轫?yè)面根本沒(méi)有被蜘蛛爬取。這時(shí)就應(yīng)該對(duì)網(wǎng)站進(jìn)行全面檢測(cè),主要包括Robots文件、頁(yè)面層級(jí)、代碼結(jié)構(gòu)、網(wǎng)站鏈接等方面。
1、Robots文件,全稱“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol)。網(wǎng)站通過(guò)Robots協(xié)議可以告訴蜘蛛哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
2、頁(yè)面層級(jí),表現(xiàn)在網(wǎng)站物理層級(jí)結(jié)構(gòu)、邏輯層級(jí)結(jié)構(gòu)等多方面。以邏輯層級(jí)結(jié)構(gòu)URL結(jié)構(gòu)為例,方便記憶、層級(jí)簡(jiǎn)短、長(zhǎng)度適中的靜態(tài)URL是被搜索引擎蜘蛛所喜愛(ài)的。URL結(jié)構(gòu)(以“/”為劃分標(biāo)志),一般不宜超過(guò)4層,結(jié)構(gòu)太復(fù)雜不利于搜索引擎收錄,也會(huì)影響到用戶體驗(yàn)度。
3、網(wǎng)站代碼類別、結(jié)構(gòu)也會(huì)影響網(wǎng)頁(yè)是否被蜘蛛抓取。如:IFRAME、JavaScript等代碼,目前還不能被百度搜索引擎蜘蛛有效的理解、抓取,所以需要盡量減少這類代碼的使用。另外,過(guò)大的代碼量也會(huì)導(dǎo)致蜘蛛抓取不完全。
4、網(wǎng)站鏈接是網(wǎng)頁(yè)間權(quán)重傳遞的“入口”,鏈接的數(shù)量和質(zhì)量,直接影響到頁(yè)面能否被蜘蛛抓取和收錄。低質(zhì)量鏈接堆砌只會(huì)給網(wǎng)站帶來(lái)毀滅性的災(zāi)害,且還要及時(shí)排除錯(cuò)誤鏈接和死鏈接,減少蜘蛛對(duì)死鏈接的抓取時(shí)間。盡量多從正規(guī)和相關(guān)站點(diǎn)獲得反向鏈接,這樣才可以提高網(wǎng)站的權(quán)重。
另外,網(wǎng)站也可以給蜘蛛提供一些快捷通道,比如sitemap。一個(gè)結(jié)構(gòu)清晰的網(wǎng)站地圖能讓搜索引擎蜘蛛清楚的了解網(wǎng)站結(jié)構(gòu)從而順利的抓取整個(gè)網(wǎng)站頁(yè)面。
通過(guò)高質(zhì)量?jī)?nèi)容更新、優(yōu)質(zhì)的鏈接交換、以及合理網(wǎng)站結(jié)構(gòu),可以讓搜索引擎蜘蛛更好的了解網(wǎng)站,抓取網(wǎng)站頁(yè)面。但是不能為了吸引蜘蛛抓取而發(fā)布一些和網(wǎng)站內(nèi)容無(wú)關(guān)的頁(yè)面,或是過(guò)度優(yōu)化網(wǎng)站。因?yàn)橹挥姓嬲眯娜プ?,并且能給用戶帶來(lái)價(jià)值的網(wǎng)站,才能被搜索引擎和用戶喜歡。
轉(zhuǎn)發(fā)請(qǐng)注明阿三源碼 https://www.a3ym.com
友情提示:A5官方SEO服務(wù),為您提供權(quán)威網(wǎng)站優(yōu)化解決方案,快速解決網(wǎng)站流量異常,排名異常,網(wǎng)站排名無(wú)法突破瓶頸等服務(wù):http://www.admin5.cn/seo/zhenduan/