<input id="wwqma"></input>
<center id="wwqma"><nav id="wwqma"></nav></center>
<sup id="wwqma"></sup>
  • <delect id="wwqma"><tr id="wwqma"></tr></delect>
      <sup id="wwqma"></sup>
      <center id="wwqma"><nav id="wwqma"></nav></center>
      • <center id="wwqma"></center>
      • 網(wǎng)站改版帶來的404抓取錯誤解決實(shí)踐
        來源:本站原創(chuàng) 日期:2013年06月05日 訪問次數(shù):

        網(wǎng)站建設(shè)中一項(xiàng)重要的工作就是改版,每次改版肯定是往好的方面進(jìn)行,因?yàn)槊總階段的定位不同,我們要網(wǎng)站所表現(xiàn)的企業(yè)形象也不同,而且一個好看大氣的網(wǎng)站絕對能夠在潛在客戶心里提升我們公司的地位。但是多數(shù)的改版對于我們網(wǎng)站的SEO都會造成一定的影響,這里就需要我們對網(wǎng)站的情況掌握的非常熟悉之后,然后進(jìn)行有效地控制,減少改版造成的404頁面過多情況。

        最近有一個新網(wǎng)站上線,因?yàn)槭且荒甓嗟挠蛎熬W(wǎng)站和新站內(nèi)容完全不同,網(wǎng)站結(jié)構(gòu)也做了很大的調(diào)整,所以帶來了很多的404錯誤抓取頁面,當(dāng)時(shí)并沒有特別注意這個問題,后來持續(xù)更新了2個星期左右,發(fā)現(xiàn)快照都沒有更新,發(fā)了一些簡單的外鏈也沒有作用,這個問題就引起了我的注意。下面具體的跟大家分析下自己的一些思路:

        1、利用日志分析工具找到404錯誤抓取頁面

        日志分析工具利用最常用的光年日志分析工具就可以了,首先利用FTP下載好最近幾天的網(wǎng)站LOG日志,當(dāng)然,想更多的分析,那么多下載一段時(shí)間的LOG日志也可以,利用日志分析工具新建任務(wù)分析各個階段的百度蜘蛛抓取情況,這里主要考慮百度抓取情況,因?yàn)榻⑦@個分析工作的前提是快照停滯,收錄為1。

        這里建議大家分為三個時(shí)間段來分析:

        A、分析最近一天的LOG日志,可以是今天的,但是最好是昨天的,因?yàn)樽蛱斓臅容^全,今天的你即使是晚上來分析也會有一部分時(shí)間沒有統(tǒng)計(jì)到。

        B、分析改版之后的LOG日志,因?yàn)檫@涉及到百度蜘蛛對于網(wǎng)站改版的一些判斷,例如我們可以分析百度蜘蛛什么時(shí)候開始判斷網(wǎng)站已經(jīng)改版,或者什么時(shí)候已經(jīng)放棄對于舊站URL的抓取等等。

        C、改版前后抓取量的對比,分析改版對于百度蜘蛛的抓取量影響多大。

        至于日志分析工作后面的分析工作都是一鍵式的,具體的分析思路有了之后,我們對照著進(jìn)行分析,就會找到很多平時(shí)我們沒有注意到的問題,例如下面出來改版造成的404頁面,還有不少的頁面也是404錯誤,我并沒有意識到,例如下面的wp-login.php頁面就是一個最典型的例子:

        點(diǎn)擊瀏覽下一頁

        404錯誤抓取頁面

        2、利用百度站長工具中的死鏈提交工具進(jìn)行死鏈提交

        百度站長平臺LEE團(tuán)隊(duì)說:404狀態(tài)碼代表‘Not Found’,spider更新時(shí)會認(rèn)為該頁面已失效,此時(shí)呢將在索引庫中刪除,短期內(nèi)spider再次發(fā)現(xiàn)該url不再會抓取。當(dāng)然,百度的說法只能作參考,因?yàn)榉治鼍W(wǎng)站日志發(fā)現(xiàn),2個多星期百度蜘蛛還是來抓取這些錯誤頁面,當(dāng)然,百度對于404錯誤頁面的指導(dǎo)性操作,還是非常有針對性的。

        點(diǎn)擊瀏覽下一頁

        百度站長平臺對404頁面的看法

        特別是死鏈提交工具中提交死鏈sitemap,這一條大家可以根據(jù)自身的情況進(jìn)行死鏈提交,我這邊提交后暫時(shí)還沒有大的效果,因?yàn)榇蠹叶贾腊俣鹊男Ч宫F(xiàn)周期一般都比較長。

        3、利用robots.txt和nofollow標(biāo)簽引導(dǎo)蜘蛛抓取

        404錯誤頁面一個最大的壞處就是給蜘蛛帶來一些錯誤的抓取,浪費(fèi)了蜘蛛抓取資源,舉個例子,首先我們要達(dá)成這樣的一個共識:任何一個網(wǎng)站的蜘蛛抓取訪問資源都是有限的,小網(wǎng)站自然要少很多,而大網(wǎng)站就要多很多,要想蜘蛛抓取率更高,抓取的更合理,那么一些錯誤的鏈接造成的404錯誤量就要盡可能的減少。

        所以我這里針對網(wǎng)站的這些資源的浪費(fèi)進(jìn)行了適當(dāng)?shù)囊龑?dǎo),讓蜘蛛抓取我想讓他抓的一些頁面,對于/wuchenshi/、/gaoxiao/等類似的欄目頁面都進(jìn)行robots限制抓取,對于網(wǎng)站中一些不參與排名的鏈接實(shí)行nofollow,引導(dǎo)蜘蛛抓取重要頁面。下面看看蜘蛛6.3號抓取的情況,首先目錄抓取中已經(jīng)沒有了網(wǎng)站中不存在的目錄:

        點(diǎn)擊瀏覽下一頁

        蜘蛛對目錄的抓取情況

        對于蜘蛛訪問的404頁面,就只剩下一個圖片的404錯誤抓取:

        點(diǎn)擊瀏覽下一頁

        改進(jìn)后404錯誤抓取

        目前還沒有看到快照更新和收錄增加,當(dāng)然,理論上這種操作應(yīng)該會幫助網(wǎng)站更快的獲得搜索引擎的認(rèn)可,后面如果有恢復(fù),會在文章中為大家做一個補(bǔ)充。

        上一篇:若沒有Facebook 谷歌上季度廣告營收可增10億
        下一篇:SEO步入新時(shí)代 將日漸趨向成熟還是末日?
        • 地址:信陽市東方紅大道亞興大廈13樓
        • 電話:0376-6269135
        • 郵編:464000
        • 郵箱:578023295@qq.com
        • 業(yè)務(wù)咨詢:15837663121