503状态码应该用到没有建立好的的页面上
近日,百度站长平台发现,一些网站将未建页面放到网上,这些页面被百度抓取时返回404的代码,因此当页面被百度抓取后,将直接被视为死链接删除。但是,此页面将在第二天或几天后生成,并将显示在网站上。不过,由于之前已经被百度作为死链接删除,必须等待这些链接再次被发现,然后抓取才能显示出来,这样的操作** 终会导致一些页面在一段时间内不出现在百度上。
比如,某大型门户网站爆出大量时间敏感、百度没有及时收录的新闻话题。经检查核实,发现该页面因未完成而被放到网上,并返回404状态码,被百度视为死链接删除,导致记录和流量丢失。
对于这样的问题,百度官方建议网站合理使用返回码,即使用503返回码,这样百度的爬虫在收到503返回码后,会在一定时间后访问这个地址,并建立在页面上。上线后,可以重新抓取,** 页面及时抓取和索引,避免未建内容设置为404造成不必要的收录和流量损失。
以下是百度支持的几种常用返回码的详细介绍
404 404返回码的意思是“找不到”,百度会认为网页已经过期,然后通常会从搜索结果中删除,蜘蛛短期内不会再找到这个网址。
301:301返回码的含义是“永久移动”。百度会认为该网页目前正在跳转到一个新的网址。在站点迁移、域名替换和站点修订的情况下,建议使用301返回码,以** 大限度地减少修订造成的流量损失。尽管百度蜘蛛现在对301跳的响应时间更长,但我们仍然建议这样做。
503:503返回码的含义是“服务不可用”。百度会认为网页是暂时无法访问的,通常网站是暂时关闭的,而且带宽是有限的。对于返回503的网页,百度蜘蛛不会直接删除此网址,并将在短时间内再次访问。届时,如果网页已经恢复,将正常抓取;如果继续返回503,将在短期内多次访问。但是如果网页长时间返回503,那么这个网址仍然会被百度视为无效链接,并从搜索结果中删除。
成都优化建议与总结
1、如果百度蜘蛛给网站带来太大压力,请尽量不要使用404。还建议返回503。这样,百度蜘蛛会在一段时间后尝试抓取这个链接。如果此时站点处于空闲状态,则将成功对其进行爬网。
2、如果网站暂时关闭或网页尚未联机,当网页无法打开且未完成时,不要立即返回404。建议使用503状态。503可以通知百度蜘蛛该页面暂时无法访问,请稍后再试。