如何限制蜘蛛抓取来提高优化seo效果
假如,企业网站或者个人网站在建设网站的时候使用的是虚拟空间,大多数都会有一定的流量限制。如果大部分的流量都被蜘蛛占据了,那么我们需要花一些额外的钱来购买流量。那么,如果一个网站上的大量流量被蜘蛛爬行所浪费,有什么技术和方法可以限制而不影响优化化的效果呢?成都优化认为,我们可以采用以下方法
1、识别IP屏蔽的假蜘蛛。通过对网站日志的分析,我们可以知道,很多所谓的百度蜘蛛或谷歌蜘蛛其实都是假的。我们可以解析出这些假蜘蛛的IP来屏蔽它们,不仅可以节省流量,还可以降低网站采集的风险。在具体的操作中,需要找出IP是否是真正的蜘蛛。操作方法是 点击开始运行命令,在左下角输入nslookup ip enter命令,查看结果。如果是真的,搜索蜘蛛有蜘蛛印记,而假蜘蛛没有印记。
2、屏蔽无效蜘蛛或搜索蜘蛛对关键词优化的影响很小。例如,我们知道googlespider的抓取量非常大,但是对于很多行业来说,Google的流量非常低,而且优化效果不好。因此,我们可以保护Google蜘蛛不被爬行,并节省大量流量。被谷歌蜘蛛阻止的爬行。除了谷歌之外,还有一些蜘蛛,比如盘古搜索、必应蜘蛛等,这些流量非常低,或者几乎没有效果的蜘蛛实际上可以被屏蔽。
3、使用robots限制对无效或重复页面的抓取。有些页面可能已经存在,但不再存在,或者存在动态和静态URL。由于数据库中存在反向链接或此类链接,蜘蛛仍会不时抓取。我们可以发现404页被返回的url被屏蔽,这不仅提高了抓取屏蔽,而且减少了流量浪费。
4、限制页面的抓取内容,提高抓取效率和抓取速度,减少抓取流量。对于任何一个页面,都有很多无效的噪声区域,比如网站的登录、注册区、底层版权信息和一些有用的链接导航等,或者一些模板有一些蜘蛛模块无法识别的印象等,我们可以使用Noffollow标记或ajax、JS等方法来限制或阻止抓取到减少抓取的次数。
5、CDN加速,改善蜘蛛抓取,减少服务器响应和流量浪费。目前的网站大多使用图片、视频等大量多媒体进行显示,这些图片缺乏更多的下载流量。如果对图片使用外部调用方法,可以节省大量蜘蛛抓取流量。目前,** 好把图片放到其他服务器上,或者上传到一些网络磁盘上。
6、使用网站管理员工具限制或改进蜘蛛的抓取,或限制蜘蛛的抓取时间。目前,百度站长平台和谷歌站长平台都有站长抓取工具,可以用来限制蜘蛛抓取的时间和数量。我们可以根据需要进行合理调整,以达到** 佳效果。
当然,在实践中,我们也可以根据自己的实际需要来解决。例如,我们可以为站点地图中某些抓取量过大的栏目设置较低的抓取频率,如果某些重要内容没有被很好地收录,我们可以增加外部链接。或者对内链进行改进抓取等方法都是死路一条,我们可以根据具体的更新合理设置,达到抓取更少、抓取效率更高的目的。