CDN源代码筛选搜索引擎爬虫
前言
全站采用阿里云CDN以来,网站的接入速度有了明显提高,阿里云CDN的稳定性也很好。但** 近,我发现百度和谷歌爬虫程序开始爬升我的源站点。这是有点麻烦,如果不赶快解决,到主站下去就不好了。
思考
因为蜘蛛爬不该爬的东西,所以解决办法自然是限制它们的爬行。
有三种方法来限制蜘蛛的捕获:1robots. TXT文件
robots文件用于限制搜索引擎蜘蛛的行为,阻止源站点中的爬行器的主要目的是限制爬行器在同一程序下获取不同的域名。然而,这一点robots。TXT文件没有可以限制域名的参数。它只能限制蜘蛛捕捉当前域名下的文件。这条路堵住了。2设置META标签
当访问者访问的域名不是主网站的域名时,域名为METAgt;很容易实现限制标记中爬行器活动的内容。只需修改模板中的头文件。3识别蜘蛛的UA,并限制网站程序
获取访问者的用户代理。如果是UA或搜索引擎蜘蛛,跳到主站。还有一个问题,那就是上网把UA的每一个搜索引擎蜘蛛都收了,想累了。
如果您懒惰,请选择设置META标签的方法。
实践
第一步是在程序中获取访问者的域名。在不同的语言和环境中获取域名有不同的方法PHP您可以通过以下语句获取访问者当前访问的域名:
$_SERVER;
第二,如果不是主站的域名,则会输出head中的META标签来限制spider的活动
如果($SERVER!=#39; www.kungg.com#39 ; {
echo #39; lt;META名称=quot;robots引用;CONTENT=quot;noindex,nofollow报价;gt;#39;;