Robots公文写作的标准是什么
三大搜索引擎巨头之间的较量是一种乐趣,但他们也偶尔会合作。去年Google、雅虎、微软合作并共同遵守统一Sitemaps标准。两天前,三大巨头同时宣布,共同遵守Robots的规定。TXT文件标准Google,雅虎,微软各在其官方博客上发帖,公布了Robots。TXT文件和Meta标签三家公司支持的标准,以及一些独特的标准。什么是Robots文件标准 让我们做个总结。
三家公司支持的Robots记录包括:
Disallow恩达什;告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有网站文件:
用户代理:*
Disallow: /
Allow恩达什;告诉爬行器抓取一些文件Allow和Disallow可以一起使用,告诉爬行器大多数文件不会在某个目录下抓取,而只抓取一部分。例如,下面的代码将使spider不获取AB目录下的其他文件,而只获取CD目录下的文件
用户代理:*
Disallow:/ab/
Allow:/ab/cd
$恩达斯;匹配URL结尾的字符。例如,以下代码将允许spider访问后缀的htmisURL:
用户代理:*
Allow: .htm$
*外卡恩达什;告诉蜘蛛匹配任何角色。例如,以下代码将禁止蜘蛛抓取所有htm文件:
用户代理:*
Disallow: /*.htm
Sitemaps位置ndash;告诉蜘蛛你的网站地图在哪里。格式为:
Sitemap:
Meta标签这三家公司都支持:
NOINDEX恩达什;告诉蜘蛛不要索引网页。
诺恩达什;告诉蜘蛛不要跟踪网上的链接。
NOSNIppET ndash公司;告诉蜘蛛不要在搜索结果中显示标题。
无政府主义者;告诉蜘蛛不要显示快照。
NOODP恩达什;告诉蜘蛛不要在开放目录中使用标题和描述。
这三家公司现在都支持这些记录或标签。看来雅虎微软不支持通配符百度现在也支持Disallow,Allow和两个通配符Meta标签我没有找到官方说法百度是否支持。
只有Google支持Meta标签是:
UNAVAILABLE在ndash之后;告诉爬行器页面何时过期。在此日期之后,它将不再出现在搜索结果中。
诺曼根达斯指数;告诉蜘蛛不要索引页面上的图像。
不翻译ndash;告诉蜘蛛不要翻译页面的内容。
雅虎还支持Meta标签:
Crawl-Delay恩达什;蜘蛛被允许延迟爬行的频率。
诺伊迪尔恩达什;类似于NOODP标记,但指的是雅虎目录而不是开放目录。
Robots-无内容;告诉蜘蛛标记的部分html不是网页内容的一部分,或者从另一个角度告诉蜘蛛哪个部分是网页的主要内容(要检索的内容)。
MSN还支持Meta标签:
Crawl-Delay
另外,值得关注的是Robots。TXT文件可能不存在,并返回404错误,这意味着允许蜘蛛抓取所有内容。但是,在爬网时Robots。TXT文件中,有一些超时等错误,这可能会导致搜索引擎不包括网站,因为蜘蛛不知道是否有Robots。TXT文件存在或其中包含什么,这与确认文件不存在不同。
- 如何优化:
- 雄安网站开发 海南建设厅网站 国家监察委员会网站改版 个人网站备案建设方案书 石嘴山网上商城网站开发 湘潭网站开发培训收费标准 搜狐设计网站 郑州专业网站开发运营 网站搭建有什么好处 政府部门网站改版请示