企业互联专业网站定制+品牌网站设计+集团网站建设
400 0082 880
搜索引擎预处理工作原理
拥抱趋势 专业优化 快速打造能赚钱的网站
马上咨询
2019-11-08 09:49:53阅读:471来源:seo优化公司作者:企业互联
[导语]为您推荐文章《搜索引擎预处理工作原理》(本文主要讲述:分析网页建立倒排文件:正向索引:经过前面几步的工作之后就开始提取关键词了,把页面转换为一个关键词组合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,这样每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案,如图1-10所示。如“富营销线下聚会在下城子镇举行”按照正向** 大匹配结果为:富/营销/线/下/聚会/在/下/城子镇/举行,很显然这当中差生......)如果你对文章有兴趣,欢迎关注我们
本文对471人有所帮助,共有1500个文字,预计阅读所需时间4分钟

搜索引擎预处理工作原理

  搜索引擎预处理工作原理

  通过上边编者对搜索引擎预处理概念的一个简单的介绍,想必各位读者有一定的了解,那么在众多预处理的流程中具体究竟是怎样的一个工作流程呢?下面就让我们一起看一下搜索引擎在预处理中的各个工作流程!

  1.关键词的提取:搜索引擎能够完全识别的主要还是以文字内容为主的网络资源。搜索引擎蜘蛛在爬取一个页面的同时也把大量的htmL代码抓取下来,如keywords,description,title,H,css,div标签等,而它的主要工作还是将HTML标签、程序等处理,然后提取用于排名计算的文字信息内容。

  2.删除重复无用词:同一个词在一个网页中出现很多次,如“得”、“我”、“的”、“你”、“地”、“啊”、.“呀”、“却”、“再”、“从而”等这类的无用助词,出现的频率虽然很高,但是一旦反复出现就没太大价值了,一般这类词就归结为停用词。这类词也需要去除掉。

  3.中文分词技术:分词是中文搜索引擎独有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我是国内人”拆分出来的形态是“我”、“是”、“国内”、“人”。分词技术的效率直接影响到整个系统的效率。

  分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法。

  1)基于字符串匹配的分词方法

  按匹配方向的不同,可分为正向匹配、逆向匹配和** 少切词。可将这三种方法混合起来使用,即正向** 大匹配、逆向** 大匹配、正向** 小匹配、逆向** 小匹配。

  正向** 大匹配:假设字典中** 长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的** 后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。

  以“我是一个好人”为例,假设字典中** 长词语字数为3,正向** 大匹配顺序为:

  (1)取出短语“我是中”,检查“我是中”是否在字典中存在或是一个单字,处理方式是去掉** 后面的“中”字;

  (2)检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉“是”字;

  (3)检查“我”字是否在字典中存在或是一个单字,“我”是一个单字,将“我”字输出;

  (4)继续取出短语“是国内”,检查“是国内”是否在字典中存在或是一个单字,处理方式是去掉** 后面的“国个”字;

  (5)检查短语“是中”是否在字典中存在或是一个单字,处理方式是去掉“中”字;

  (6)检查“是”字是否在字典中存在或是一个单字,“是”是一个单字,将“是”字输出;

  (7)取出短语“国内人”,检查“国内人”是否在字典中存在或是一个单字,处理方式是去掉** 后面的“好”字;

  (8)检查短语“国内”,发现是字典中的一个词,直接输出;

  (9)检查短语“国人”,发现是字典中的一个词,直接输出;

  (10)** 后输出结果为:我、是、国内、人。

  逆向** 大匹配:以句子结尾处进行分词的方法。逆向** 大匹配技术** 大的一个作用是用来消歧。如“富营销线下聚会在下城子镇举行”按照正向** 大匹配结果为:富/营销/线/下/聚会/在/下/城子镇/举行,很显然这当中差生了歧义。下城子镇是一个地名,没有被正确地切分。采用逆向** 大匹配的技术可以修正这个错误。例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被分出来了,** 后剩下“聚会在下城子镇”,这样一来歧义就被消除了。

  正向** 小匹配/逆向** 小匹配:一般很少使用到,实际使用中逆向匹配的精准度要高于正向匹配度。

  2)基于统计分词方法

  直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的** **率。

  分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们在搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个词语。现在网络上经常会出现一些新造的网络流行词语如“神马”、“犀利哥”等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜索判断的需求。

  4.消除噪声:网页上有各种形形色色的广告文字、广告图片、登录框、版权信息等,为了某些目的不得不放上去,这些对搜索引擎来说不是有用的东西,可以直接去掉。

  5.分析网页建立倒排文件:正向索引:经过前面几步的工作之后就开始提取关键词了,把页面转换为一个关键词组合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,这样每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案,如图1-10所示。

  倒排索引:正向索引还不能直接用于排名。假如用户搜索关键词3,如果只用正向索引,排名程序需要扫描所有的索引中的文件,找出包含关键词3的文件,再进行相关计算。这样一来计算无法实时返回排名结果。所以搜索引擎会将正向索引数据库重新构造为倒排索引,倒排索引以关键词为索引,如图1-11所示。

  6.链接关系计算:链接关系计算是预处理中重要的一步。主流搜索引擎排名因素都包含网页之间的链接流信息。事先必须计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本等种种的链接计算。GooglePR是这种链接关系计算的重要代表之一。

  7.特殊文件处理:可以抓取和索引以文字为基础的多种文件类型。对flash、视频、PPT,XLS,图片等非文字内容不能执行脚本和程序。搜索引擎目前还无法获取flash文件和图片中的文字信息。图片一般推荐使用ALT标签图片文字信息。

如何优化:
婚恋网站建设 舟山网站开发服务商 成都做网站建设 购物街网站建设 梅州网站开发加盟代理 盐城建设局网站 网站改版亮点怎么写文章 怀化网站定制怎么收费 php网站开发招聘 cms搭建网站
总访问数:48540686 文章总数:13698 建站天数:3358
相关阅读
01
网站外部链接如何做?
  从人工干预的角度讲,我们要把握锚文本网站外链是网站排名的关键因素,是做优化不可或缺的一环,做网站外部链接的方式有很多,找准适合自己的。文章发布高质量的文章不仅要在本网站发布,还要在相关行业网站发布。以论坛程序Discuz为例,它们是不会为自己建站外链的,它们的外链都是用户自然为它们建设的,原因在于这个程序帮助了很多人,它们是善意的回报。怎么为建站合适的外链?有以下方法。为网站做外部链接的方法举不胜......[详情查看]
02
利用好SEO使关键词排名到百度首页
  利用好SEO使关键词排名到百度首页其次是流失到网站:通过QQ群、QQ空间、微信朋友圈的7个,将其转移到网站上。如何使这些数据更好?首先是设置引导链接:在博客中,我们增加了“送书”的页面链接,这是一个侧面的广告空间指南,让进入网站的用户都能看到这个链接,而免费送书是很多优化ER的兴趣所在,为什么要送书,真的是送书吗?一定是真的送书,圣诞节和新年就要到了,七个人决定送书给小伙伴以便回馈,所以我的导购环......[详情查看]
03
关键词优化如何添加网站数据分析?
  在这个网络竞争激烈的时代,学会知己知彼,是了解竞争对手的一面镜子。当您打开一个页面时,您可以记录一次PV的数量。如果一个网站的浏览量很高,就意味着该网站具有很高的权重和很高的用户粘性,这对于提高网站流量也是一件好事。分析网站更新后蜘蛛是否爬行和抓取。说明网站数据是必不可少的......[详情查看]
04
优化新手经常遇到的问题
  你不会在第一周看到结果,也不会在第一个月看到结果。惩罚谷歌被惩罚的前景对大多数站长来说都充满了恐惧――至少对那些不完全理解它们的站长来说是这样。然而,你不需要跳过顶部;即使对Web站点结构和可见性做一些简单的更改,也可以帮助您并为您提供增加时间的基础。2。在熊猫和企鹅等重大更新之后,搜索seo围绕着“惩罚”这个词,以吓退新的关键词优化,使他们认为一个简单的错误可能会立即影响他们网站的排名......[详情查看]
05
优化这是一个有前途的职业吗-
  虽然我没有睁开眼睛,但我对优化和SEM的工资和工作要求还是有一定的了解。毕竟,任何产品或技术进入市场后,市场需求、饱和度和经验积累都是新人无法比拟的。3优化的薪水是多少从目前成都优化市场来看,优化优化专家的工资基本在3000-4500之间,优化主管的工资在4500-7500左右。虽然优化的工作从现在开始还不够,但从整体趋势来看,优化已不再成为企业营销的“品牌”;** 重要的游戏;这种趋势越来越明显。如......[详情查看]
06
不利网站seo的因素及seo规则
  四,内容全部是采集。黄赌毒以及医疗这些行业一定要规避掉。SEO公司在选择关键词时要选择一些比较容易seo,用户比较关注的词,切记关键词不易过热,也不易过冷,过热容易seo不上去,过冷带不来流量,同时,关键词的分布不易过密,自然地在文章中出现是** 佳的,若故意在网站上,或alt标签文章中堆砌关键字,会降低文章的质量,招来用户的厌烦及百度的讨厌,严重的情况还会使网站降权甚至被k。一,友情链接结交不当。如......[详情查看]
07
电子书营销你听过吗?
  除此之外,美甲的注意事项。因为这个可以让这些精准流量主动找你,积极购买你的收费产品。说白了,利用电子书来引流,通过电子书的内容来营销转化,引导可能很多人一直以为电子书就只是用来看看小说而已,其实不然,网站推广涉及到方方面面,利用电子书营销进行网站推广就是其中的一种,电子书营销,前提是电子书,核心是营销。还有就是** 好在电子书名字中加入这本书的作用!这个往往很具催眠效果。你要赚谁的钱?你要解决他们哪个......[详情查看]
08
seo中发布文章时标题改如何编写?
  完全空白式标题。这种标题的设计理念其实很简单,围绕着公司的主要产品与服务形成的关键词进行编写标题,因为目前网站关键词的作用越来越小,所以尽量的将关键词放在标题中是比较划算的,后期seo起来也会事半功倍一些,但是这里要注意一点,搜索引擎出现的搜索结果是有字数限制的,大家可以自己敲击一下自己想要查询的关键词,看看搜索出来的标题结果是不是有位数限制,就因为有位数限制,所以设置标题关键词的时候,越重要的越......[详情查看]