搜索引擎如何确定网站文章的重复性
在这个科技高度发达的时代,百度已经成为人们获取新闻的主要方式。但如今的百度充斥着重复内容,给用户的访问带来了很大的麻烦。因此,百度需要对网页复制做出判断。对于重复的网页,只选择我们的一些高质量的网站供用户浏览。然而,在现有技术中,通常通过比较两页的内容和借阅点来确定两页的相似性。
这种方法可以更精确地计算,但时间复杂度太高,并且计算需要时间。通过在一页上签署一些重要信息,然后比较两页的签名来计算相似度。该方法相对简单有效,计算速度快。
一、网站重复内容判定
A、 获取多个页面;
B、 分别提取网页的网页正文;
C、 从网页正文中提取一个或多个句子,根据一个或多个句子计算网页正文句子签名;
D、 基于网页句子的签名对多个网页进行聚类;
E、 对于每个类别下的网页,计算网页的附加签名;
F、 根据附加签名确定每个类别中的网页是否重复。
这样,通过包含网页体句签名的多维签名判断网页是否重复的系统和方法是有效和快速的。
二、本网站页面的网站结构
提取文本
A、 阻止网页;
B、 对分割后的网页进行块过滤,快速得到收录网页内容的内容;
C、 从内容块中提取网页正文。
三、正文分句
A、 网页正文分句;
在这一步中,您可以使用分号、句点、感叹号和其他符号来指示句子的结尾,以分割网页的正文。此外,还可以根据网页的视觉信息对网页的文本进行分割。
B、 过滤并转换子句后的网页正文;
在步骤中,首先过滤掉句子中的数字信息;版权信息和其他对网页的重复判断没有决定性影响的信息。随后,对句子进行转换,例如,执行全宽/半宽转换或传统/简化转换,以使转换后的句子的格式一致。
C、 从过滤转换后的网页正文中提取** 长的一个或多个句子;
在该步骤中,从过滤和转换后的网页正文中提取** 长的句子或字段中的预定数量的连续句子的组合。例如,在网页实例中,过滤转换后的段落** 长,远远超过其他句子。因此,可以选择段落作为网页体句,也可以选择** 长的连续句组合作为网页体句。
D、 对一个或多个句子执行哈希签名操作,以获取网页正文上的句子签名。
simhash算法是比较每个网页的附加签名是否相同或相似,以确定网页是否重复。具体来说,当比较使用simhash签名操作获得的网页文本的签名时,比较网页正文签名的不同数字。不同的数字越少,网页被复制的概率就越高。
曦曦优化总结
1、两个网页的真实标题签名是相同的。
2、两个网页内容的签名是相同的。
3、两个网页正文签名的不同位数小于6。
4、两个网页的网页位置签名相同,url文件名签名相同。
5、评论块签名、资源签名、标记标题签名、摘要签名和url文件名签名中有三个签名相同。
附加信息判断重复
通过比较两个页面,可以得到一个真正重复的url集合。一般来说,如果真重复url集合中的网页数/整个网页集合中的网页数大于30%,则认为整个网页集合是真重复的,否则为假重复。