首页 >> SEO优化 >> 搜索引擎重复内容检测算法

搜索引擎重复内容检测算法

Catagory:SEO优化, Date:2010年08月4日,Author: 工业品营销-贾定强

上一篇重复内容与镜像网页说到,网络上存在很多由于镜像页面和近似镜像页面导致的重复内容,这些重复内容造成了搜索引擎在抓取、索引和排名的时候浪费大量资源,影响搜索引擎对搜索用户的服务效果。所以,搜索引擎必然有相关的算法来规避重复内容。下面介绍两种常见的搜索引擎重复内容检测算法。

第一种是基于关键词提取的重复页面检测算法。基本原理是:有一个大的网页集合P,里面包含了很多网页为pi。每个网页pi都分别提取关键词tj,形成向量Wi=(W1,W2,…Wj)。其中Wj的影响因素有两个,一是关键词j在网页中出现的频率,二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时,只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小,两个页面的重复度越高。

第二种是基于全文分段匹配的重复页面检测算法。这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段,然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档,当它们的m个签名中有t个相同时(t是系统定义的阈值),则认为它们是互为重复内容网页。

第三种是基于模板消噪的重复内容检测算法。由于大量的近似镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化,去掉网页的模板噪音内容,进而提取出网页的正文,然后再结合其他重复内容检测算法对网页的正文进行消重。

以上三种都是基于内容的重复页面检测算法,也是搜索引擎正在使用的主流的重复内容检测算法。除此之外,搜索引擎还有其他的重复内容检测办法作为补充,如基于链接的重复页面检测算法等。

当我们知道了搜索引擎的重复内容检测算法之后有什么用呢?我觉得最大的作用就是我们不要再相信“原创”,“内容为王”之类的鬼话,拷贝,伪原创,只要不被搜索引擎的算法发现,在搜索引擎眼中就是很好的“原创内容”,“高质量内容”。但是如何才能做到这一点呢,明天讨论。

来源:工业品营销,原文地址:http://www.jiadingqiang.com/984.html,欢迎分享本文,转载请保留出处!

Comments: 4 Responses to “ 搜索引擎重复内容检测算法 ”
八月 4th, 2010
WordPress啦 说 Said:

搜索引擎对这个的过滤也不是那么的明显,总是有很多的短处

[回复]

八月 4th, 2010
cheewu 说 Said:

补充一个观点 同一个站下面的内容尽量不重复 和其它站的内容重复没有关系

[回复]

八月 4th, 2010
cheewu 说 Said:

同意你的观点 ,不要被伪原创这些捆住手脚.但你说的三个重复内容检测的算法都是非常粗糙,google肯定没有用。

发现类似文章的方法有很多,而且很多效果很好,问题的关键是算法的效率。一千篇,一万篇文章,或者说上百万这个级别发现重复文章代价是很小的。但是到了几十亿的规模,即使有好的算法,也会因为计算量实在太大而放弃..

[回复]

小强 回复:

是算法就会考虑效率问题。搜索引擎会在一个范围内使用检测算法避免重复,而不是针对所有网页使用算法避免重复。

[回复]

你也来说几句:

名字*必填
邮箱*必填,不会被公开
网站
QQ群交流
最近文章
文章归档
  • 2017 (3)
  • 2016 (30)
  • 2015 (63)
  • 2014 (21)
  • 2013 (38)
  • 2012 (25)
  • 2011 (67)
  • 2010 (268)
  • 2009 (19)