搜索引擎重复内容检测算法

上一篇重复内容与镜像网页说到，网络上存在很多由于镜像页面和近似镜像页面导致的重复内容，这些重复内容造成了搜索引擎在抓取、索引和排名的时候浪费大量资源，影响搜索引擎对搜索用户的服务效果。所以，搜索引擎必然有相关的算法来规避重复内容。下面介绍两种常见的搜索引擎重复内容检测算法。

第一种是基于关键词提取的重复页面检测算法。基本原理是：有一个大的网页集合P，里面包含了很多网页为p_i。每个网页p_i都分别提取关键词t_j，形成向量W_i=(W₁,W₂,…W_j)。其中W_j的影响因素有两个，一是关键词j在网页中出现的频率，二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时，只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小，两个页面的重复度越高。

第二种是基于全文分段匹配的重复页面检测算法。这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段，然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档，当它们的m个签名中有t个相同时（t是系统定义的阈值），则认为它们是互为重复内容网页。

第三种是基于模板消噪的重复内容检测算法。由于大量的近似镜像网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断，从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化，去掉网页的模板噪音内容，进而提取出网页的正文，然后再结合其他重复内容检测算法对网页的正文进行消重。

以上三种都是基于内容的重复页面检测算法，也是搜索引擎正在使用的主流的重复内容检测算法。除此之外，搜索引擎还有其他的重复内容检测办法作为补充，如基于链接的重复页面检测算法等。

当我们知道了搜索引擎的重复内容检测算法之后有什么用呢？我觉得最大的作用就是我们不要再相信“原创”，“内容为王”之类的鬼话，拷贝，伪原创，只要不被搜索引擎的算法发现，在搜索引擎眼中就是很好的“原创内容”，“高质量内容”。但是如何才能做到这一点呢，明天讨论。

微信扫一扫或点击链接联系我