搜索引擎重复内容检测算法

1. 海外社媒客户开发工具【免费】了,帮你从GG/FB/Ins/谷歌地图上免费获取客户

2. WhatsApp 聊天记录保险【99元/年】,聊天记录不怕丢。自带翻译、多开,号码抓取、群发

3. 外贸网站搭建、谷歌SEO、社媒运营、企业WhatsApp管理、外贸管理软件、AI应用,【联系我】

上一篇重复内容与镜像网页说到,网络上存在很多由于镜像页面和近似镜像页面导致的重复内容,这些重复内容造成了搜索引擎在抓取、索引和排名的时候浪费大量资源,影响搜索引擎对搜索用户的服务效果。所以,搜索引擎必然有相关的算法来规避重复内容。下面介绍两种常见的搜索引擎重复内容检测算法。

第一种是基于关键词提取的重复页面检测算法。基本原理是:有一个大的网页集合P,里面包含了很多网页为pi。每个网页pi都分别提取关键词tj,形成向量Wi=(W1,W2,…Wj)。其中Wj的影响因素有两个,一是关键词j在网页中出现的频率,二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时,只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小,两个页面的重复度越高。

第二种是基于全文分段匹配的重复页面检测算法。这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段,然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档,当它们的m个签名中有t个相同时(t是系统定义的阈值),则认为它们是互为重复内容网页。

第三种是基于模板消噪的重复内容检测算法。由于大量的近似镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化,去掉网页的模板噪音内容,进而提取出网页的正文,然后再结合其他重复内容检测算法对网页的正文进行消重。

以上三种都是基于内容的重复页面检测算法,也是搜索引擎正在使用的主流的重复内容检测算法。除此之外,搜索引擎还有其他的重复内容检测办法作为补充,如基于链接的重复页面检测算法等。

当我们知道了搜索引擎的重复内容检测算法之后有什么用呢?我觉得最大的作用就是我们不要再相信“原创”,“内容为王”之类的鬼话,拷贝,伪原创,只要不被搜索引擎的算法发现,在搜索引擎眼中就是很好的“原创内容”,“高质量内容”。但是如何才能做到这一点呢,明天讨论。

1. 海外社媒客户开发工具【免费】了,帮你从GG/FB/Ins/谷歌地图上免费获取客户

2. WhatsApp 聊天记录保险【99元/年】,聊天记录不怕丢。自带翻译、多开,号码抓取、群发

3. 外贸网站搭建、谷歌SEO、社媒运营、企业WhatsApp管理、外贸管理软件、AI应用,【联系我】

微信扫一扫 或 点击链接联系我

仍有疑问,点击 链接,加个 微信 好友,一起交流。

《搜索引擎重复内容检测算法》有4条评论

  1. 是算法就会考虑效率问题。搜索引擎会在一个范围内使用检测算法避免重复,而不是针对所有网页使用算法避免重复。

  2. 补充一个观点 同一个站下面的内容尽量不重复 和其它站的内容重复没有关系

  3. 同意你的观点 ,不要被伪原创这些捆住手脚.但你说的三个重复内容检测的算法都是非常粗糙,google肯定没有用。

    发现类似文章的方法有很多,而且很多效果很好,问题的关键是算法的效率。一千篇,一万篇文章,或者说上百万这个级别发现重复文章代价是很小的。但是到了几十亿的规模,即使有好的算法,也会因为计算量实在太大而放弃..

发表评论