如何拷贝和伪原创 - 贾定强博客

昨天讨论了搜索引擎重复内容检测算法，应该对搜索引擎的重复内容检测算法有了一定的了解。那么如何利用算法的漏洞进行内容拷贝或伪原创，又不被搜索引擎发现呢？

首先来看第一个算法。我们先为搜索引擎考虑一下算法的复杂度。一个合理的算法，如果执行起来太慢的话，搜索引擎是不会采用的。第一个算法，决定复杂度的关键因素应该是网页集合P的大小。因为P中的任何两个网页都要用检验算法测试是否为镜像网页，其复杂度为N²。随着N的增加，算法的执行速度会急剧下降，所以这个P集合不会很大。也就是说采用这个算法，只能在一定范围内避免重复内容。当然，搜索引擎如何确定网页集合P的范围，我们是无法得知的。但我个人认为，最有可能的就是根据主题来确定，一个主题内的网页会尽量避免重复。知道了这一点，我们在拷贝内容或采集内容的时候，就应该去采集那些跟自己所处行业不是很相关网站，然后将title修改，使得采集的网页和原网页不在同一个网页集合P中。针对这种算法，如果修改采用替换常用词，如is换成was，in换成at是基本无效的。因为影响的W_j第二个因素告诉我们，越常见到词对W_j的影响越小。

其次来看第二个算法。同样需要考虑算法的复杂度，跟第一个算法一样。不同的是第二个算法是分段比对指纹，指纹算法的特点是只要有一个字母不一样，得到的签名指纹就会大大不同。所以，针对这个算法的伪原创，只要对每一句话都做细微的调整就可以了。

最后是第三个算法。这个算法需要和其他算法一起使用才能有效。以前有人说相同的内容的，只要换个模板，搜索引擎照样收录。这个可能确实发生过，但收录了并不等于搜索引擎把你当原创内容了。这个算法告诉我们，搜索引擎是可以判断网页中哪些是模板，哪些是内容的。有些换了模板的镜像网页被收录了，这不能说搜索引擎没有这些算法，而是这些算法收到了限制，没有发挥出应该有的效果。

综上所述，我们在进行内容拷贝或伪原创的时候，应该选择与自己行业不是很相关的网站进行采集，然后更换title和文中的关键字，让搜索引擎认为原文和你的文章不在一个主题下。再有就是对每一段的内容都进行细微的调整，使得每一段的签名都不一样。当然，这样做并不一定能骗过搜索引擎，因为上面的三个算法只是我自己知道的搜索引擎重复内容检测算法，搜索引擎必然还有其他的算法。如果你喜欢黒帽SEO，就必须不断摸索搜索引擎算法，并不断调整自己的SEO方式，必然有一定风险。任重而道远！！！

微信扫一扫或点击链接联系我