AI搜索正在吞噬自身：SEO行业是这场污染的源头

有一个关于AI搜索崩溃的预言流传已久：模型会在自己生成的合成内容上反复训练，最终退化成一台制造乱码的机器。这个过程被称为”模型崩溃”。

但真正正在发生的崩溃，走的是一条截然不同的路径——更快，更隐蔽，而且此刻就在进行中。

两种崩溃，速度完全不同

理解这个问题，需要先区分两个概念。

模型崩溃是缓慢的：它发生在训练阶段。当合成内容被纳入下一代模型的训练数据时，模型的能力就会逐渐退化。每一代模型都比上一代更依赖AI生成的内容，最终输出质量持续下滑。

检索污染是即时的：它发生在查询阶段。现代AI搜索引擎大量使用RAG（检索增强生成）技术——它们在回答问题之前，会实时从网络上抓取文档。如果这些文档包含错误信息、AI生成的幻觉或虚假内容，AI的回答就会直接继承这些问题，无需任何重新训练。

作者Pedro Dias用一句话点明了这两种崩溃之间最关键的区别：”大家一直盯着的那条管道，不是正在破裂的那条。”

所有人都在担心模型崩溃，而检索污染正在悄悄发生。

一个被AI”发明”的算法更新

让我们从一个具体的案例说起。

有用户向Perplexity询问SEO行业新闻，Perplexity自信满满地报告了一个”2025年9月’Perspective’核心算法更新”。这个更新听起来很真实——有名称，有时间，有逻辑。

唯一的问题是：它根本不存在。

当研究人员顺着引用链条追溯时，他们发现这个”更新”的来源是几篇SEO机构的博文。这些博文本身就是AI生成的，内容是这些机构的AI管道在某次Google算法滚动更新期间发布的”赢家与输家”分析。没有原始信源，没有实际数据，只是AI对另一波内容的猜测。

Perplexity引用了这些博文。然后，这个被引用的”事实”可能又会出现在其他地方，被其他AI系统引用。

这就是检索污染的工作原理：一个谎言上了网，AI就把它当成事实传播。

BBC记者的测试：24小时内，假新闻成了”真相”

更系统性的验证来自一位BBC记者。

Thomas Germain写了一篇完全虚构的博文，标题是《最擅长吃热狗的科技记者》，文章还”发明”了一个2026年南达科他国际热狗锦标赛。

这篇文章发布后，排到了Google相关搜索结果的第一位。

24小时之内，Google的AI Overviews和ChatGPT都开始引用这篇文章，并把其中的内容当作真实事件在回答中呈现。

从制造一个谎言到它被权威AI平台传播，只需要一篇博文和不到一天的时间。

学术研究已经预见了这种攻击

这种现象并非没有理论支撑。

学术界在2024年就发现了RAG系统的核心漏洞：

PoisonedRAG（Zou等人，2024年）的研究证明，只需要少量精心设计的段落，就能控制RAG系统的输出结果。攻击者不需要入侵任何系统，只需要把内容放到网上，等着被检索。

BadRAG（Xue等人，2024年）进一步揭示了语义后门攻击：攻击者可以让RAG系统在特定语义触发词出现时，输出预设的错误信息。

而现实的讽刺在于：Pedro Dias的总结一针见血——”你不需要设计对抗性段落。你只需要一篇博文。”

学术研究假设的是有意攻击。现实是，这种污染正在以无意识的方式大规模发生。

数字：准确率看起来还好，但细节触目惊心

Oumi受《纽约时报》委托开展的研究，给出了目前最重要的准确率数据：

Google AI Overviews（Gemini 2）：85%正确率
Google AI Overviews（Gemini 3）：91%正确率

看起来不错。但是——

在Gemini 3给出的正确答案中，56%是”无依据”的（ungrounded）：AI说对了，但它引用的来源并不支持它说的内容。这个比例在Gemini 2时是37%，Gemini 3不升反升。

作者用这个数据写下了本文最重要的一句话：

“超过一半的时候，当它们答对了一个问题，它们却无法指出一个真正支持这个答案的来源。”

更恐怖的是规模效应：Google每年处理五万亿次搜索。即使只有9%的错误率，每小时产生的错误答案数量也高达数千万。

SEO行业：同时是受害者，也是肇事者

这件事最讽刺的部分来了。

是谁制造了那些污染AI搜索的内容？

正是SEO行业本身。

逻辑链条是这样的：

AI Overviews的出现导致大量网站的自然搜索流量暴跌
SEO机构为了应对这一冲击，部署了AI内容管道，批量生产内容以维持流量
这些管道在Google算法更新的滚动期间，发布了大量没有可靠信源的”赢家与输家”分析文章
其他机构引用这些文章作为来源，叠加放大
AI Overviews引用了这些内容，并把它们呈现给用户
于是，这些机构反过来发布案例研究，吹嘘自己在AI Overviews中获得了”AI可见性”

这是一个完美闭环的自我强化系统：AI搜索打击了SEO行业，SEO行业制造了污染AI搜索的内容，AI搜索把这些内容再传播出去，SEO行业从中获益，循环往复。

Ahrefs的研究数据印证了这个循环：在ChatGPT引用的内容中，”best X”类型的榜单文章占了将近44%——其中包括大量品牌自我评选第一的内容。

被引用的平台，也在失去可信度

污染不只来自SEO机构。Facebook和Reddit，分别是AI Overviews第二和第四大引用来源。

两个平台的版主都报告了同一个问题：他们越来越难以分辨评论是人类写的还是机器人写的。

一个引用”真实人类对话”的平台，正在失去对真实人类存在的确认能力。AI搜索的引用层，正在从经过验证的人类作者来源上解耦。

平台卖的是”真实的人类声音”，但已经无法保证这种真实性。

Grokipedia：一个活生生的教训

2025年10月27日，Elon Musk的xAI上线了Grokipedia，一个包含885,279篇AI生成或改写文章的知识库。

问题随即暴露：

加拿大歌手Feist的词条声称她父亲在2021年5月去世——引用的是一篇2017年的Vice文章，那篇文章写于这个”死亡”发生的四年之前
诺贝尔物理学奖词条包含了关于颁奖顺序的未经引用的错误声明
部分词条直接复制了Wikipedia的内容，只在底部加了一小段免责声明

Grokipedia最具讽刺意味的结局是：到2026年2月中旬，Wikipedia已经在搜索Grokipedia本身时，排名超过了Grokipedia。一个用来替代人类知识的工具，需要依赖人类创造的知识来维持自己的可信度。

付费版可靠，但大多数人用的是免费版

这里有一个结构性的悖论：

AI系统最可靠的版本是付费的。GPT-5.4产生错误声明的概率比GPT-5.2低33%。

但是：

约94%的ChatGPT用户使用免费版
AI Overviews每月触达超过20亿用户

最可靠的产品有付费门槛，最不可靠的版本触达最广泛的受众。

这意味着什么

Wikipedia的问题——编辑战争、意识形态偏见、系统性缺口——是混乱的人类过程导致的，但这些问题至少是可追责的，有争议，有修正机制。

Grokipedia的问题来自用API调用替代人类判断，产生了没有责任机制的系统。当一个错误出现时，没有人需要负责，没有流程可以修正。

检索污染不需要等下一次训练运行。它需要的只是一个可被索引的URL，和一个愿意信任它的检索系统。

系统已经愿意相信了。污染正在查询时间发生，而不是训练时间。

对于SEO从业者、内容创作者和数字营销人员来说，这个现实提出了一个尖锐的问题：当AI系统越来越难以区分真实信息和合成内容时，你的内容策略是在解决问题，还是在加剧问题？