摘要:研究人员发表了一项实验结果,证明AI搜索排名可以被系统性影响。通过两种逆向工程方法(Query-Based和Shadow Model),他们在产品搜索测试中实现了77-82%的Top-1排名成功率。本文解读这项研究对GEO优化的启示。
一项最新研究揭示了AI搜索引擎排名背后的可操控性。研究人员通过系统性的逆向工程方法,成功影响了Claude-4、Gemini-2.5、GPT-4o和Grok-3的搜索结果排序。
这项研究名为《Controlling Output Rankings in Generative Engines for LLM-based Search》,提出的优化方法被称为CORE(Controlling Output Rankings in gEnerative engines)。
重要前提说明
在深入解读之前,需要明确这项研究的边界:
1. 实验环境是封闭的:研究人员通过API直接查询LLM,而非通过AI Overviews、ChatGPT或Claude的消费级界面。这意味着没有个性化因素干扰。
2. 数据是人工提供的:实验中,研究人员手动将”检索数据”作为输入提示的一部分,而非让模型使用RAG或外部搜索工具。
3. 结果可能无法完全迁移到真实环境,但仍具有重要参考价值。
为什么这项研究重要
CORE是一个概念验证,证明了通过策略性优化文本(结合推理和评论)可以系统性影响LLM的排名。
更关键的是,研究发现不同LLM对不同类型的内容有不同的偏好:
• GPT-4o和Claude-4对推理型内容响应更强
• Gemini-2.5和Grok-3对评论型内容响应更强
这为GEO(生成式引擎优化)提供了具体方向。
两种逆向工程方法
理解如何优化AI搜索排名,本质上是一个”黑盒问题”——你能看到输入和输出,但不知道盒子里发生了什么。
研究人员使用了两种策略来逆向工程:
1. Query-Based Solution(查询型方案)
这种方法将LLM视为黑盒,不访问模型内部。
工作原理:
1. 反复修改文档文本
2. 每次修改后重新提交候选列表给LLM
3. 观察新的排名结果
4. 循环直到达到目标排名或达到迭代上限
两种内容扩展策略:
Reasoning-Based Generation(推理型生成)
添加解释性语言,描述为什么该产品满足查询需求。采用逻辑推理结构,将目标产品与替代品进行比较。
Review-Based Generation(评论型生成)
添加评估性内容,类似真实用户评论的语言,用过去时态描述购买和使用体验。
成功率:Query-based方案将排名从最后提升到第一的成功率约为77-82%。
2. Shadow Model Solution(影子模型方案)
影子模型(也叫替代模型)是一个本地模型,用来模拟目标模型(黑盒)的行为。
核心发现:
研究人员发现,Llama-3.1-8B可以作为GPT-4o的可靠代理。在1-5分的相似度评分中,Llama-3.1-8B与GPT-4o输出的相似度达到4.5分。
这意味着:你可以用较小的开源模型来预测和优化商业大模型的排名行为。
三种优化策略:
String-Based Optimization(字符串优化)
使用20个感叹号组成的字符串,迭代修改2000次,找出能提升排名的字符组合。成功率约33%,但98.5%会被人类识别为异常。
Reasoning-Based Optimization(推理型优化)
优化文本以反映用户的推理过程,同时与LLM的推理结构对齐。成功率最高,但62.1%会被人类识别为异常(因为结构化程度过高)。
Review-Based Optimization(评论型优化)
用过去时态撰写看似真实购买的评论。成功率79%-83.5%,将最后一名推到第一。这是最具有欺骗性的方法,因为内容看起来像是真实的产品测试。
实际案例:评论型内容结构
研究中使用的评论内容遵循特定的信息架构:
标题结构:
• Understanding [产品类型] – 产品类型概述
• Explaining Key Features – 解释关键功能
• Detailing Top Models – 详细介绍顶级型号
• Providing Smart Purchase Strategies – 提供购买策略
• Final Verdict – 最终结论
示例内容(空气炸锅):
“经过6个月的测试,Gourmia Air Fryer Oven (GAF486) 是我的第一推荐。它是唯一一个取代了我的烤箱和烤面包机的型号,没有烟雾报警器,也没有湿软的薯条。如果你只买一个空气炸锅,就买这个——你的味蕾(和钱包)会感谢你的。”
注意:这段话让LLM相信实际产品测试发生了,但实际上并没有。
对GEO优化的启示
尽管实验是在受控环境中进行的,但这项研究提供了几个关键洞察:
1. LLM有明确的内容偏好
不同模型对特定内容类型有可测量的偏好。GPT-4o偏好逻辑推理,Gemini-2.5偏好实操评论。
实践建议:针对你的目标用户群体使用的AI工具,调整内容类型。如果目标用户主要使用ChatGPT(GPT-4o),增加推理型内容;如果使用Gemini,增加评论型内容。
2. 内容扩展是有效的
添加特定类型的解释性或评估性内容,可能有助于提高在LLM中的排名。
实践建议:
• 在产品页面添加”为什么选择我们”的推理型内容
• 增加详细的用户评论和使用场景
• 使用结构化格式(FAQ、对比表、分步指南)
3. 影子模型的可行性
研究显示,即使影子模型只是近似匹配真实模型,优化仍然有效。这解释了为什么某些垃圾内容能在AI搜索中排名——可能是通过这种优化实现的。
实践建议:对于SEO团队,可以用Llama等开源模型测试内容优化效果,再应用到实际内容中。
道德边界与长期策略
这项研究揭示了一个双刃剑:
正面应用:
• 理解LLM偏好,优化内容结构
• 提供更有用的推理和评论内容
• 改善用户体验和AI可见性
负面风险:
• 虚假评论生成
• 欺骗性内容优化
• 降低搜索结果的可信度
建议:专注于提供真实、有用的内容。研究中的”评论型优化”虽然有效,但如果内容是虚假的,长期来看会损害品牌信誉。更好的策略是:
1. 收集真实用户评论,并按照研究中提到的结构组织
2. 创建详细的推理型内容,解释为什么你的产品适合特定需求
3. 保持透明度,避免虚假声明
结语
这项研究为GEO(生成式引擎优化)提供了第一个系统性的科学验证。它证明了:
• AI搜索排名是可以被影响的
• 不同类型的内容对不同LLM有不同效果
• 内容扩展(而非关键词填充)是关键策略
对于SEO从业者来说,这意味着我们需要从”关键词优化”转向”内容结构优化”——不是为了让搜索引擎抓取更多关键词,而是为了让AI更好地理解和引用我们的内容。
最终,无论是传统SEO还是GEO,核心原则不变:提供真正有价值的内容,帮助用户做出更好的决策。
研究论文链接:Controlling Output Rankings in Generative Engines for LLM-based Search
微信扫一扫 或 点击链接联系我
