研究人员如何逆向工程LLM进行排名实验

研究人员如何逆向工程<a href="https://www.jiadingqiang.com/tag/llm">LLM</a>进行排名实验

摘要：研究人员发表了一项实验结果，证明AI搜索排名可以被系统性影响。通过两种逆向工程方法（Query-Based和Shadow Model），他们在产品搜索测试中实现了77-82%的Top-1排名成功率。本文解读这项研究对GEO优化的启示。

一项最新研究揭示了AI搜索引擎排名背后的可操控性。研究人员通过系统性的逆向工程方法，成功影响了Claude-4、Gemini-2.5、GPT-4o和Grok-3的搜索结果排序。

这项研究名为《Controlling Output Rankings in Generative Engines for LLM-based Search》，提出的优化方法被称为CORE（Controlling Output Rankings in gEnerative engines）。

重要前提说明

在深入解读之前，需要明确这项研究的边界：

1. 实验环境是封闭的：研究人员通过API直接查询LLM，而非通过AI Overviews、ChatGPT或Claude的消费级界面。这意味着没有个性化因素干扰。

2. 数据是人工提供的：实验中，研究人员手动将”检索数据”作为输入提示的一部分，而非让模型使用RAG或外部搜索工具。

3. 结果可能无法完全迁移到真实环境，但仍具有重要参考价值。

为什么这项研究重要

CORE是一个概念验证，证明了通过策略性优化文本（结合推理和评论）可以系统性影响LLM的排名。

更关键的是，研究发现不同LLM对不同类型的内容有不同的偏好：

• GPT-4o和Claude-4对推理型内容响应更强

• Gemini-2.5和Grok-3对评论型内容响应更强

这为GEO（生成式引擎优化）提供了具体方向。

两种逆向工程方法

理解如何优化AI搜索排名，本质上是一个”黑盒问题”——你能看到输入和输出，但不知道盒子里发生了什么。

研究人员使用了两种策略来逆向工程：

1. Query-Based Solution（查询型方案）

这种方法将LLM视为黑盒，不访问模型内部。

工作原理：

1. 反复修改文档文本

2. 每次修改后重新提交候选列表给LLM

3. 观察新的排名结果

4. 循环直到达到目标排名或达到迭代上限

两种内容扩展策略：

Reasoning-Based Generation（推理型生成）

添加解释性语言，描述为什么该产品满足查询需求。采用逻辑推理结构，将目标产品与替代品进行比较。

Review-Based Generation（评论型生成）

添加评估性内容，类似真实用户评论的语言，用过去时态描述购买和使用体验。

成功率：Query-based方案将排名从最后提升到第一的成功率约为77-82%。

2. Shadow Model Solution（影子模型方案）

影子模型（也叫替代模型）是一个本地模型，用来模拟目标模型（黑盒）的行为。

核心发现：

研究人员发现，Llama-3.1-8B可以作为GPT-4o的可靠代理。在1-5分的相似度评分中，Llama-3.1-8B与GPT-4o输出的相似度达到4.5分。

这意味着：你可以用较小的开源模型来预测和优化商业大模型的排名行为。

三种优化策略：

String-Based Optimization（字符串优化）

使用20个感叹号组成的字符串，迭代修改2000次，找出能提升排名的字符组合。成功率约33%，但98.5%会被人类识别为异常。

Reasoning-Based Optimization（推理型优化）

优化文本以反映用户的推理过程，同时与LLM的推理结构对齐。成功率最高，但62.1%会被人类识别为异常（因为结构化程度过高）。

Review-Based Optimization（评论型优化）

用过去时态撰写看似真实购买的评论。成功率79%-83.5%，将最后一名推到第一。这是最具有欺骗性的方法，因为内容看起来像是真实的产品测试。

实际案例：评论型内容结构

研究中使用的评论内容遵循特定的信息架构：

标题结构：

• Understanding [产品类型] – 产品类型概述

• Explaining Key Features – 解释关键功能

• Detailing Top Models – 详细介绍顶级型号

• Providing Smart Purchase Strategies – 提供购买策略

• Final Verdict – 最终结论

示例内容（空气炸锅）：

“经过6个月的测试，Gourmia Air Fryer Oven (GAF486) 是我的第一推荐。它是唯一一个取代了我的烤箱和烤面包机的型号，没有烟雾报警器，也没有湿软的薯条。如果你只买一个空气炸锅，就买这个——你的味蕾（和钱包）会感谢你的。”

注意：这段话让LLM相信实际产品测试发生了，但实际上并没有。

对GEO优化的启示

尽管实验是在受控环境中进行的，但这项研究提供了几个关键洞察：

1. LLM有明确的内容偏好

不同模型对特定内容类型有可测量的偏好。GPT-4o偏好逻辑推理，Gemini-2.5偏好实操评论。

实践建议：针对你的目标用户群体使用的AI工具，调整内容类型。如果目标用户主要使用ChatGPT（GPT-4o），增加推理型内容；如果使用Gemini，增加评论型内容。

2. 内容扩展是有效的

添加特定类型的解释性或评估性内容，可能有助于提高在LLM中的排名。

实践建议：

• 在产品页面添加”为什么选择我们”的推理型内容

• 增加详细的用户评论和使用场景

• 使用结构化格式（FAQ、对比表、分步指南）

3. 影子模型的可行性

研究显示，即使影子模型只是近似匹配真实模型，优化仍然有效。这解释了为什么某些垃圾内容能在AI搜索中排名——可能是通过这种优化实现的。

实践建议：对于SEO团队，可以用Llama等开源模型测试内容优化效果，再应用到实际内容中。

道德边界与长期策略

这项研究揭示了一个双刃剑：

正面应用：

• 理解LLM偏好，优化内容结构

• 提供更有用的推理和评论内容

• 改善用户体验和AI可见性

负面风险：

• 虚假评论生成

• 欺骗性内容优化

• 降低搜索结果的可信度

建议：专注于提供真实、有用的内容。研究中的”评论型优化”虽然有效，但如果内容是虚假的，长期来看会损害品牌信誉。更好的策略是：

1. 收集真实用户评论，并按照研究中提到的结构组织

2. 创建详细的推理型内容，解释为什么你的产品适合特定需求

3. 保持透明度，避免虚假声明

结语

这项研究为GEO（生成式引擎优化）提供了第一个系统性的科学验证。它证明了：

• AI搜索排名是可以被影响的

• 不同类型的内容对不同LLM有不同效果

• 内容扩展（而非关键词填充）是关键策略

对于SEO从业者来说，这意味着我们需要从”关键词优化”转向”内容结构优化”——不是为了让搜索引擎抓取更多关键词，而是为了让AI更好地理解和引用我们的内容。

最终，无论是传统SEO还是GEO，核心原则不变：提供真正有价值的内容，帮助用户做出更好的决策。

研究论文链接：Controlling Output Rankings in Generative Engines for LLM-based Search

微信扫一扫或点击链接联系我