文 | 锦缎今年的央视3·15晚会上,AI毫无意外地成为焦点之一。“AI大模型数据投毒”,央视以直白方式曝光了这条产业链,其运作方式在报道中得到了直观呈现。在央视财经的测试中,业内人士随机购买了一款名为“GEO优化系统”的软件,并虚构了一款现实中不存在的产品——“Apollo-9智能手环”。为便于后续识别信息来源,测试者借鉴生物学中的“标记重捕”法,为该手环编造了一系列“一眼假”的卖点,如“量子纠缠技术”“黑洞级续航”。接下来的流程展示了这项技术的运作方式:首先,GEO软件通过内置算法,自动生成十余篇评测“软文”,措辞夸张,内容充斥着虚构的高分用户评价。随后,软件自动登录各大自媒体平台,批量发布这些文章。两个小时后,当记者向某些匿名AI搜索引擎询问“Apollo-9智能手环”时,这款虚假产品已出现在AI生成的回答中。从技术角度看,这套流程并不复杂。但其背后产业链的规模,或许超出许多人的直观感受:在这场人为设计的测试中,具备高度智能的大语言模型,被几篇低质软文成功“误导”,输出虚假信息。这也验证了一个此前已被提出的判断:大语言模型的底层机制中,存在可被利用的漏洞,且不止一处。而这一现象背后,涉及更深层的技术与商业变革。从SEO到GEO要理解“AI投毒”的技术原理,需要从搜索引擎的演变说起。过去二十年,搜索引擎优化(SEO)是互联网流量分发的核心逻辑。无论国内百度还是国外谷歌,只要摸透主流搜索引擎的爬虫算法,通过“关键词密度+外链数量”的组合,便可在很大程度上实现信息的垄断与商业变现。搜索引擎的普及本身是一次技术革命,它使知识获取方式从书本转向互联网,并催生了价值超过800亿美元的产业。但技术演进并未止步。2023年后,以ChatGPT为代表的大语言模型开始改变信息获取方式。与搜索引擎相比,ChatGPT等工具提供的直接答案页面,通常不包含大量广告或低质信息。此后,苹果、谷歌等公司陆续将AI模型深度整合进浏览器,传统搜索引擎的商业路径正逐步收窄。当互联网充斥着大量冗余信息,用户对“精准总结的答案”的需求成为主流。AI工具恰好满足了这一需求,并逐步培养用户习惯。在此背景下,传统的页面排名(Page Rank)机制的意义正在减弱,一种新的流量分发范式正在形成:生成式引擎优化(Generative Engine Optimization, GEO)。技术层面的迭代,开启了一场围绕“AI心智”的商业竞争。“AI投毒”的底层原理现有大语言模型虽经过复杂训练,具备较高智能水平,但其预训练知识库通常是静态的。无论是Google的Gemini、OpenAI的ChatGPT,还是DeepSeek,知识库一般只更新至某一时间节点(如2025年)。但用户需求是动态的。为了让基于历史数据训练的模型能回答当下问题,主流技术方案是检索增强生成(Retrieval-Augmented Generation, RAG)。RAG机制的应用场景包括给定的知识库,也可扩展至整个互联网。若要让AI承担类似搜索引擎的功能,就需要将互联网信息视为一个动态更新的知识库。当用户提出问题时,AI的工作流程大致如下:检索:在全网范围内抓取与问题相关的最新网页;阅读:在短时间内读取网页的核心内容;生成:交叉比对不同来源的信息,剔除冗余,形成包含引用的直接答案。拆解这一流程后,“AI投毒”的原理便相对清晰:问题出在生成阶段的“交叉比对”环节。这也是RAG机制的天然局限:对于预训练知识库之外的信息,模型主要依靠交叉比对来判断事实真伪。检索时,尽管权威信源不会报道虚假信息,但若大量边缘网站以相似口径集中渲染同一虚构产品——如“Apollo-9手环”的正面评价,措辞甚至高度雷同——那么在数学概率层面,假消息便可能被模型误判为可信信息。只要人为制造的“伪证”数量足够多,模型的阅读理解系统就可能被绕过。在这一过程中,网页在传统搜索引擎中的排名高低已不重要。关键在于,内容是否被模型“选中”,并作为依据纳入最终答案。大模型的内容偏好“AI投毒”的本质,是对AIGC平台语料库的污染。只要Transformer架构未被颠覆,幻觉问题便难以根除,这也为“AI投毒”留下了操作空间。目前,类似“Apollo-9手环”的虚假信息被批量投放至中文互联网是否合法,尚无明确法律界定。但对于正规企业与优质内容创作者而言,GEO机制可能带来实质性冲击。事实上,GEO技术并非新近出现。2024年,普林斯顿大学发表了全球首篇关于GEO的学术论文《GEO: Generative Engine Optimization》。论文中,该技术的初衷是实现优质内容的更广泛传播。研究团队构建了包含上万个查询的基准测试集,通过黑盒测试得出以下结论:其一,传统SEO策略在AI主导的信息分发中基本失效。过去营销号常用的“关键词堆砌”(Keyword Stuffing)策略,在大语言模型中反而容易被识别为噪音。由于注意力机制的存在,信息熵较低的文本会引发困惑度(Perplexity)升高,权重随之降低。其二,“事实密度”(Fact Density)是影响AI内容引用的关键因素。事实密度指内容中真实信息的占比。近年来,大语言模型普遍经过RLHF(基于人类反馈的强化学习)对齐训练,奖励模型倾向于引导模型输出有据可循、逻辑清晰的内容。因此,网页的事实密度越高,大模型提取内容时的损失函数越低。实验数据显示,以下简单策略可将内容引用率提升30%至40%:添加引用:在内容中附上可信来源链接;添加专家引言:直接引用行业专家原话;添加统计数据:用具体数字替换模糊描述。其三,GEO可能成为小型平台的“流量平权工具”。在传统搜索引擎中,小网站因缺乏域名权重和历史外链,难以与门户网站竞争。但在AI检索机制下,只要内容提供精准数据或权威引言,小网站仍可能获得较高引用率。这不仅是内容质量的回归,也意味着算法底层逻辑的重构。关于GEO商业前景的两点判断若从算法与学术层面抽离,以更宏观的视角审视GEO,可以发现一个隐藏于技术背后的趋势:这一变革的本质,并非SEO的简单升级,而是企业与互联网基础设施交互方式的系统性重构。过去二十年,企业在互联网上的核心商业诉求是流量获取。而未来十年,随着AI逐步成为人类的信息代理人,企业的核心命题将转向“大模型关系管理”(Large Model Relationship Management)。由此可引出关于GEO商业前景的两点判断:第一,未来的竞价排名,标的可能不再是点击,而是模型的“认知”。无论是Google、OpenAI还是DeepSeek,目前大模型的商业模式以订阅制为主,而非广告点击。若这些AI平台不愿因广告破坏用户体验,最终可能会开放面向B端的知识库直连API模式。或许,OpenAI此前考虑在ChatGPT中加入广告却又搁置,亦与此有关。未来,企业或不再争夺搜索结果排名,而转向向AI平台支付“数据接入费”。通过专用API,企业可将产品内容无损导入大模型的RAG系统,既避免品牌推荐出现幻觉,也掌握了AI对产品的最终解释权。由此形成的新商机是:谁能为传统企业将官网内容转化为大模型偏好的结构化数据,谁便有可能取代传统广告代理商,成为AI时代的新型数字营销服务商。第二,顶级的GEO策略,可能演化为逆向RAG工程。未来企业的官网或产品详情页,可能不再以人类为主要阅读对象,而是专门面向机器撰写。产品优势、竞品对比、权威背书,或将不再以自然语言呈现,而是转化为JSON等结构化数据格式,甚至主动推送至大模型的抓取列表。正如当年的Google AdWords与Facebook推荐算法,每一次信息分发权力的转移,都会带来流量红利与套利空间。如今,大模型正逐步掌控人类获取信息的入口,成为“外置大脑”。在此背景下,最先理解底层逻辑并适应新规则的一方,仍将分到最大一块蛋糕。更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App