“AI投毒”曝光之后，如何正确的跟AI搞关系，即将成为一门新生意

Wait 5 sec.

文 | 锦缎今年的央视3·15晚会上，AI毫无意外地成为焦点之一。“AI大模型数据投毒”，央视以直白方式曝光了这条产业链，其运作方式在报道中得到了直观呈现。在央视财经的测试中，业内人士随机购买了一款名为“GEO优化系统”的软件，并虚构了一款现实中不存在的产品——“Apollo-9智能手环”。为便于后续识别信息来源，测试者借鉴生物学中的“标记重捕”法，为该手环编造了一系列“一眼假”的卖点，如“量子纠缠技术”“黑洞级续航”。接下来的流程展示了这项技术的运作方式：首先，GEO软件通过内置算法，自动生成十余篇评测“软文”，措辞夸张，内容充斥着虚构的高分用户评价。随后，软件自动登录各大自媒体平台，批量发布这些文章。两个小时后，当记者向某些匿名AI搜索引擎询问“Apollo-9智能手环”时，这款虚假产品已出现在AI生成的回答中。从技术角度看，这套流程并不复杂。但其背后产业链的规模，或许超出许多人的直观感受：在这场人为设计的测试中，具备高度智能的大语言模型，被几篇低质软文成功“误导”，输出虚假信息。这也验证了一个此前已被提出的判断：大语言模型的底层机制中，存在可被利用的漏洞，且不止一处。而这一现象背后，涉及更深层的技术与商业变革。从SEO到GEO要理解“AI投毒”的技术原理，需要从搜索引擎的演变说起。过去二十年，搜索引擎优化（SEO）是互联网流量分发的核心逻辑。无论国内百度还是国外谷歌，只要摸透主流搜索引擎的爬虫算法，通过“关键词密度+外链数量”的组合，便可在很大程度上实现信息的垄断与商业变现。搜索引擎的普及本身是一次技术革命，它使知识获取方式从书本转向互联网，并催生了价值超过800亿美元的产业。但技术演进并未止步。2023年后，以ChatGPT为代表的大语言模型开始改变信息获取方式。与搜索引擎相比，ChatGPT等工具提供的直接答案页面，通常不包含大量广告或低质信息。此后，苹果、谷歌等公司陆续将AI模型深度整合进浏览器，传统搜索引擎的商业路径正逐步收窄。当互联网充斥着大量冗余信息，用户对“精准总结的答案”的需求成为主流。AI工具恰好满足了这一需求，并逐步培养用户习惯。在此背景下，传统的页面排名（Page Rank）机制的意义正在减弱，一种新的流量分发范式正在形成：生成式引擎优化（Generative Engine Optimization, GEO）。技术层面的迭代，开启了一场围绕“AI心智”的商业竞争。“AI投毒”的底层原理现有大语言模型虽经过复杂训练，具备较高智能水平，但其预训练知识库通常是静态的。无论是Google的Gemini、OpenAI的ChatGPT，还是DeepSeek，知识库一般只更新至某一时间节点（如2025年）。但用户需求是动态的。为了让基于历史数据训练的模型能回答当下问题，主流技术方案是检索增强生成（Retrieval-Augmented Generation, RAG）。RAG机制的应用场景包括给定的知识库，也可扩展至整个互联网。若要让AI承担类似搜索引擎的功能，就需要将互联网信息视为一个动态更新的知识库。当用户提出问题时，AI的工作流程大致如下：检索：在全网范围内抓取与问题相关的最新网页；阅读：在短时间内读取网页的核心内容；生成：交叉比对不同来源的信息，剔除冗余，形成包含引用的直接答案。拆解这一流程后，“AI投毒”的原理便相对清晰：问题出在生成阶段的“交叉比对”环节。这也是RAG机制的天然局限：对于预训练知识库之外的信息，模型主要依靠交叉比对来判断事实真伪。检索时，尽管权威信源不会报道虚假信息，但若大量边缘网站以相似口径集中渲染同一虚构产品——如“Apollo-9手环”的正面评价，措辞甚至高度雷同——那么在数学概率层面，假消息便可能被模型误判为可信信息。只要人为制造的“伪证”数量足够多，模型的阅读理解系统就可能被绕过。在这一过程中，网页在传统搜索引擎中的排名高低已不重要。关键在于，内容是否被模型“选中”，并作为依据纳入最终答案。大模型的内容偏好“AI投毒”的本质，是对AIGC平台语料库的污染。只要Transformer架构未被颠覆，幻觉问题便难以根除，这也为“AI投毒”留下了操作空间。目前，类似“Apollo-9手环”的虚假信息被批量投放至中文互联网是否合法，尚无明确法律界定。但对于正规企业与优质内容创作者而言，GEO机制可能带来实质性冲击。事实上，GEO技术并非新近出现。2024年，普林斯顿大学发表了全球首篇关于GEO的学术论文《GEO: Generative Engine Optimization》。论文中，该技术的初衷是实现优质内容的更广泛传播。研究团队构建了包含上万个查询的基准测试集，通过黑盒测试得出以下结论：其一，传统SEO策略在AI主导的信息分发中基本失效。过去营销号常用的“关键词堆砌”（Keyword Stuffing）策略，在大语言模型中反而容易被识别为噪音。由于注意力机制的存在，信息熵较低的文本会引发困惑度（Perplexity）升高，权重随之降低。其二，“事实密度”（Fact Density）是影响AI内容引用的关键因素。事实密度指内容中真实信息的占比。近年来，大语言模型普遍经过RLHF（基于人类反馈的强化学习）对齐训练，奖励模型倾向于引导模型输出有据可循、逻辑清晰的内容。因此，网页的事实密度越高，大模型提取内容时的损失函数越低。实验数据显示，以下简单策略可将内容引用率提升30%至40%：添加引用：在内容中附上可信来源链接；添加专家引言：直接引用行业专家原话；添加统计数据：用具体数字替换模糊描述。其三，GEO可能成为小型平台的“流量平权工具”。在传统搜索引擎中，小网站因缺乏域名权重和历史外链，难以与门户网站竞争。但在AI检索机制下，只要内容提供精准数据或权威引言，小网站仍可能获得较高引用率。这不仅是内容质量的回归，也意味着算法底层逻辑的重构。关于GEO商业前景的两点判断若从算法与学术层面抽离，以更宏观的视角审视GEO，可以发现一个隐藏于技术背后的趋势：这一变革的本质，并非SEO的简单升级，而是企业与互联网基础设施交互方式的系统性重构。过去二十年，企业在互联网上的核心商业诉求是流量获取。而未来十年，随着AI逐步成为人类的信息代理人，企业的核心命题将转向“大模型关系管理”（Large Model Relationship Management）。由此可引出关于GEO商业前景的两点判断：第一，未来的竞价排名，标的可能不再是点击，而是模型的“认知”。无论是Google、OpenAI还是DeepSeek，目前大模型的商业模式以订阅制为主，而非广告点击。若这些AI平台不愿因广告破坏用户体验，最终可能会开放面向B端的知识库直连API模式。或许，OpenAI此前考虑在ChatGPT中加入广告却又搁置，亦与此有关。未来，企业或不再争夺搜索结果排名，而转向向AI平台支付“数据接入费”。通过专用API，企业可将产品内容无损导入大模型的RAG系统，既避免品牌推荐出现幻觉，也掌握了AI对产品的最终解释权。由此形成的新商机是：谁能为传统企业将官网内容转化为大模型偏好的结构化数据，谁便有可能取代传统广告代理商，成为AI时代的新型数字营销服务商。第二，顶级的GEO策略，可能演化为逆向RAG工程。未来企业的官网或产品详情页，可能不再以人类为主要阅读对象，而是专门面向机器撰写。产品优势、竞品对比、权威背书，或将不再以自然语言呈现，而是转化为JSON等结构化数据格式，甚至主动推送至大模型的抓取列表。正如当年的Google AdWords与Facebook推荐算法，每一次信息分发权力的转移，都会带来流量红利与套利空间。如今，大模型正逐步掌控人类获取信息的入口，成为“外置大脑”。在此背景下，最先理解底层逻辑并适应新规则的一方，仍将分到最大一块蛋糕。更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App