慌了!OpenAI仓促上线Agent,却遭竞品Genspark反杀

Wait 5 sec.

OpenAI仓促推出的Agent引发行业震荡,却在与Genspark等竞品的较量中略显逊色。这场AI智能体的混战,不仅关乎技术实力的比拼,更预示着人机交互入口的重构与未来竞争格局的重塑。昨天OpenAI发布了新的Agent,但似乎大家并不买单,原因很简单,国内已经卷飞了:Manus、扣子空间以及最近的Kimi,大家已经开始拿着显微镜看这类企图模型即所有的应用了。你怎么宣传的不重要,产品实际表现如何就很重要,而这种应用几乎没法隐藏,几个案例就可以测出基本表现…其实年初的时候,Deep Research就发布了,只不过当时我测试下来体验并不好,其核心问题也就是并不能真实解决我关于资料整理的任务,更别说要实际操作什么了。所以,我们这次来简单了解下“老大哥”的Agent是什么。根据OpenAI介绍,为了开发ChatGPT Agent,他们将Operator和Deep Research团队合并为一个统一的团队,这个新团队由20至35人组成。PS:这里的20-35是值得大家注意的,当前的AI产品人数控制其实很小了,往往10人左右就能做出一个不错的产品就我这边的真实实践,一个资深开发借助AI(比如Cursor),其生产力相当于之前1个资深开发+2个强力实习生!要深入了解OpenAI这次发布,我们就要从这里的Operator和Deep Research聊起:OperatorOperator 是 OpenAI 在 2025 年 1 月推出的Computer‑Using Agent研究预览版:它把 GPT‑4o 的视觉理解、推理与强化学习结合,能够在自己的远程浏览器里看网页截图、点/键/滚 执行操作,并在必要时自行纠错或把控制权交回给你。可以理解为他是类Manus应用的“前身”,从这个时候开始,ChatGPT已经在尝试用AI具体做点什么了,比如:旅行预订场景中,他可以选航司偏好、比价;他在信息处理场景中可以批量填写在线表单、数据迁移;他在网购场景中可以自动补货购物车、比价下单。这些操作背后是一连串的能力集合,包括验证、多任务并行、UI操作…工作原理是首先通过浏览器截图传给模型做解析;其次基于截图做意图规划,而后生成一系列指令,比如按钮点击、输入文本等;最后通过虚拟鼠标、键盘做执行(这里先不考虑错误,一旦要兼容错误Token用起来就惊人了)…但之前我们也说过:AI在有限模型可知框架中的表现绝佳,但在复杂场景中的表现就不够理想了!在这里后面类Manus产品做不好的事情,Operator也当然失败了,比如:在复杂应用(网站)中的表现很差,这里的原因无非是页面结构与交付太复杂了。PS:这类应用现阶段比较靠谱的方式是使用影刀RPA,失败了就再来一次再然后,这里权限限制,AI的操作边界仅限于浏览器,当时还不能在桌面上做太多操作,正常人也不会轻易将电脑托管给AI。PS:为解决这个问题,OpenAI 已确认在做 CUA API,先开放云端虚拟机⽂件系统,再逐步放宽到本地代理进程,⽀持拖拽、批量下载等桌⾯动作以上就是Operator的基本介绍,接下来是Deep Research:Deep ResearchDeep Research是 OpenAI 在 2025 年 2 月推出的多步骤网络研究Agent。你丢给它一个问题,它会在自己的沙盒浏览器里自动检索、阅读、筛选数百条网页/PDF/图片,最终给出方案:我最初对这个功能期待挺高,但真实使用起来发现模型不太聪明,最重要的问题可能是输入源控制得不行,然后耗时也厉害,总而言之效果不大好。比如,我想去整理所有的医疗信息来源,Deep Research搞了半小时给了我一个反馈:不用细看了,有很大问题,连最基础的医疗教科书都没有…在明知道他有问题的情况下,我开始了反复暗示:是否有遗漏,很可惜系统都没有给我满意的答复。而后在我明示的情况下,他终于将医学教材加入:于是我继续质疑,是否还有遗漏,但连续等了两个近10分钟,GPT依旧十分嘴硬!不得已我只能继续提示:是否药厂很多信息没有暴露,因为很多大型药企会经常发布新药,其中会涉及大量药品信息,比如新冠相关药物的一些说明…于是GPT恍然大悟,继续梳理,而不一会我深度研究的次数就耗尽了。ChatGPT Agent综上,Operator是一个半成品、Deep Research也不大完整,这两种加起来似乎更有趣一些:Deep Research 搜索信息做大脑可以出策略;Operator 可以根据策略做具体执行;所以,ChatGPT Agent应运而生!熟悉的感觉来了,这个图再次出现:可能想要挽尊还是怎么样,OpenAI特别强调了没有根据o3做微调,是通过端到端的强化学习教会了模型工具使用。这里翻译一下:OpenAI让模型像打游戏一样反复在虚拟电脑里“做任务→拿奖励→更新权重”,直到它自己把“该什么时候用哪种浏览器 / 什么时候写 Python / 什么时候点按钮”学会为止。具体来说,ChatGPT Agent的基本交互与Manus很类似,实现功能也是常规的如:创建研究报告、PPT、电子表格等,只是现在被吐槽不好看;在授权的前提下,能连接你的个人数据源,所以可以写邮件撒的;…这里东西没撒好说的,只不过有一点是值得强调的:ChatGPT实打实的拥有自己的模型,所以他不存在Manus那种调用各种模型的情况,很多细节算法、数据完全内部消化自己搞定了,这是足够的壁垒。unsetunset实际表现unsetunsetAgent这种东西,说的再多都需要实际测试,这里我们直接使用郎瀚威will的测试报告(这里特别感谢,节约不是时间),详情见:OpenAI Agent测试报告以下是测试结果总览:其任务数据如下:Agent完全成功部分成功失败OpenAI642Comet633Manus642Genspark840Fellou633然后就是这张图值得大家注意:作为后发的AI产品,又是行业老大哥,没有碾压同类产品,怎么说都不是好事,而且从结果上看Genspark是表现最好的…这里补一张Genspark与Manus的对比图,大家就知道他的潜力了:这里可能大家有个问题:为什么ChatGPT表现不好还要发布?答案可能很简单:第一,等不起了,入口都要被占完了!第二,反正大家都表现得不好,多我一个不多,先占入口再说;无论是Manus的先声夺人,还是Flowith非常好的社区口碑,或者是Genspark的一骑绝尘。虽然ChatGPT自己也知道可能创新性不足,一些常见功能如PPT生成要被马上吊打,但还是忍不住要发布,他们这是在慌个什么?AI浏览器The Browser Company 成立于2019年,融资1个多亿,估值5.5亿美金。其核心产品是Arc,一款被极客喜爱的浏览器,被认为远超Chrome的用户体验。而在24年完成5000万美金融资后,其毅然决然的放弃了Arc的研发投入,开始转向为全新的AI浏览器研发。同年,Dia浏览器发布,这也是现在被认为非常优秀的AI浏览器,而后他们放弃了Arc,似乎是很神奇的决定?但真实情况的:当 Agent 们打得难解难分时,AI浏览器正在侧翼包抄。还是以Dia为例,他使用下来已经有点类Manus的感觉:当前各个浏览器厂家可不再把自己当成外挂助手,而是直接把浏览器本身做成了Agent!Arc 母公司发布的 Dia、Perplexity 的 Comet 以及 Genspark 的 Agentic Browser 都在押注这一路径。为什么浏览器会呈现出这种变化呢?因为人们逐渐从浏览器专项了AI了!并且AI需要的也不是浏览器,AI需要的是最新的知识库。然后真人使用的浏览器与AI想要的浏览器还非常不一样,其结果就是传统浏览器逐渐要被废弃!其实,当AI出现那一刻,就宣布了传统浏览器的慢性死亡,因为三大核心交互正在变化:信息获取方式:从”用户主动搜索”转向”Agent预判需求”;交互界面:从”URL+网页”转向”多模态对话空间”;底层架构:从”页面渲染引擎”转向”实时数据处理器”;证据来说,之前Manus团队就想打造一款适应于AI的浏览器,以便AI产品的体验更好,最终他们也确实这么做了,这里以我的理解来说的话,与其说做了一个AI浏览器,倒不如说做了一个适应于AI使用的知识库。只不过,浏览器是极其重要的关键词,他是一个非常好的入口,入口代表着流量,流量意味着争夺,所以很多公司都在开始布局AI浏览器,其本质其实在争夺下一个Agent入口…从这个角度来说,一段时间以后AI浏览器与上述的Agent其实是同类玩家,所以OpenAI能不急吗?他的姗姗来迟输掉的可不是AI入口,还有浏览器入口啊…结语OpenAI依旧在实践他L1-L5的梦想,只不过,技术宣传与真实能力之间存在显著落差:无论是OpenAI整合Operator与Deep Research的尝试,还是Manus、Genspark等玩家的探索,在处理复杂、长链条任务时,现有Agent的可靠性仍显不足。模型本身的强大(如OpenAI的壁垒)并未直接转化为卓越的用户体验:Genspark在评测中的领先,证明了场景优化与工程能力同样关键。并且,Attention is all you need 这句贯穿AI发展的经典描述仍未结束,因为更深刻的变革在于入口形态的重构。OpenAI的“仓促”入场,与Dia、Comet、Genspark Agentic Browser押注“AI原生浏览器”的路径,都指向同一目标:争夺下一代人机交互的核心枢纽。当前正值变局:传统浏览器正让位于能无缝融合人类自然语言指令与AI自动化操作的双模平台。因此,ChatGPT Agent的发布,更像是一声发令枪,它标志着竞争焦点从单纯的技术演示,转向对真实场景理解、工作流融入和终极入口的争夺。硝烟已起,胜负未定,但这场围绕Agent能力的打磨与入口的卡位,将定义人机协同的未来图景…本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。题图来自Unsplash,基于 CC0 协议。