a16z最新预测:Computer Use让AI Agent像人类一样工作,18个月内效率将超越人类

Wait 5 sec.

当 AI 不再受限于单一指令,而是能像人类般操作软件、跨系统处理复杂任务,由 Computer Use 技术引发的变革正重塑数字化劳动未来。知名风投 a16z 指出,这一技术是 AI Agent 落地的关键突破,打破传统 AI 依赖 API 的局限,可实现端到端工作流自动化,更大胆预测未来 18 个月内,具备该能力的 AI Agent 效率将超人类,成为能独立处理多领域专业任务的 “数字同事”。本文将从技术本质、落地挑战、架构解析与发展预期,拆解其如何打破 AI 应用瓶颈,为创业者和管理者揭示技术革命中的机遇与应对策略。你有没有想过,AI agent可能真的要变成你的数字同事了?不是那种只能回答问题的聊天机器人,也不是局限在某个特定软件里的自动化工具,而是能够像人类员工一样,在你的电脑上打开各种软件、处理复杂任务、甚至解决突发问题的真正智能助手。最近,a16z的合伙人们发布了一篇深度分析文章,系统梳理了Computer Use(计算机使用)技术的发展现状和未来前景。他们认为,这项技术正在将AI agent从概念推向现实,让AI真正具备了处理端到端数字工作流的能力。看完他们的分析后,我陷入了深度思考。过去几年,我们见证了太多AI工具的出现,但大多数都有明显的局限性——要么只能处理特定类型的任务,要么需要人工进行大量配置和监督。而Computer Use技术的出现,可能真的代表了一个转折点。它让AI agent能够像人类一样使用电脑,点击界面、填写表单、在不同软件之间切换,这意味着AI第一次具备了处理现实世界中那些复杂、多步骤工作流程的能力。这不仅仅是技术进步,更可能是企业数字化劳动方式的根本性变革。Computer Use为什么是AI Agent的关键突破a16z的合伙人们在文章中提出了一个核心观点:Computer Use是实现真正AI agent的关键使能技术。他们认为,AI agent的有效性取决于两个要素:能够访问的工具数量,以及跨工具推理的能力。而Computer Use技术在这两个方面都带来了巨大提升,让AI agent获得了使用任何软件的广度,以及将多个操作串联成完整工作流程的智能。我深度思考后发现,这个观点揭示了过去AI应用的一个根本性限制。传统的AI工具往往依赖API接口或预定义的工作流程,这就像给AI建造了一个个孤岛,每个工具只能在自己的小圈子里发挥作用。即使是最先进的AI助手,也经常因为无法访问某个软件的API,或者某个legacy system(传统系统)没有现代化的接口,而无法完成看似简单的任务。但Computer Use改变了游戏规则。它让AI agent能够像人类用户一样与任何软件交互——通过点击按钮、填写表单、上传文件、甚至处理那些老旧的企业软件。这种能力的价值不仅在于扩大了AI可以使用的工具范围,更重要的是它消除了数字化程度不一致带来的障碍。想想看,一个销售流程可能涉及CRM系统、邮件客户端、文档处理软件、内部审批系统,甚至一些只有图形界面的老旧工具。过去,AI无法处理这样的端到端流程,因为总有某个环节缺乏API支持。我认为a16z合伙人们提到的”工具可访问性和推理能力的乘法效应”特别值得深思。当AI agent能够访问更多工具,同时变得更善于使用这些工具时,它们能够处理的工作流程的范围和复杂性会呈指数级增长。这不是简单的1+1=2的关系,而是可能出现emergent capabilities(涌现能力)的情况。比如,一个能够操作浏览器、邮件和CRM的AI agent,可能会自主探索出新的工作方法,主动收集和综合信息,甚至发现人类没有意识到的工作流程优化机会。对于创业公司来说,这种技术突破意味着巨大的机遇。a16z指出,AI领域最主要的商业机会一直是自动化工作和获取劳动力支出。Computer Use代表了迄今为止在复制人类劳动能力方面最重要的进展。过去,那些缺乏API访问或API功能受限的软件工具构成了巨大的障碍,特别是许多企业核心使用的legacy software(传统软件),如Epic、SAP和Oracle。具备推理能力和图形用户界面导航能力的Computer Use agent有效填补了这些空白,实现了端到端的工作自动化。真正的挑战:如何让AI Agent适应企业现实虽然Computer Use技术前景广阔,但a16z的分析也指出了一个关键挑战:将这些agent大规模部署到企业环境中并非易事。他们认为,正确地将Computer Use垂直化,并协助企业采用这项技术,将是创业公司的重要探索领域。这个观点让我想到了企业软件的复杂现实。仅仅依靠通用软件训练的Computer Use agent,比如ChatGPT agent或Claude,不太可能开箱即用地导航复杂的企业软件环境。企业软件往往高度专业化且不直观,不同公司通常会以不同方式使用相同软件,实施定制化的视图、工作流程和数据模型。想想人类员工在加入新公司或学习新软件时通常需要多少培训时间,就能理解这个挑战有多大。我在与各种企业打交道的过程中,深刻体会到了这种定制化的复杂程度。同样是SAP系统,不同公司的配置可能完全不同,业务流程、用户权限、界面布局都有很大差异。即使是经验丰富的顾问,也需要花时间了解每个公司的具体实施方式。对于AI agent来说,这种情况下的上下文理解变得至关重要。a16z提出了一个非常实际的问题:为Computer Use模型提供上下文是一个复杂的过程。相关的上下文可能包括书面说明、入职培训视频、浏览器操作录制,或者在某些情况下根本没有文档。如何最好地向模型提供上下文也不是简单地在prompt开头添加文本那么简单,因为需要考虑图形和时间维度。在这种情况下,retrieval和RAG(检索增强生成)的类比是什么?我认为这个问题的复杂性还在于,AI agent不应该简单地模仿现有的人类工作方式。人类的工作流程往往包含了各种妥协和权衡,有些步骤可能是历史遗留问题,有些可能是为了规避系统限制而形成的变通方法。AI agent应该在多大程度上遵循现有的工作流程,又应该在多大程度上从根本上重新发明更优化的工作方式?这是一个需要仔细平衡的问题。从商业机会角度看,我相信那些能够掌握这些上下文化策略的创业公司将在为企业提供有能力的定制化agent方面拥有明显优势。虽然最佳实践仍在发展中,但高度专注的创业公司,而非模型提供商,更有可能解决这些垂直和公司特定的挑战。这就像当年的SaaS革命一样,通用平台提供了基础能力,但真正的价值往往来自那些深度理解特定行业需求的专业化解决方案。Computer Use Agent的技术架构深度解析a16z的技术分析部分特别值得深入研究,因为它揭示了构建Computer Use agent的完整技术栈。他们指出,Computer Use agent架构仍然是一个活跃的研究领域,开发者仍在摸索如何在日益强大的模型和辅助工具之间分配责任。从技术架构图来看,整个系统被分为几个关键层次。最上层是Interaction Frameworks(交互框架),为模型提供与用户界面或DOM结构化交互的工具。中间层是Models(模型)本身,作为决策核心,解释输入并发出命令。然后是Durable Execution & Orchestration(持久执行与编排)层,确保长时间运行的多步骤Computer Use工作流程不会中断。再下面是Browser Control Layers(浏览器控制层),提供向浏览器发出命令的抽象接口。最底层是Execution Environments(执行环境),为扩展agent会话提供云和桌面基础设施。我特别关注他们对不同技术路径的分析。在模型层面,目前主要有两种方法:基于像素的模型和基于DOM/代码的LLM。基于像素的模型操作屏幕截图并生成鼠标或键盘操作,最近我们看到中国的视觉agent(如UI-TARS、Qwen-VL)在OSWorld排行榜上攀升,开源模型如OpenCUA缩小了与专有CUA的差距。而基于DOM/代码的LLM处理结构化HTML、可访问性树或程序文本,产生选择器级别的命令和推理轨迹。从实际应用角度看,我发现市场反馈显示,在许多情况下,仅基于DOM/代码的方法对大多数任务来说已经足够好了,在许多情况下比基于像素的方法具有更高的准确性和更低的延迟。这个发现很有意思,因为它暗示了技术发展的一个重要方向:有时候更复杂的技术路径并不一定带来更好的结果,关键是要找到效率和效果的最佳平衡点。在执行环境方面,我看到了一个非常活跃的生态系统正在形成。Anchor Browser、Browserbase、Steel、Hyperbrowser和Kernel部署浏览器实例集群,提供可观测性和重放功能;Scrapybara通过API提供完整的Ubuntu或Windows桌面,将GUI操作与shell命令混合;CUA风格的沙盒模拟最终用户设备,用于培训和评估。这种基础设施的多样化发展,说明了整个Computer Use生态系统的成熟度正在快速提升。我认为这个技术栈的设计哲学很值得思考。它不是简单地试图用一个巨大的模型解决所有问题,而是将不同的责任分配给不同的专业化组件。这种模块化的方法不仅提高了系统的可靠性和可维护性,也为创业公司提供了多个潜在的切入点。有些公司可以专注于改进interaction frameworks,有些可以专注于优化execution environments,还有些可以专注于开发更好的orchestration工具。当前限制与未来18个月的发展预期尽管Computer Use技术进展迅速,但a16z也坦诚地指出了当前agent的显著局限性:在能力方面仍然难以处理复杂或不熟悉的界面,在效率方面操作速度过慢且成本过高,无法有效地与人类操作员竞争。我深度思考这些限制后发现,它们实际上反映了AI从实验室走向实际应用时必然面临的现实挑战。能力限制主要体现在,当AI agent遇到从未见过的界面布局或者需要处理异常情况时,往往会变得困惑或做出错误决策。这就像一个新员工,即使接受了培训,在面对意外情况时仍然可能手足无措。效率限制则更直接地关系到商业可行性。如果一个AI agent完成一个任务需要10分钟,而人类只需要2分钟,那么除非AI agent的成本足够低,否则企业没有理由选择它。更重要的是,在很多业务场景中,速度就是价值。比如在金融交易、客户服务或者紧急响应场景中,延迟可能直接转化为经济损失或用户体验的下降。但a16z对未来6到18个月的发展预期给了我很大信心。在能力提升方面,他们认为主要涉及提高agent在新颖或复杂界面上的有效性。在应用层面,这可以通过限制agent的操作领域并在推理时提供特定任务的上下文或示例来实现。从模型开发角度,这需要扩大训练数据集和训练运行——主要通过在安全副本/沙盒中利用监督微调和来自合成交互轨迹的强化学习,并通过simulation-driven curricula(模拟驱动课程)和扩展、更具代表性的benchmarks(基准测试)来拓宽训练分布。效率提升方面的策略也很具体:压缩或蒸馏vision-language models(视觉语言模型),应用量化技术,缓存界面元素图以仅重新处理更改的区域,将键盘输入或点击等常规操作委托给更简单的基于规则的控制器,以及尽可能使用显式工具调用(如MCP server调用)。我认为这些改进策略的现实性很高,因为它们都基于当前技术发展的自然延伸,而不是需要突破性创新。特别是效率提升方面,很多策略已经在其他AI应用领域得到了验证,现在是将这些成熟技术应用到Computer Use场景中的问题。Agentic Coworkers:数字化劳动的未来形态a16z在文章的最后部分描绘了一个令人兴奋的未来愿景:真正的agentic coworkers(智能体同事)。他们认为,一旦解决了能力和效率问题,这些agent将在专业化业务功能中表现出色,甚至可能通过实施工作调优以满足特定公司的需求。这个愿景让我想起了过去几十年企业组织架构的演变。从金字塔式的层级管理,到扁平化的团队协作,再到现在的远程工作和灵活用工,技术一直在重塑着我们的工作方式。而agentic coworkers可能代表了这种演变的下一个阶段:数字化劳动力和人类劳动力的深度融合。a16z提供的具体场景很有启发性。比如,专注于营销的agent,经过设计工具、广告平台和营销自动化软件的调优,可以自主设计和优化整个营销活动。这样的agent可能处理受众细分、创意广告生成、A/B测试、预算优化、活动监控和深度报告。我想象这种agent不只是执行预定义的任务,还能够根据实时数据调整策略,发现新的机会,甚至提出创新的营销方法。财务方面的agent同样令人期待。经过会计软件、财务管理系统、支付处理平台、电子表格应用程序和费用管理工具调优的agent,可能自主处理财务对账、欺诈检测、预算编制、发票处理和生成符合法规的财务报告等任务。这不仅会减少人为错误,还会提高财务准确性和及时性。销售agent的潜力可能是最直接的。经过CRM系统、销售情报平台、沟通和外联工具以及销售分析软件调优的agent,可以自主识别高潜力潜在客户、执行个性化外联、安排会议、分析销售通话录音以获得可操作的见解,并实时更新CRM数据,从而提升销售生产力和管道速度。我认为这些专业化agent最有价值的地方在于,它们能够将垂直专业能力与横向通用能力相结合。a16z提到,这些agent将能够访问广泛的横向能力,如网络搜索、邮件管理、通过Slack进行内部沟通、通过Google Drive处理文档,以及通过Notion进行内容组织。它们还能够处理更多定制和legacy操作,与提供有限API访问的系统集成,这正是Computer Use特别有用的地方。这种整合带来了两个关键优势。第一,agent通过更多上下文在工作中变得更有效。它们可以独立收集和综合内部和外部信息,增强任务执行。例如,起草冷邮件的销售agent可以无缝地从Google Drive中纳入最新的产品路线图。第二,这种工具的全面整合简化了部署和实施。Agent自然地融入现有的工作流程和工具集,无需专门的界面或像传统软件那样的独立平台,这减少了摩擦。我甚至可以想象agent群体在不久的将来协同工作,通过现有的记录系统和沟通渠道与彼此以及人类同事保持同步。这种协作可能会产生我们现在难以预见的新工作模式和效率提升。我对数字化劳动变革的深度思考读完a16z这篇深度分析后,我的思考远远超出了技术本身。Computer Use和agentic coworkers的出现,可能标志着我们正在经历人类历史上第三次重大的劳动革命。第一次是工业革命,机器取代了人类的体力劳动;第二次是信息革命,计算机辅助了人类的脑力劳动;而现在我们可能正在迎来智能革命,AI开始能够独立承担复杂的认知工作。我特别关注这种变革对企业组织结构的深远影响。传统的企业组织基于人类的认知限制和沟通成本而设计。一个人只能同时处理有限的信息和任务,所以我们需要层级管理、部门分工、会议协调等机制。但当我们有了能够24/7工作、处理大量信息、在不同系统间无缝切换的agentic coworkers时,这些组织原理可能需要根本性的重新思考。从人才策略角度看,企业可能需要从”雇佣员工”转向”编排智能体”。这不是简单的人员替换,而是重新定义工作流程、重新分配人机职责、重新设计激励机制。人类员工的价值可能更多体现在战略思考、创意创新、复杂沟通和异常处理等方面,而routine work(日常工作)越来越多地由agent承担。我也思考了这种变革的社会影响。一方面,agentic coworkers的普及可能会显著提高生产力,降低许多服务的成本,让中小企业也能享受到过去只有大企业才能负担的智能化工具。另一方面,它也可能加剧劳动市场的分化,那些能够与AI协作的人才会变得更有价值,而那些主要从事可自动化工作的人可能面临挑战。从技术发展的角度,我认为Computer Use技术的成熟还会催生一系列新的产业。就像移动互联网催生了App Store生态一样,Computer Use可能会催生一个”Agent Store”生态,专门开发、分发和维护各种专业化的agentic coworkers。我们可能会看到agent training specialists(智能体训练专家)、agent workflow designers(智能体工作流设计师)、agent performance analysts(智能体性能分析师)等新职业的出现。在数据安全和隐私方面,agentic coworkers的广泛应用也带来了新的挑战。这些agent需要访问大量企业数据和系统,如何确保它们不会泄露敏感信息、不会被恶意利用,将成为一个关键问题。企业可能需要建立全新的身份管理、访问控制和审计机制,专门针对AI agent而不仅仅是人类用户。我还注意到一个有趣的paradox(悖论):Computer Use技术让AI能够使用为人类设计的界面,但这可能只是一个过渡阶段。随着AI agent变得普遍,我们可能不再需要图形用户界面,而是转向更适合AI的API-first的系统架构。这就像早期的汽车模仿马车的设计,但最终演化出了完全不同的形态。最后,我认为Computer Use技术的发展也对教育系统提出了新的要求。我们需要培养能够与AI协作的新一代人才,他们不仅要理解技术,还要具备设计AI工作流、管理AI团队、解决AI无法处理的复杂问题的能力。这可能需要教育内容和方法的根本性变革。结语:变革已经开始Computer Use技术和agentic coworkers的发展,让我深刻感受到我们正处在一个历史转折点上。就像a16z的合伙人们所说,挑战不再是证明agent能否工作,而是塑造它们如何在真实企业环境中得到调优、上下文化和部署。我相信,那些能够掌握这种上下文化的创业公司将定义第一代agentic coworkers,并在此过程中为数字化劳动如何改变整个行业设定标准。这不仅是一次技术升级,更是一次社会和经济模式的深度重构。变革已经开始,问题不是它是否会发生,而是我们如何准备迎接它。无论是创业者、投资者,还是企业管理者,都需要认真思考Computer Use技术带来的机遇和挑战。那些能够提前布局、深度思考、积极适应的参与者,将在这场变革中获得巨大的先发优势。最终,Computer Use技术的真正价值不在于替代人类,而在于解放人类去做更有创造性、更有意义的工作。当机器能够处理那些重复性、程序化的数字劳动时,人类就能专注于策略思考、创新创造和复杂问题的解决。这可能是我们向着更智能、更高效、也更人性化的工作未来迈出的关键一步。本文由人人都是产品经理作者【深思圈】,微信公众号:【深思圈】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。题图由作者提供