不要在聊天机器人上重复投入了编译|吴莹 曹冰颖(实习)来源|Sequoia Capital(YouTube)头图来源|视频截图“写大段提示词调用AI的方式过时了,用户需要更高效的交互方式。”谷歌实验室负责人乔希·伍德沃德(Josh Woodward,以下简称“乔希”)近日接受播客采访时说道。谷歌实验室是专门测试谷歌新项目的试验场,所以在这里乔希强调速度,以快速迭代为荣,一个创意项目从测试到“毕业”的周期一般在50~100天。他还表示,创意落地早期不要只看测试出来的各种数据,那都太小了,要观察客户的眼睛,当你展示产品时,他们是否眼前一亮?在这个阶段,艺术比科学更重要。乔希还发表了对视频生成模型发展的看法,他认为未来视频内容的消费会更个性化,因为AI能根据用户的兴趣生成他们感兴趣的内容。最后,类比苹果“iPhone时刻”,乔希认为真正能改变生活方式的AI产品将在近三年开始出现。精彩观点如下:1.普通用户需要更高效的交互方式,行业内正在探索通过拖拽PDF、图片等方式来重组内容,从而简化冗长的文本输入。2.知识的未来会呈现无限可重组性,任何输入都能被转化为任意形式的输出。3.如今,YouTube、TikTok等平台根据算法给你推送感兴趣的内容,未来AI可能会根据你的兴趣直接生成视频内容。4.创意落地早期不要只看测试出来的各种数据,那都太小了,要观察客户的眼睛,当你展示产品时,他们是否眼前一亮?5.当前是塑造下一代核心生产力工具的关键时期,我们必须想清楚创造这些工具是想取代人类,还是想增强人类的创造力。6.真正的AI产品将在近三年开始出现,那时就会看到类似Uber、Airbnb、Instacart这样真正改变生活的应用。以下是对话全文(有删减):写提示词调用AI的方式过时了主持人:你提出“通过撰写提示词调用AI的方式已过时”这一充满争议的观点,具体是什么意思?Josh Woodward:我认为这种方式已经过时了,从用户体验的角度来看,我不敢相信曾试图将大段提示词输入这些小框中来使用AI。当前存在两种趋势:开发者可能仍会编写多页提示词,但普通用户需要更高效的交互方式,行业内正在探索通过拖拽PDF、图片等方式来重组内容,从而简化冗长的文本输入。不过大模型需要上下文,所以上下文理解这种方式不会消失,但信息传递方式正在发生剧变。主持人:谷歌实验室的使命和运作模式是什么?Josh Woodward:谷歌实验室是一个汇聚创新者的平台,专注于打造从0到1的新型人工智能产品,涵盖消费产品、B2B(企业与企业之间开展交易活动的商业模式)产品和开发者工具。里面不仅有谷歌的资深员工,还有科学家、创业者等多元背景的人才。团队聚焦某个领域的未来发展,如创造力、软件开发、娱乐产业等,并以小团队的形式运作,快速构建、迭代并发布产品。它有点脱离了传统的谷歌大型产品领域,不过仍可以与Chrome或谷歌其他部门合作,去探索、实验和尝试颠覆。主持人:如何营造谷歌实验室内部的团队文化?Josh Woodward:我们以快速迭代为荣,从一个创意最终落地到用户手中通常只需要50~100天。在人工智能日新月异的发展现状下,速度至关重要。另外还有一点是我们经常从小事做起。在谷歌这样的环境中,一些产品可能有数十亿人在使用,但人们会忘记这些事情都是从解决用户的某一个痛点开始的。当我们开始一个新项目时,如果每周有10000名活跃用户,我们就已经非常兴奋了,这在其他部门可能不值一提,但对我们的初创项目来说意义重大。此外,我们还保持与外部初创公司的合作,同时注重谷歌内部DeepMind的发展,因此对研究前沿的现状以及未来的发展方向有一定了解。我们寻找富有创造力的人,但必须以平常心对待失败。我们欢迎兼具模型专业知识和用户洞察力的“独角兽”型人才,一般我们会通过独特的评估体系来挖掘这类潜力股,比如查看GitHub历史记录等。主持人:如何决定下一步开发哪些项目?是自下而上还是自上而下的决策机制?Josh Woodward:我们采用混合模式。在战略层面,我们关注谷歌的使命以及对谷歌具有战略意义的领域。因为我们身处其中,所以会从更广的角度思考,例如,软件开发的未来会是什么样子?谷歌有成千上万的开发人员,显然人工智能将在这个领域发挥巨大作用。我们会考虑是否可以为其他谷歌员工构建一些东西,但同时也会考虑为外部的用户构建什么,所以这方面我们采取自上而下的视角。而在具体执行时,我们让4~5人的小团队自主挖掘用户问题,从自下而上的视角去发现细节,解决具体问题。虽然这在其他团队看来可能有点混乱,但对我们很有效,我们正在努力生存到下一个10000+用户的里程碑产品出世。还有很多东西即将问世,我个人对谷歌的图像生成模型和视频生成模型也很感兴趣。AI生成视频已经成为现实,不过视频生成模型运行成本很高,比如Veo需要数百台计算机支持运算。语言大模型如Gemini、ChatGPT,去年一年时间成本下降了约97%,假设AI模型的成本曲线是这样,那么视频和图像生成模型的成本在不久的将来一定也可以快速下降。AI生成视频发展到什么阶段了主持人:如何看待人工智能视频生成的现状?Josh Woodward:跳跃场景、跳跃剪辑等问题已经得到解决,模型对物理世界的认知已经取得了很大的进步,但效率和服务成本仍是挑战,应用层面还有很多可研究的东西。这是另一个巨大的机会,类似其他人工智能模式,真正的价值在应用层面上。主持人:人工智能视频生成何时才能带来经济效益?目前它的成本是远高于带来的收益的。Josh Woodward:这很难预测,我不太能确定何时能带来经济效益。但我想说,除了产品和应用层面,我们可能还需要在商业模式方面进行创新。我们的第一个想法是先订阅然后按使用量收费,第二个想法是按输出付费。对于电影和视频来说,这有点像制片人做项目时的想法。如果把它想象成个人创作,这更像是一种拍卖模式的模型。所以还有很多值得探索的地方,我们可能知道事情进展的速度,它可能会在某个季度实现突破,而不是在很多年后。主持人:人工智能发展速度是否在加快?Josh Woodward:我一直认为它会慢下来,但实际上过去三年的进展飞速。预训练可能会停滞不前,但推理计算打开了全新的局面。我们团队里有一位作家,他提出了“相邻团队”的概念,比如你走进一个房间,看到所有的门通向这些相邻的团队。所以在我们内部,AI还有很多值得探索的项目。主持人:视频消费的未来会是怎样的?Josh Woodward:我认为娱乐的未来更具可控性。想象一下你坐在沙发上,也许会浏览一些东西,或者将其投屏到电视上,这都会变得更加可控。另外就是视频消费未来会更个性化。如今,YouTube、TikTok等平台根据算法给你推送感兴趣的内容,未来AI可能会根据你的兴趣直接生成视频内容。很多东西都会在运行中产生。还有一种理论:10~15年前崛起的创作者推动了YouTube等平台的发展,未来可能会发生转变,或许将由另一批我们称之为“策展人”的群体主导,他们负责策划内容,使用模型进行创作。在某种程度上,所需的成本、时间和技能可能简化到只需点击按钮或简单描述,就能生成不同版本的内容。很多时候,90%的人只是在平台上进行消费,创作者非常少,未来这种现象会改变,消费者可以从一个完全不同的角度来使用这些内容平台。例如,未来的用户界面可能会出现“加入”按钮。就像现在的界面有播放、暂停、保存、收藏等功能,未来可能会有新的交互方式。我们目前正在NotebookLM中构建类似功能,想象一下“前进播放”功能,你可以创建虚拟形象,或者进行语音克隆,所有元素将以全新的方式融合。主持人:电影和游戏之间的界线会变得模糊吗?Josh Woodward:这确实有可能。当前电影、视频内容、游戏的构建和3D技术之间正在产生有趣的交集。虽然我们尚不清楚最终走向,但各领域正在相互借鉴经验,包括一些训练技术层面的突破。主持人:现在很多公司都在构建生成式视频模型,有些直接从像素流入手,有些则采用3D技术,认为要真正做好视频必须掌握3D技术。你对此有何看法?Josh Woodward:我们目前在这两个方向都有投入。在3D方面,我们一开始有个项目,基本操作是先拍六张运动鞋的照片,然后创建3D旋转效果,将其投放到搜索界面中,效果非常好,它填充细节的方式也令人惊叹。直到后来出现了像Veo这样的产品,只需两三张照片就能生成整个产品目录。在视频方面,3D视角非常有趣。我们做过一个案例:为每个教室重现登月场景,让学生“进入登月舱”,我们还建立了一个小侧面板,学生可以在那里输入问题,大家玩得很开心。这很有趣,模型实际上会填充细节,所以你会觉得视频和游戏之间的界线有点模糊,这正是我们同时布局两个方向的原因。展示让客户眼前一亮的产品主持人:你能谈谈谷歌Mariner(智能体原型)吗?Josh Woodward:我们2024年12月推出Mariner,试图了解让这些模型控制你的电脑或浏览器会发生什么。我们用84天开发了Chrome扩展程序,让用户能直接体验。现在,Anthropic、OpenAI、谷歌和其他初创公司都在探索类似方向,即模型不仅能处理知识、信息、写作,还能滚动页面、打字、点击,甚至在后台同时处理多个任务。对于Mariner,我们短期要解决的问题是它能否在浏览器中完成任务?但更长远的目标是,当我们拥有这样的东西时,人机交互的未来会是什么样子?主持人:Mariner的理想应用场景是什么?Josh Woodward:它可能不在消费者端,而是企业端。我们在对Mariner进行用户调查研究时发现,它能够帮忙处理高重复性劳动,很多这样的活动都出现在企业方面。比如,它们可以成为销售团队的一部分,接听客户电话,他们已经做好了接下来需要做的所有事情,只是想把这些步骤推广出去,他们的用户界面很笨重,运行起来需要很长时间,我想让Mariner完成所有这些工作,这些事情很有趣。主持人:你是如何测试出这个企业层面的需求的,是用谷歌云的客户来测试的吗?Josh Woodward:这的确涉及大大小小的企业,我们有很多云客户,他们总是希望获得最新最好的产品,这些都是很好的测试对象。我们也与许多初创公司合作,我们一直在尝试从市场的不同维度学习。多年来,我在构建产品的过程中发现,大家都在谈论产品的市场契合度。因为早期产品开发阶段人们往往过度聚焦产品的迭代,而忽视了市场侧的迭代,找到正确的市场定位与打磨产品同样重要,两者必须紧密结合。在Mariner项目的早期阶段,我们面对的问题是,能否让人工智能模型驱动计算机,这是一项巨大的创新,但目前在准确性和速度方面仍有不足。我们正处于技术可行性验证阶段,接下来需要找到合适的市场。在早期,我们做了很多事情,而且速度非常快。我经常和产品经理和团队成员(包括工程师和用户体验师)说,创意落地早期不要只看测试出来的各种数据,那都太小了,要观察客户的眼睛,当你展示产品时,他们是否眼前一亮?这就是你要关注的信号,在这个阶段,艺术比科学更重要。主持人:谷歌能否利用既有用户数据打造个性化体验?Josh Woodward:我们确实在内部使用自己的数据做了一些事情。比如我个人选择开启了很多功能,让系统全盘接收数据来创造好的东西。不过你会在Gemini应用程序中看到类似的功能,用户可以链接不同服务。这其实是一个正在探索的领域——什么样的数据最有趣、最有用,同时需要建立恰当的控制机制,让用户相信我们不会把它泄露出去。目前很多实验都是用我们自己的数据来测试,在我自己的数据中,我感觉自己有第二个大脑,能更好地帮助我思考。Gemini模型特别擅长处理上下文,具备惊人的短期记忆能力,这正是我们现在重点开发的一个领域。主持人:你认为我们什么时候能使用足够精确和快速的计算机来实现以上应用场景?Josh Woodward:这是另外一个问题,不过确实现在的计算速度有点难实现。不仅是谷歌内部,其他实验室的情况也是如此。现在比较困难的领域是,计算机如何精确地定位你想要的东西。另一个需要讨论的问题是人机交互的边界问题——何时需要人类介入?我们需要设计一种合适的机制,让用户能够自主选择是否参与操作。目前的人机交互控制机制还非常粗糙,我们需要更精细的权限管理系统。这些是尚未解决的问题。再次重申那个原则,产品要依靠模型变得更聪明、更快、更便宜。目前谷歌25%的代码由AI编写主持人:为什么所有实验室的研究重点都集中在计算机的使用上?所有的技术恰好在同一时间融合了,就像大家都商量好了似的。Josh Woodward:这是个有趣的问题,我不知道其他实验室的具体情况,但我想说,当你阅读创新的历史时,你会发现重大发现同一时间出现的情况并不罕见。现在的大模型是一种新的范式,很多人都在某些方面看到了潜力,人员流动和跨实验室交流也加速了思想的碰撞。这种现象与编程领域的发展类似,现在已经有了智能体,很多事情正在酝酿中,这非常有趣但也需要保持警惕,别在这场变革中落后了。主持人:你们的目标是打造从1到100再到十亿级用户的独立产品,还是通过NotebookLM这类项目找到适合市场的产品后,将其整合到谷歌生态中?Josh Woodward:最初,我们确实遵循传统的孵化器模式,将项目培育成熟后剥离。例如,AI Studio和Gemini API现在已移交DeepMind运营。但在可预见的未来,像NotebookLM这类高度依赖人工智能的项目,我们只会把它放在实验室里。我们关注的重点是将这些技术转化为可持续发展的商业产品。大部分尝试可能会失败,但反过来思考,如果所有项目都成功“毕业”,那是不是说明我们还不够激进?如果我们最终都实现了那些天马行空的创意,这当然是好结果,反之如果在100天内没有进展的话,我们就及时止损,转而做下一件事。主持人:你预测2025年最值得关注的创新领域会是什么?Josh Woodward:智能体和AI生成视频领域已经有很大进展,我们也谈到了计算机使用的一些事情。但我觉得需要换个角度思考,我们有个叫《实验室》的文档,收集了82个关于未来的预测。其实对未来做出预测是很危险的一件事,更别说我们还预测了82个了,但我们团队的思想实验是,想象你在一个房间里,天花板突然打开,一个胶囊掉下来,我们跳进去后被带到2028年,获得五分钟观察未来的机会,记录所见后返回现在,再整理你所看到的内容,那么知识的未来是什么?我们站在较高的层次思考这个问题,这82个预测中有一个是:知识的未来会呈现无限可重组性,任何输入都能被转化为任意形式的输出。如果相信这点,我们就会下注,基于这种未来可能性构建产品。回到很多人正在关注或构建的一些产品上,我认为目前还处于视频生成和智能体发展阶段,可能还有一些未被注意到的东西。另外,我认为编程领域可能还会有重大突破。主持人:实验室团队也会做敲代码相关的工作吗?Josh Woodward:是的。目前谷歌25%的代码都由人工智能编写,这个比例增长得非常快。编程领域有两个发展方向:一是降低门槛,如何让从未写过代码的人也能参与进来,这是一个巨大的机会;二是将专业程序员的工作效率提高10倍甚至100倍。这两个方向都很有潜力。主持人:你认为目前人工智能领域被过度炒作了什么?Josh Woodward:我希望不要在聊天机器人领域重复投入了,包括谷歌在内。另外,人们盲目地将人工智能塞进各种产品,甚至连人工智能本身都被过度炒作了,我希望大家能更精确地了解人工智能的颠覆性和应用场景。我们应该关注工作流程的问题,而不仅仅是将人工智能生硬地添加到现有产品上。我们可以看到第一代人工智能出来时,各家都争先恐后地推出商业化的应用,都把它视为“iPhone时刻”。当乔布斯在2007年走上舞台时,他说这是iPhone,如果你看看三年后的App Store,一开始会发现很多无意义的应用程序,但后面就出现了改变生活的应用,这大概就是我们现在在这场人工智能革命中所处的位置,真正的AI产品将在近三年开始出现,那时就会看到类似Uber、Airbnb、Instacart这样真正改变生活的应用。主持人:人工智能的哪些领域值得关注?Josh Woodward:我们刚才提到了编程代码。我认为,如果能推出具有编写代码、自我纠错、自我修复和迁移等功能的代码模型,软件开发的速度将发生质变,这将是一个巨大的进步。尽管这个领域已经被广泛讨论,但我觉得它的潜力仍被低估了,它应该被更大力地宣传。还有一点是,我认为现阶段大家还没有真正消化无限上下文的概念,它可能会涉及一些个性化问题,还关系到类似“Mariner”这样的项目如何持续发展的问题。谷歌在这方面投入了大量资金,因为我们认为这是一个关键战略,关系到以后的工作流程问题,非常重要。还有品位与设计的价值。当人工智能生成内容成为主流时,好的品位和设计将变得尤为重要。此外,真实性与可信度也将成为核心议题,我们需要重新定义“真实”。这些内容会变得比现在更加重要。主持人:关于人工智能还有其他不同的见解吗?Josh Woodward:第一,现在是人工智能发展的黄金时代,我们正处于一个充满可能性的窗口期,存在很多机会。第二,除了关注模型竞赛和技术迭代之外,更要重视在公司中所构建的价值观,当前是塑造下一代核心生产力工具的关键时期,我们必须想清楚创造这些工具是想取代人类,还是想增强人类的创造力。比如在视频生成领域,我支持扩大人类的创造力。硅谷历史上曾多次出现影响深远的技术变革,这些变革持续影响了几代人,既可能带来福祉,也可能埋下隐患。所以那些掌握着智能技术的开发者们,应该好好利用它们,充分考虑技术带来的长期影响。新闻热线&投稿邮箱:tougao@iceo.com.cn。END 。值班编辑:郭立琦 审校:姜辰雨 制作:吴莹关注“中国企业家”视频号看更多大佬观点和幕后故事[ 推荐阅读 ] 文章原文