一文读懂Google I/O 2025 开发者大会:开启 “模型即平台” 的 AI 生态新时代

Wait 5 sec.

继微软之后,谷歌也全面拥抱人工智能(AI)智能体(Agent)。在开发者大会上,谷歌宣布要让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini,并通过Gemini与搜索结合,推出全新的AI模式搜索。美东时间5月20日周二,谷歌2025年度I/O开发者大会的主题演讲展示了在AI、多模态模型、跨设备整合与开发者工具方面的最新成果。从升级后的 Gemini 2.5 Pro 模型到智能眼镜的 XR 应用,再到 AI 驱动的搜索与网页浏览体验。谷歌展现的不仅是模型的性能提升,更是AI从“信息工具”进化为“通用智能体” 的进步。Google I/O 2025 展示了 Gemini 2.5 作为跨平台 AI 引擎的全面实力。从“Stitch”到“Casey”,从语音助手到机器人生成,从 Android 到 Web 到 Cloud,每一项更新都紧扣“降低门槛、加速创造”的核心目标。核心发布包括,Gemini 2.5 与 Flash 模型、AI Studio 全新开发体验 、Android 与 Gemini Nano 深度整合 、 多模态工具 Stitches和实时部署能力。本次发布内容主要包括:1. Gemini 2.5 与 Flash 模型的集成演示Gemini 2.5 Flash 是速度极快、价格友好的 AI 模型,适合原型开发。新实验项目 Stitch:通过文本提示自动生成 App UI 设计,并即时转为代码。设计不仅是静态图,而是可以编辑的真实界面;可导出至 Figma 或 IDE 中继续开发。2. AI Studio 的重大更新AI Studio 新增原生语音模型,支持 24 种语言与主动音频识别。URL Context 功能:模型可从链接中提取上下文,支持最多 20 个链接。增强了函数调用与搜索推理功能,可与外部工具协同工作。展示了如何构建语音助手、游戏等项目,包括自动生成、调试和部署。3. Keynote Companion(虚拟主持助手)用 Gemini 构建的虚拟形象 “Casey”,可监听关键词如“Gemini”并实时更新 UI。与地图整合:通过语音指令让 Casey 展示地点、寻找 Wi-Fi 咖啡馆并提供导航。支持异步函数调用,实现更自然的多轮对话体验。实时部署:通过 Cloud Run 一键部署应用到线上,并集成至 IDE(如 VS Code)。4. Android 平台的 AI 与 UI 创新推出 Androidify 应用:通过自拍图像 + Gemini 模型描述人物特征,再生成可爱 Android 机器人形象。使用 Gemini 的多模态能力(文本 + 图像)+ Imagine 3 模型实现图像生成。云端处理适合高性能任务,设备端使用 Gemini Nano 提供 summarize、rewrite 等轻量功能。新 UI 系统 Material 3 Expressive:增强界面趣味性,例如“饼干”形状按钮。Android 16 引入“live updates”、性能优化工具 R8 与 baseline profiles、大屏设备支持(如平板、Chromebook)。谷歌最强通用AI模型Gemini 2.5 Pro刚开场,登台的Alphabet兼谷歌CEO 皮查伊(Sundar Pichai)就强调了Gemini的重要性,称“在谷歌,每天都是Gemini季”,并力推新模型Gemini 2.5 Pro ——“ 迄今为止我们最强大的通用 AI 模型”。皮查伊说,自上次I/O大会以来,谷歌已推出十多款模型和20项AI功能,谷歌的发货速度已经是史上最快:“我们希望尽快将最好的模型和产品交到大家手中,因此我们的发货速度比以往任何时候都快。”皮查伊透露,Gemini 2.5 Pro模型已在大语言模型(LLM)测评LLM Arena的所有类别排行榜上名列前茅。Gemini是热门AI代码编辑器Cursor上增长最快的模型。他介绍,一年来,谷歌系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。Gemini的App每月有4 亿多活跃用户。“智能体模式”将上线Chrome、搜索及Gemini App皮查伊宣布,谷歌将在Chrome浏览器、搜索以及Gemini的App中推出智能体模式(Agent Mode)。智能体可以与浏览器和其他软件进行交互和操作。谷歌研究的AI智能体Mariner现在可以同时管理多达10个任务,用户只需向其展示一次任务,它就会学习该任务,并将经验用于未来的案例。智能体模式的实验版即将向Gemini App的订阅者推出。皮查伊现场演示Gemini App中的智能体模式,要求它帮用户找公寓。得到指令后,Gemini搜索房产网Zillow,用电脑调整筛选条件,并使用模型上下文协议MCP预约看房。皮查伊评价:“这是一个新兴的时代。将研究成果转化为现实的最佳方式就是让它真正发挥作用。”他说,在经用户许可的情况下,Gemini 现在可以在各种App中以“私密安全”的方式使用个人信息。Gemini Live语音助手升级 Gemini 2.5 Pro 和 Flash有原生音频输出谷歌高管称,Gemini App有三大定位:Personal(个性化)、Proactive(主动)、Powerful(强大)。它可主动帮助你准备考试、整理任务、制定旅行计划,甚至提前生成解释视频。Gemini Live语音助手升级,即日起在Android 和 iOS免费开放,支持 45种以上的语言。它支持语音对话、摄像头识别与屏幕共享,能在上下班途中与用户自然聊天或帮你读懂周围环境。谷歌称,Gemini Live的“这些交互是如此自然,以至于你会忘了你在跟 AI 说话。”在智能体模式下,Gemini Live可帮用户找房、预约、订票。谷歌演示,用户只需说出需求:“我和两个室友在奥斯汀找房,每人预算 1200 美元”,Gemini 会自动比对 Zillow 房源、筛选洗衣设施、甚至安排看房时间。完全不需要切换 App,AI 就已为你搞定。Canvas功能让文档“变身”成可分享的内容。用户可以上传文档,一键生成互动网页、信息图,甚至播客内容。“Canvas 不是工具,它是共创空间。”谷歌Gemini模型的产品策略负责人Tulsee Doshi介绍,Gemini 2.5 Pro 和 Flash现在都有原生音频输出,支持两种声音。模型现在可以用更具表现力的方式交谈,甚至可以低声细语。它可以无缝切换到印地语,然后以相同的声音切换回英语。Gemini API现在就可以提供原生音频输出。Gemini的实时语音助手Gemini Live现在可以区分说话者的声音和背景音,因此可以做出更恰当的响应。Google Beam利用AI模型实时拼接视图创造3D人物谷歌发布名为Google Beam 的新产品。它是一个AI驱动的视频通信平台,让人们的视频感觉如同面对面聊天。它是谷歌3D视频会议系统项目Starline 技术的升级版。谷歌与惠普合作,将Google Beam 系统商业化,今年晚些时候,惠普将推出首批Google Beam设备。Google Beam 采用六个摄像头阵列,从不同角度捕捉拍摄对象、比如人物。AI视频模型将实时拼接这些视图,渲染成类似 3D 的画面,从而创建3D 人物。谷歌表示,该系统拥有近乎完美的头部追踪技术,精度可达毫米级,以视频帧率每秒60 帧(fps)的实时渲染速度呈现。Gemini 2.5 Pro实时翻译 Google Meet实时语音翻译周二上线谷歌高层介绍,Gemini 2.5 Pro 很快就能实现实时翻译。Gemini模型产品团队负责人Tulsee Doshi现场进行了实时翻译的演示,让AI语音先用英语说话,在说到一半时切换到印地语。Doshi 还表示,Gemini 2.5 Pro 更加安全,具有针对提示注入这种网络共计的保护措施。提示注入是指,利用恶意或非预期提示词诱骗 AI执行不应执行的操作。谷歌的在线视频会议服务Google Meet本周二推出实时语音翻译功能,目前支持英语到西班牙语的互译,更多语言将在未来几周内推出。该服务功能首先面向订阅用户,今年晚些时候扩大到企业用户。更快更轻便Gemini 2.5 Flash 6月初面世 Gemin 2.5 Deep Think有限开放Gemini 2.5 Flash是一个高效轻量版本的模型,速度比 Pro 快、成本更低,适合常规任务。它支持 “思考预算”(Thinking Budget)机制,让用户可以控制输出质量与响应速度。谷歌介绍,谷歌的推理模型Gemini 2.5 Flash效率更高。在实现相同性能的情况下,它使用的token更少,这样一来,效率就提升了22%。如果用户使用 Gemini 2.5 Flash 进行构建,使用的token会更少的。谷歌DeepMind的CEO Demis Hassabis表示,Gemini 2.5 Pro将覆盖教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 将于6月投面世。Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,该模型在多项基准测试中均处于领先地位,初期仅向受信任的测试人员开放。谷歌编码智能体Jules开启公测 Gemini Diffusion用于实验性研究Gemini 现在包括模型“原始想法”的“思想摘要”(thought summaries)。Gemini 2.5 Pro 现在有“思考预算”,它存在于 Flash模型中,可以供开发人员控制模型使用多少个token来控制成本和延迟。上周OpenAI推出了自家的最强写代码智能体Codex,本周二谷歌介绍了自研的编码智能体App Jules。异步编码代理 Jules 现已开启公测,任何人都可以注册。Gemini 2.5 Pro 可以将用户绘制的草图和 3D 动画编码到现有的App中,同时更新文件以便使用 AI Studio 生成动画。谷歌即将推出一种新的研究模型Gemini Diffusion。这个新模型在回答问题时更加高效、快速。该模型正在面向一小部分人测试。它是谷歌首次将扩散模型用于文本生成的实验性研究,速度提升 5 倍,可编辑生成文本、代码与数学逻辑。Gemini Live如何帮用户修自行车 Aira实时视觉描述谷歌演示了一段概念视频,展示多模态虚拟助手项目Astra加持的Gemini Live功能。它可以帮助用户进行研究,比如弄清楚如何修理自行车。Gemini 会进行研究并提供指导,首先找到 PDF 说明书,然后找到 YouTube 视频,最后搜索自行车店的邮件。用户可以根据需要给自行车店打电话订购零件,并查看使用手册。这基本上就是一个多任务处理的过程。谷歌还演示了一个名为Aira的项目。它通过智能眼镜为盲人和视力低的用户提供实时视觉描述服务。视频显示,当用户准备在俱乐部现场演奏音乐时,用户用手机的摄像头环顾房间,通过在手机上运行的Aira服务,手机可以实时描述房间内的事物。DeepMind的CEO Hassabis说:“我们正在打造更加个性化、更有主动性和更强大的AI。” 所有这一切将迎来“一个充满发现和奇迹的新黄金时代”。谷歌搜索添加AI模式标签页 支持长达数百字提问 周二在美上线皮查伊称AI概览(AI Overviews)是谷歌最成功的产品之一,每月有15 亿用户在搜索中使用AI概览,它推动某些类型的查询增长了10%。这意味着,谷歌提供生成式AI服务的用户规模超过其他公司。Gemini模型将与谷歌搜索集合。它将通过AI模式(AI Mode)增强智能,成为一种强大的新型AI搜索功能,可帮助解答问题。它是搜索中的新标签页,也将包含在AI 概览中。作为全新的搜索功能,AI模式让用户可以提出更长、更复杂的查询。它支持长达数百字的提问、自动分解查询意图、并生成结构化答案。该模式本周二就上线,作为搜索的新标签页形势,向所有美国的用户推出。新版本中,用户可以:1) 直接通过自然语言发问,系统会提供摘要式、结构化回答。2) 与搜索结果进行多轮对话,进一步深入了解相关内容。3) 获取图文并茂的“智能回答卡片”,例如自动整理出旅游行程、购物建议、编程指南等。皮查伊称:“我们正在重新定义搜索的未来。不是找到链接,而是直接给出答案。”谷歌搜索负责人Liz Reid介绍,AI模式会得到名为Deep Research的模型加持,谷歌称之为“深度搜索”(DeepSearch)。该模型将通过逻辑搜索结果和高度相关的内容,更好地整理研究主题。AI模式的搜索“就像你身边有一位博学助理。” 它还会结合地图、评论、视频等生成图表和推荐内容。Reid说,AI 模式将拥有谷歌所有最优秀的 AI 特性和功能。“随着时间的推移,我们将逐步将 AI 模式的许多尖端特性和功能融入核心搜索体验。” 她还说,AI 模式现在就将支持AI概览。多模态 AI 创作突破:图像、视频模型和创作平台、音频模型谷歌推出新一代图像模型Imagine 4 ,让图像质量大幅提升,更强细节捕捉、构图理解,首次支持精确文本生成。该模型加入“快速变体”:比前代快10倍,适合创意探索。新版本的Imagine模型更强细节捕捉与构图理解,可识别中文、英文等复杂字体,实时生成图像、海报甚至插画。谷歌介绍Veo 3 视频模型。它是谷歌最强视频生成模型,支持角色一致性、镜头控制和原生语音生成,能自动合成环境音、对白、背景音乐。甚至连角色间的对话语音都能生成,画面还能和角色的口型同步。Veo 3可控制摄像机角度、剪辑节奏,确保人物一致性、风格统一。谷歌与导演合作开发了名为Flow的创作平台,支持一键式场景、故事生成。Flow 平台支持AI 视频制作软件,支持剧本、镜头语言、画面构图等创作全过程。谷歌与 Darren Aronofsky、Eliza McNitt 等电影人合作推出短片项目。用户可上传角色、设定场景,AI 自动生成镜头组接。谷歌还推出了Lyria 音频模型和Music AI Sandbox。它支持生成专业音乐、合唱、独唱,结合 AI Sandbox 成为音乐人创作工具,能结合 Flow、Veo 可用于完整电影原声音乐生成。Android XR智能眼镜和头显Moohan谷歌展示了在扩展现实——XR生态的重要进展,其中之一是智能眼镜。它是全天候的Gemini 助理谷歌的智能眼镜内建摄像头、骨传导音响与内嵌显示,眼镜可识别物体、翻译语言、记住你喝的咖啡名字,还能用语音控制 AI 导航、订位、拍照。Gentle Monster 和 Warby Parker 将成为首批打造 Android XR 眼镜的眼镜合作伙伴。同时,谷歌的Android XR 平台与三星联合推出头显Moohan。该头显支持沉浸式地图、视频播放、交互式 Gemini AI 等。XR 版本地图可瞬间“带你”走遍世界。谷歌称,Moohan“不再是Clark Kent摘眼镜变超人,而是戴上眼镜,你就拥有 AI 超能力。”套餐Google AI Ultra月费近245美元 含多种Gemini模型、30 TB存储空间等谷歌推出全新的 AI 订阅套餐Google AI Ultra,订阅者将拥有最高使用限额,并可访问谷歌最强大的模型和高级功能。Google AI Ultra 现已在美国上市,每月价格为 249.99 美元(首次用户可享受订阅前三个月的半价优惠。谷歌称,将很快在更多国家地区推出。这一套餐包括:使用Gemini模型,计划提供 Deep Research 的最高使用限额、Veo 2 的尖端视频生成功能以及Veo 3 模型的抢先体验,未来几周还将获得增强推理模式 Deep Think 2.5 Pro 版的使用权限;Whisk,获得 Whisk Animate 的最高使用限制,它能通过 Veo 2 将您的图像转换成生动的八秒视频;NotebookLM让学习者可以用“思维导图”方式组织资料,今年晚些时候订阅用户可获得最高使用限制和增强的模型功能;融入Gemini的Gmail、Docs、Vids 等应用,从周三起,就可在Chrome 浏览器中直接访问 Gemini;YouTube Premium,无广告、离线和后台观看 YouTube 和收听 YouTube 音乐;30 TB 存储空间:为 Google 相册、云端硬盘和 Gmail 提供海量存储容量;还包括Flow平台和Mariner项目的服务。⭐星标华尔街见闻,好内容不错过⭐本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。觉得好看,请点“在看” 文章原文