一文读懂Google I/O 2025 开发者大会：开启 “模型即平台” 的 AI 生态新时代

Wait 5 sec.

继微软之后，谷歌也全面拥抱人工智能（AI）智能体（Agent）。在开发者大会上，谷歌宣布要让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini，并通过Gemini与搜索结合，推出全新的AI模式搜索。美东时间5月20日周二，谷歌2025年度I/O开发者大会的主题演讲展示了在AI、多模态模型、跨设备整合与开发者工具方面的最新成果。从升级后的 Gemini 2.5 Pro 模型到智能眼镜的 XR 应用，再到 AI 驱动的搜索与网页浏览体验。谷歌展现的不仅是模型的性能提升，更是AI从“信息工具”进化为“通用智能体” 的进步。Google I/O 2025 展示了 Gemini 2.5 作为跨平台 AI 引擎的全面实力。从“Stitch”到“Casey”，从语音助手到机器人生成，从 Android 到 Web 到 Cloud，每一项更新都紧扣“降低门槛、加速创造”的核心目标。核心发布包括，Gemini 2.5 与 Flash 模型、AI Studio 全新开发体验、Android 与 Gemini Nano 深度整合、多模态工具 Stitches和实时部署能力。本次发布内容主要包括：1. Gemini 2.5 与 Flash 模型的集成演示Gemini 2.5 Flash 是速度极快、价格友好的 AI 模型，适合原型开发。新实验项目 Stitch：通过文本提示自动生成 App UI 设计，并即时转为代码。设计不仅是静态图，而是可以编辑的真实界面；可导出至 Figma 或 IDE 中继续开发。2. AI Studio 的重大更新AI Studio 新增原生语音模型，支持 24 种语言与主动音频识别。URL Context 功能：模型可从链接中提取上下文，支持最多 20 个链接。增强了函数调用与搜索推理功能，可与外部工具协同工作。展示了如何构建语音助手、游戏等项目，包括自动生成、调试和部署。3. Keynote Companion（虚拟主持助手）用 Gemini 构建的虚拟形象 “Casey”，可监听关键词如“Gemini”并实时更新 UI。与地图整合：通过语音指令让 Casey 展示地点、寻找 Wi-Fi 咖啡馆并提供导航。支持异步函数调用，实现更自然的多轮对话体验。实时部署：通过 Cloud Run 一键部署应用到线上，并集成至 IDE（如 VS Code）。4. Android 平台的 AI 与 UI 创新推出 Androidify 应用：通过自拍图像 + Gemini 模型描述人物特征，再生成可爱 Android 机器人形象。使用 Gemini 的多模态能力（文本 + 图像）+ Imagine 3 模型实现图像生成。云端处理适合高性能任务，设备端使用 Gemini Nano 提供 summarize、rewrite 等轻量功能。新 UI 系统 Material 3 Expressive：增强界面趣味性，例如“饼干”形状按钮。Android 16 引入“live updates”、性能优化工具 R8 与 baseline profiles、大屏设备支持（如平板、Chromebook）。谷歌最强通用AI模型Gemini 2.5 Pro刚开场，登台的Alphabet兼谷歌CEO 皮查伊（Sundar Pichai）就强调了Gemini的重要性，称“在谷歌，每天都是Gemini季”，并力推新模型Gemini 2.5 Pro ——“ 迄今为止我们最强大的通用 AI 模型”。皮查伊说，自上次I/O大会以来，谷歌已推出十多款模型和20项AI功能，谷歌的发货速度已经是史上最快：“我们希望尽快将最好的模型和产品交到大家手中，因此我们的发货速度比以往任何时候都快。”皮查伊透露，Gemini 2.5 Pro模型已在大语言模型（LLM）测评LLM Arena的所有类别排行榜上名列前茅。Gemini是热门AI代码编辑器Cursor上增长最快的模型。他介绍，一年来，谷歌系统每月处理的token数量激增，从去年的9.7万亿增加到现在的480万亿，增长将近50倍。Gemini的App每月有4 亿多活跃用户。“智能体模式”将上线Chrome、搜索及Gemini App皮查伊宣布，谷歌将在Chrome浏览器、搜索以及Gemini的App中推出智能体模式（Agent Mode）。智能体可以与浏览器和其他软件进行交互和操作。谷歌研究的AI智能体Mariner现在可以同时管理多达10个任务，用户只需向其展示一次任务，它就会学习该任务，并将经验用于未来的案例。智能体模式的实验版即将向Gemini App的订阅者推出。皮查伊现场演示Gemini App中的智能体模式，要求它帮用户找公寓。得到指令后，Gemini搜索房产网Zillow，用电脑调整筛选条件，并使用模型上下文协议MCP预约看房。皮查伊评价：“这是一个新兴的时代。将研究成果转化为现实的最佳方式就是让它真正发挥作用。”他说，在经用户许可的情况下，Gemini 现在可以在各种App中以“私密安全”的方式使用个人信息。Gemini Live语音助手升级 Gemini 2.5 Pro 和 Flash有原生音频输出谷歌高管称，Gemini App有三大定位：Personal（个性化）、Proactive（主动）、Powerful（强大）。它可主动帮助你准备考试、整理任务、制定旅行计划，甚至提前生成解释视频。Gemini Live语音助手升级，即日起在Android 和 iOS免费开放，支持 45种以上的语言。它支持语音对话、摄像头识别与屏幕共享，能在上下班途中与用户自然聊天或帮你读懂周围环境。谷歌称，Gemini Live的“这些交互是如此自然，以至于你会忘了你在跟 AI 说话。”在智能体模式下，Gemini Live可帮用户找房、预约、订票。谷歌演示，用户只需说出需求：“我和两个室友在奥斯汀找房，每人预算 1200 美元”，Gemini 会自动比对 Zillow 房源、筛选洗衣设施、甚至安排看房时间。完全不需要切换 App，AI 就已为你搞定。Canvas功能让文档“变身”成可分享的内容。用户可以上传文档，一键生成互动网页、信息图，甚至播客内容。“Canvas 不是工具，它是共创空间。”谷歌Gemini模型的产品策略负责人Tulsee Doshi介绍，Gemini 2.5 Pro 和 Flash现在都有原生音频输出，支持两种声音。模型现在可以用更具表现力的方式交谈，甚至可以低声细语。它可以无缝切换到印地语，然后以相同的声音切换回英语。Gemini API现在就可以提供原生音频输出。Gemini的实时语音助手Gemini Live现在可以区分说话者的声音和背景音，因此可以做出更恰当的响应。Google Beam利用AI模型实时拼接视图创造3D人物谷歌发布名为Google Beam 的新产品。它是一个AI驱动的视频通信平台，让人们的视频感觉如同面对面聊天。它是谷歌3D视频会议系统项目Starline 技术的升级版。谷歌与惠普合作，将Google Beam 系统商业化，今年晚些时候，惠普将推出首批Google Beam设备。Google Beam 采用六个摄像头阵列，从不同角度捕捉拍摄对象、比如人物。AI视频模型将实时拼接这些视图，渲染成类似 3D 的画面，从而创建3D 人物。谷歌表示，该系统拥有近乎完美的头部追踪技术，精度可达毫米级，以视频帧率每秒60 帧（fps）的实时渲染速度呈现。Gemini 2.5 Pro实时翻译 Google Meet实时语音翻译周二上线谷歌高层介绍，Gemini 2.5 Pro 很快就能实现实时翻译。Gemini模型产品团队负责人Tulsee Doshi现场进行了实时翻译的演示，让AI语音先用英语说话，在说到一半时切换到印地语。Doshi 还表示，Gemini 2.5 Pro 更加安全，具有针对提示注入这种网络共计的保护措施。提示注入是指，利用恶意或非预期提示词诱骗 AI执行不应执行的操作。谷歌的在线视频会议服务Google Meet本周二推出实时语音翻译功能，目前支持英语到西班牙语的互译，更多语言将在未来几周内推出。该服务功能首先面向订阅用户，今年晚些时候扩大到企业用户。更快更轻便Gemini 2.5 Flash 6月初面世 Gemin 2.5 Deep Think有限开放Gemini 2.5 Flash是一个高效轻量版本的模型，速度比 Pro 快、成本更低，适合常规任务。它支持 “思考预算”（Thinking Budget）机制，让用户可以控制输出质量与响应速度。谷歌介绍，谷歌的推理模型Gemini 2.5 Flash效率更高。在实现相同性能的情况下，它使用的token更少，这样一来，效率就提升了22%。如果用户使用 Gemini 2.5 Flash 进行构建，使用的token会更少的。谷歌DeepMind的CEO Demis Hassabis表示，Gemini 2.5 Pro将覆盖教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 将于6月投面世。Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示，该模型在多项基准测试中均处于领先地位，初期仅向受信任的测试人员开放。谷歌编码智能体Jules开启公测 Gemini Diffusion用于实验性研究Gemini 现在包括模型“原始想法”的“思想摘要”（thought summaries）。Gemini 2.5 Pro 现在有“思考预算”，它存在于 Flash模型中，可以供开发人员控制模型使用多少个token来控制成本和延迟。上周OpenAI推出了自家的最强写代码智能体Codex，本周二谷歌介绍了自研的编码智能体App Jules。异步编码代理 Jules 现已开启公测，任何人都可以注册。Gemini 2.5 Pro 可以将用户绘制的草图和 3D 动画编码到现有的App中，同时更新文件以便使用 AI Studio 生成动画。谷歌即将推出一种新的研究模型Gemini Diffusion。这个新模型在回答问题时更加高效、快速。该模型正在面向一小部分人测试。它是谷歌首次将扩散模型用于文本生成的实验性研究，速度提升 5 倍，可编辑生成文本、代码与数学逻辑。Gemini Live如何帮用户修自行车 Aira实时视觉描述谷歌演示了一段概念视频，展示多模态虚拟助手项目Astra加持的Gemini Live功能。它可以帮助用户进行研究，比如弄清楚如何修理自行车。Gemini 会进行研究并提供指导，首先找到 PDF 说明书，然后找到 YouTube 视频，最后搜索自行车店的邮件。用户可以根据需要给自行车店打电话订购零件，并查看使用手册。这基本上就是一个多任务处理的过程。谷歌还演示了一个名为Aira的项目。它通过智能眼镜为盲人和视力低的用户提供实时视觉描述服务。视频显示，当用户准备在俱乐部现场演奏音乐时，用户用手机的摄像头环顾房间，通过在手机上运行的Aira服务，手机可以实时描述房间内的事物。DeepMind的CEO Hassabis说：“我们正在打造更加个性化、更有主动性和更强大的AI。” 所有这一切将迎来“一个充满发现和奇迹的新黄金时代”。谷歌搜索添加AI模式标签页支持长达数百字提问周二在美上线皮查伊称AI概览（AI Overviews）是谷歌最成功的产品之一，每月有15 亿用户在搜索中使用AI概览，它推动某些类型的查询增长了10%。这意味着，谷歌提供生成式AI服务的用户规模超过其他公司。Gemini模型将与谷歌搜索集合。它将通过AI模式（AI Mode）增强智能，成为一种强大的新型AI搜索功能，可帮助解答问题。它是搜索中的新标签页，也将包含在AI 概览中。作为全新的搜索功能，AI模式让用户可以提出更长、更复杂的查询。它支持长达数百字的提问、自动分解查询意图、并生成结构化答案。该模式本周二就上线，作为搜索的新标签页形势，向所有美国的用户推出。新版本中，用户可以：1) 直接通过自然语言发问，系统会提供摘要式、结构化回答。2) 与搜索结果进行多轮对话，进一步深入了解相关内容。3) 获取图文并茂的“智能回答卡片”，例如自动整理出旅游行程、购物建议、编程指南等。皮查伊称：“我们正在重新定义搜索的未来。不是找到链接，而是直接给出答案。”谷歌搜索负责人Liz Reid介绍，AI模式会得到名为Deep Research的模型加持，谷歌称之为“深度搜索”（DeepSearch）。该模型将通过逻辑搜索结果和高度相关的内容，更好地整理研究主题。AI模式的搜索“就像你身边有一位博学助理。” 它还会结合地图、评论、视频等生成图表和推荐内容。Reid说，AI 模式将拥有谷歌所有最优秀的 AI 特性和功能。“随着时间的推移，我们将逐步将 AI 模式的许多尖端特性和功能融入核心搜索体验。” 她还说，AI 模式现在就将支持AI概览。多模态 AI 创作突破：图像、视频模型和创作平台、音频模型谷歌推出新一代图像模型Imagine 4 ，让图像质量大幅提升，更强细节捕捉、构图理解，首次支持精确文本生成。该模型加入“快速变体”：比前代快10倍，适合创意探索。新版本的Imagine模型更强细节捕捉与构图理解，可识别中文、英文等复杂字体，实时生成图像、海报甚至插画。谷歌介绍Veo 3 视频模型。它是谷歌最强视频生成模型，支持角色一致性、镜头控制和原生语音生成，能自动合成环境音、对白、背景音乐。甚至连角色间的对话语音都能生成，画面还能和角色的口型同步。Veo 3可控制摄像机角度、剪辑节奏，确保人物一致性、风格统一。谷歌与导演合作开发了名为Flow的创作平台，支持一键式场景、故事生成。Flow 平台支持AI 视频制作软件，支持剧本、镜头语言、画面构图等创作全过程。谷歌与 Darren Aronofsky、Eliza McNitt 等电影人合作推出短片项目。用户可上传角色、设定场景，AI 自动生成镜头组接。谷歌还推出了Lyria 音频模型和Music AI Sandbox。它支持生成专业音乐、合唱、独唱，结合 AI Sandbox 成为音乐人创作工具，能结合 Flow、Veo 可用于完整电影原声音乐生成。Android XR智能眼镜和头显Moohan谷歌展示了在扩展现实——XR生态的重要进展，其中之一是智能眼镜。它是全天候的Gemini 助理谷歌的智能眼镜内建摄像头、骨传导音响与内嵌显示，眼镜可识别物体、翻译语言、记住你喝的咖啡名字，还能用语音控制 AI 导航、订位、拍照。Gentle Monster 和 Warby Parker 将成为首批打造 Android XR 眼镜的眼镜合作伙伴。同时，谷歌的Android XR 平台与三星联合推出头显Moohan。该头显支持沉浸式地图、视频播放、交互式 Gemini AI 等。XR 版本地图可瞬间“带你”走遍世界。谷歌称，Moohan“不再是Clark Kent摘眼镜变超人，而是戴上眼镜，你就拥有 AI 超能力。”套餐Google AI Ultra月费近245美元含多种Gemini模型、30 TB存储空间等谷歌推出全新的 AI 订阅套餐Google AI Ultra，订阅者将拥有最高使用限额，并可访问谷歌最强大的模型和高级功能。Google AI Ultra 现已在美国上市，每月价格为 249.99 美元（首次用户可享受订阅前三个月的半价优惠。谷歌称，将很快在更多国家地区推出。这一套餐包括：使用Gemini模型，计划提供 Deep Research 的最高使用限额、Veo 2 的尖端视频生成功能以及Veo 3 模型的抢先体验，未来几周还将获得增强推理模式 Deep Think 2.5 Pro 版的使用权限；Whisk，获得 Whisk Animate 的最高使用限制，它能通过 Veo 2 将您的图像转换成生动的八秒视频；NotebookLM让学习者可以用“思维导图”方式组织资料，今年晚些时候订阅用户可获得最高使用限制和增强的模型功能；融入Gemini的Gmail、Docs、Vids 等应用，从周三起，就可在Chrome 浏览器中直接访问 Gemini；YouTube Premium，无广告、离线和后台观看 YouTube 和收听 YouTube 音乐；30 TB 存储空间：为 Google 相册、云端硬盘和 Gmail 提供海量存储容量；还包括Flow平台和Mariner项目的服务。⭐星标华尔街见闻，好内容不错过⭐本文不构成个人投资建议，不代表平台观点，市场有风险，投资需谨慎，请独立判断和决策。觉得好看，请点“在看” 文章原文