听力熊：让1亿10后拥有“随身智能体”丨创新场景

Wait 5 sec.

本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的“数字先行者”共同探讨、碰撞，希望这些内容能让你有所启发。如果说 90 后是第一代互联网原住民，那么，10 后则是第一代 AI 原住民。作为出生在信息高度密集、科技高度发达的时代的 10 后，澳大利亚人口学家和社会研究员 Mark McCrindle 为自生命之初就完全沉浸在数字世界中的这代人取了一个特别的名字，阿尔法世代。成立于 2021 年的听力熊团队，是一支为这第一代 AI 原住民打造独属于他们的智能化教育产品的团队。听力熊CEO袁琳告诉我们，“作为 AI 原住民，10 后这代人对智能化产品接受度高，传统复读机、听力产品已经无法满足他们的需求，为此，我们创造了 AI 听力机这一全新品类。”而就在听力熊团队成立一年后，以大模型为代表的新一代人工智能技术开始席卷全球，于是本就在人工智能领域有着超 10 年技术和产品研发经验的听力熊团队选择与阿里云和通义团队合作，在 2023 年研发出了面向青少年人群的 TeeniGPT。搭载 TeeniGPT 的听力熊 T6 AI 听力机在青少年群体中很快成了爆款产品，而听力熊的随身智能体也在 2025 年开始成为国内初代智能体中的典型代表。在今年 4 月份的 AI 势能大会上，听力熊数据显示，在通义大模型的加持下，用户 AI 使用时长提升了 40 分钟，达到 3 个多小时，token 峰值也能达到 28 亿，在智能教育硬件赛道处于领先水平。最需要大模型的 AI 原住民袁琳和她的团队可能是国内最懂青少年用户群体的团队之一，早在 2014 年，袁琳和她的团队就参与到了 AI 机器人创业项目中，并创造了十万销量的儿童 AI 机器人品牌 “布丁 Pudding”。据袁琳透露，“当时的布丁机器人即便是在两年后，用户留存率依然超过了 40%。”这样的产品研发经验让袁琳和她的团队无论是在硬件研发，还是在多模态交互、自然语言处理等核心技术上，都有了深厚的积累，也为听力熊 AI 听力机的面世奠定了扎实的基础。2021 年，袁琳和团队重聚创立听力熊，在经过一番市场调研后他们发现：听力学习是青少年教育场景的一个刚需，然而，市场上已有的复读机、听力机大都功能相对简单，无法满足当下青少年的听力学习需求。与此同时，过去十年互联网经济的快速发展唤醒了国民内容付费的意识，这同样为新一代 AI 教育产品的问世创造了良好的市场环境。更重要的是，作为当下青少年群体的主力军，10 后有着他们自己的独特之处。根据听力熊团队调研显示，10 后有两大特征：第一，很注重自我个性和自我感受，以往填鸭式被动教育模式已经无法满足他们的需求；第二，有很强的表达欲却又缺少自我表达的出口，他们从互联网和数字世界接收到了大量知识，但缺乏完整的知识体系和架构。这样出生于互联网技术高度发达、虚拟世界和真实世界界限模糊的一代人，对于能够激发想象力又具备陪伴功能的智能化产品有着天然好感，乃至强烈需求，也让他们成了第一代 AI 原住民。综合考量下，听力熊是在 2022 年推出了第一代 AI 听力机产品，当时袁琳的想法是通过“软件 + 硬件”形式，为青少年打造一款属于他们的 AI 工具和高效学习产品。恰逢其时，2022 年底，ChatGPT 发布，人工智能以一种全新的面貌走进公众视野，掀起了大模型热潮。但袁琳和团队一直在谨慎观察，直到 GPT-4 发布后才确信，无论是在宏观知识结构上，还是在交互能力上，大模型与听力熊将产生更多可能。于是，听力熊团队开始在内部调整产品策略，开始研发面向青少年领域的 TeeniGPT 大模型，并探索如何将大模型融入到新一代 AI 听力机产品中。通用人工智能只是第一步 2023 年是大模型席卷全球的一年，在中国，这一盛况被称为“百模大战”。这其中，不仅涌现出大量大模型明星创业团队，互联网巨头们更是将人工智能写入企业战略中，大模型正催生新的上层应用，也正重构生成全新的 AI 基础设施。听力熊最初是通过买卡、自建本地基础设施，并基于开源模型微调来搭建大模型，并在 2023 年 7 月正式对外发布了全球首个专为青少年打造的大模型 TeeniGPT 和首个搭载 TeeniGPT 大模型的 AI 听力机，听力熊 T6。基于 TeeniGPT，听力熊 T6 重点引入了中英文 AI 老师功能，实现了中英文双语场景下深度交互式应用，据袁琳透露，“这样的 AI 功能一经上线，听力熊 T6 用户的日均使用时长从 1 小时直接飙升到了 2 小时以上，这让我们更加坚信通过大模型重新定义青少年学习方式这条路。”然而，随着用户量和使用频率的与日俱增，基于自建基础设施的 TeeniGPT 运营成本越来越高，袁琳不得不在 2023 年年底开始考虑转向云上大模型。这时国内包括阿里在内的多家科技企业都已经推出了通用基础大模型并迭代了多代，听力熊先后与国内多个主流模型尝试进行了合作，经过全面测试，他们发现，阿里云的通义大模型无论是在大模型综合性能上，还是在交互能力上，都有着更好的表现。听力熊是在 2023 年下半年正式与阿里云和通义团队展开合作，由此也走上了轻量化硬件 + 云端大模型这条更适合团队发挥出战斗力的进阶之路。云上通用基础大模型让袁琳感触最深的是研发模式的改变，“在上一波人工智能周期中，即便拉起一支百人规模的专业技术团队，最终研发出的 AI 模型也只能处理简单的对话逻辑，连续对话轮次不超过 10 次，但现在像阿里研发的通用基础大模型的基础能力已经足够强，我们不再需要考虑模型的基础能力，可以将更多精力聚焦到青少年场景的应用层技术优化和产品研发上。”而尽管当时的通用基础大模型能力已经很强，但面向青少年群体研发的大模型依然会遇到三大难题：第一，话语体系难题。要想在青少年群体中得到广泛应用，大模型最终输出的内容必须符合青少年群体的语言习惯和话语体系，如何用趣味性、口语化的表达方式与用户进行互动，就成了一大难题。第二，内容安全难题。要为青少年群体建立起正确的人生观和价值观，大模型面向青少年群体输出的内容就需要加入正确的过滤机制。第三，语音和图像融合交互难题。2023 年前后的通用基础大模型在语音、图像融合交互能力上还不够成熟。为此，听力熊与通义技术团队就面向青少年群体的 TeeniGPT 大模型展开了深入合作，一方面听力熊将积累多年的青少年语料库提取出来与通义技术团队进行联合训练，让大模型拥有更符合青少年的话语体系，并选择基于闭源通义大模型进行定制化训练和研发，以保证模型的安全性，另一方面，基于最终训练出的TeeniGPT 大模型进入产品化阶段后，双方团队也会结合自身理解进行联合产品定义。由此，听力熊和通义共同打造了 AI 趣学，以「学科天团」 IP 体系，每个学科由不同领域的偶像 IP 担任学习导师，通过人格化设计激发学习兴趣，满足青少年“学习”的第一刚需。AI 孙悟空，就是双方基于 TeeniGPT 大模型联合研发的首个爆款。将孙悟空装进 AI 听力机里2024 年 8 月 13 日，听力熊联合阿里云研发的首个 AI 角色互动功能——AI 孙悟空正式上线。在这一应用上线后，听力熊的用户发现，AI 孙悟空不仅有孙悟空的声音，有与他们在《西游记》名著或动画片中看到类似的表达方式和语言结构，还会像朋友一样和他们进行互动对话，陪伴他们一起学习。正是在研发 AI 孙悟空的过程中，袁琳再次深刻感受到，“现在做 AI 产品与十年前已经截然不同，我们完全可以用大模型将‘有血有肉’的孙悟空还原出来，让拥有更高维度的世界观和价值观的 AI 孙悟空陪伴青少年学习成长。”这也是为什么听力熊之后的 AI 角色互动类应用，都是以四大名著中的人物形象进行的产品定义。在 AI 孙悟空构建过程中，基于阿里云 Qwen-Turbo 大模型，通义技术团队为听力熊提供了定制化模型训练服务，优化了原有的青少年语料库，构建出了 AI 孙悟空的世界观、价值观和流畅的交互能力，听力熊研发团队又基于通义实验室 Paraformer 语音识别框架和 CosyVoice 生成式语音大模型，复刻出了孙悟空的个性化声音。基于阿里云 Qwen-Turbo 定制的 TeeniGPT 大模型， AI 孙悟空在与青少年对话时会先以第一人称口吻进行自我介绍，在进入互动模式时，AI 孙悟空又会基于历史史实以及预先构建的世界观和价值观与用户进行对话，并以苏格拉底教学法引导青少年进行自我表达。这样的 AI 孙悟空在听力熊 T6 上一经上线，首日 token 调用量突破 10 亿次，青少年与 AI 孙悟空每天对话频率一度超过 90 次，成了备受青少年喜爱的爆款功能。在这之后，听力熊又陆续基于 TeeniGPT 大模型打造了林黛玉、周瑜、哪吒等爆款 AI 角色，尤其是 AI 哪吒上线首日调用量突破 28 亿次，刷新了国内 AI 交互终端单日调用量纪录，也带动了 AI 角色互动功能在青少年终端设备中风靡一时。值得注意的是，就在 AI 孙悟空爆火不久，当听力熊再次面临海量访问数据时，阿里云在 2024 年 9 月的云栖大会上官宣降价，其中，Qwen-Turbo 价格直降 85%，低至百万 tokens 0.3 元，Qwen-Plus 和 Qwen-Max 分别再降价 80% 和 50%，这样的价格调整再次缓解了听力熊团队的大模型使用成本和运营压力。尽管如此，AI 角色互动功能打造并非易事。据袁琳透露，“我们的 AI 角色互动功能爆火后，很多同类产品都尝试与知名 IP 联名、研发同类功能，但上线后普遍效果不及预期，之所以如此，是因为这一功能并不仅仅是通过联名 IP、接入大模型就能实现，背后还需要有强大的内容创新和用户洞察能力。”在产品设计理念上，听力熊也有着自己的独特之处——以青少年用户为中心，而非迎合家长的焦虑，目的在于解决青少年学习能力提升和情感陪伴需求，这让他们能够沉下心，借助大模型通过深层次的内容设计，打造更符合当下青少年用户群体的功能和产品。基于这样的产品理念，听力熊在 2024 年还将多模态大模型融入到了产品中，借助通义千问 VL 模型、通义千问 Omni，以及通义万相，听力熊 T6 从原来单一的语言交互能力，进一步拥有了“眼睛”，用户可以通过拍照触发交互，由设备代替眼睛识别物体并进行讲解。例如，对着一盏灯拍照后，AI 就会以牛顿的口吻讲解光的传播原理，袁琳告诉我们，“当我们发现青少年通过单一的语言交互与听力熊 T6 互动频次达到 90 次左右再无法突破时，视觉交互代替眼睛引导青少年用户提问的特性，让青少年与我们 AI 听力机的交互频次再次实现了翻倍。”也是在青少年与 AI 角色互动日对话频率日益飙升、AI 角色互动功能大获成功后，袁琳意识到，大模型在青少年场景的应用价值已经远超其它传统教育硬件，听力熊由此也开始向 AI 随身智能体转型。听力熊的“随身智能体”元年 2024 年 8 月，AI 角色互动功能在国内爆火后，听力熊团队在国内对 3000 位青少年用户进行了一次大规模调研，在这次调研中，他们发现：作为第一代 AI 原住民，10 后对 AI 的亲和度和需求度远超成人，他们已经不只是 AI 工具的使用者，对于虚拟伙伴，尤其是具有陪伴和激发想象力的虚拟伙伴有着强烈的需求。大模型所具备的知识深度和记忆能力能够满足 10 后的好奇心，在多模态交互能力上的突破，进一步为打造面向青少年的 AI 智能体提供了可能。于是，听力熊确立了打造面向青少年 AI 随身智能体的战略方向。听力熊基于阿里云百炼搭建交互 Agent 方案，自主扩展 50 多个交互技能，支持包括智能讲解、AI 写作、智能口语陪练、AI 识物、智能陪伴数字熊等多种 AI 场景，日均调用次数 900 万次以上。一方面，听力熊与通义团队进一步联合研发了专为青少年设计的小熊助手，通过接入第三方搜索和内容接口并与通义团队联合训练，在听力熊轻量化设备上实现了实时检索功能，用户可以通过语音或拍照触发实时检索功能，获取即时答案。另一方面，听力熊将原有 AI 听力机的使用场景从学习场景延伸到了生活场景，如加入旅行翻译、旅游攻略、记忆记录等功能，旅行前提供旅游攻略，旅行中记录分享，旅行后作为记忆体可以与用户进行互动。此外，据袁琳透露，“听力熊还在与通义团队联合研发视频生成功能，将现在需要语音或拍照主动触发的搜索功能进一步进化为用户只需通过按键或触摸设备，就可以让 AI 实时讲解当前场景并生成相应的视频内容。” 未来，听力熊将推动 AI 学习向全模态转变。通过这样的功能升级，听力熊的 AI 听力机将在 2025 年从 AI 工具进化为随身伙伴，从而满足青少年在学习和生活场景中的即时检索和陪伴需求，构建多层次图谱。2025 年是 AI 智能体元年，但对于听力熊来说，更是 AI 随身智能体的元年。也是在这一年，听力熊开启了出海计划，将借助支持多语种的通义大模型和阿里云的本地化文化适配能力，听力熊打造的 AI 随身智能体正在进入东南亚和日韩市场。袁琳告诉我们，“听力熊的目标是让 1 亿 10 后通过 AI 解码这个世界。”本文摘自《云栖战略参考》总第19期扫码查看最新杂志↓↓更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App