手机上能跑 Gemma 4 大模型已经不新鲜了(iPhone、安卓现在就能跑 Gemma 4 了),现在浏览器也可以了。@Appinn有开发者利用 Google 新提出的 TurboQuant 算法,把 Gemma 4 放进浏览器里运行。直接打开网页,就能在 Excalidraw 里用 AI 画图,而且整个过程都在本地完成,不需要调用在线模型,也不消耗任何 Token。唯一代价:需要下载 3.1GB 的 Gemma 4 E2B 大模型。另外需要桌面版 Chrome 134+ 版本。如何使用?直接打开网页用:https://teamchong.github.io/turboquant-wasm/draw.html直接输入中文用:32.9秒,就能生成一张完整的流程图,不需要自己画框、连线。跑起来怎么样?速度:每秒生成约 24 个 token端到端速度(end-to-end):每秒约 22.7 个 token(包括准备、计算等)输出长度:这次一共生成了 747 个 token总耗时:32.9 秒KV Cache:15.5MB / 37.0MB当前上下文长度:2106 pos(模型已经“记住”的 token 数量)KV Cache 从原本约 37MB,压缩到约 15MB 左右(约 2.4 倍压缩)。不过这样一个简单的例子需要 37MB 的 KV Cache,青小蛙也是第一次感受到。TurboQuant 是什么?TurboQuant 是 Google 最近推出的新算法,它可以将 KV Cache 里的向量压缩 6 倍,并可以直接搜索压缩数据,无需解压缩。这样大模型就可以记住更长的上下文,回答更长的对话,也更不容易“忘记前面说过的话”。KV Cache:大模型在对话时用来“记住前面内容”的一块临时记忆。向量:大模型理解文字的方式:我们对AI说话,会先被转换成一串数字,然后才能让大模型理解,这些数字,就是向量。意味着什么?像 Excalidraw 这样的应用,以前如果接入 AI,一般都需要调用在线大模型,按 token 付费。现在换一种方式:下载一个模型,在本地浏览器里运行不需要联网调用模型不消耗 Token,可以无限量使用就,还挺省钱的。原文:https://www.appinn.com/urboquant-wasm-draw/问题来了,类似 Excalidraw 这样轻量调用 AI 的服务,还有哪些呢?相关阅读有什么好用的免费的画流程图软件?替代 VisioiPhone、安卓现在就能跑 Gemma 4 了:Google 开源 AI Edge Gallery 应用史上最简单,在线 FFmpeg!浏览器直接用 + AI 懂人话,不用下载、不用命令行简易绘图 – 真简单、真简易的绘图、画画应用[Android]HTML Preview – 一个适用于 GitHub & BitBucket 的 .HTML 预览工具©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南 3659b075e72a5b7b1b87ea74aa7932ff 点击这里留言、和原作者一起评论[ 点击前往获取链接 ]