开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端
国产大模型,开卷视觉编程,主打一个AI看着草图就能vibe coding。
前脚千问刚发完Qwen3.5-Omni,后脚智谱就上新了多模态Coding基座模型——GLM-5V-Turbo。
给它一个链接,它能直接复刻整个网页前端,还是能理解页面结构和背后交互逻辑的内种:

或者给它一个草图、设计稿或者网站截图,它也能立刻生成完整可运行的前端工程,还准确还原版式和配色:

这波产品经理狂喜,完全可以自己零门槛做出demo,再拿去跟开发讨论。
要不Vibe Coding换个词,以后改叫Vision Coding?(doge)
GLM-5V-Turbo还让龙虾长出了眼睛,可以解读复杂图表。
配合AutoClaw已上线的“股票分析师”Skill,龙虾能直接看懂K线走势、估值区间图和券商研报图表,还能生成图文并茂的报告。
跑分上,GLM-5V-Turbo也是表现突出,在多模态Coding、Agentic任务以及纯文本Coding上都实现了对Claude Opus 4.6的超越。

在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上,GLM-5V-Turbo都相当领先。
而在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上,同样表现突出。

在纯文本Coding能力方面,GLM-5V-Turbo的表现同样保持稳定。这说明视觉能力引入后,纯文本编程与推理能力保持了同等水准。
重点是,价格也很可观。

也难怪有网友锐评:Claude Code的时代结束了。

一张草图画出前端
话不多说,上一手实测。
先来考考GLM-5V-Turbo的Vision Coding能力:给它一张草图,让它画出产品前端。

图,是真的随手画的,非常简单。不过看不懂没关系,我们再加上提示词:
根据草图设计一个音乐播放器的前端界面,左侧是音乐播放页面,右侧是好歌推荐和音乐播放列表,深色背景,古典风格。

GLM-5V-Turbo的反应很快,大概十几秒的时间,它已经给我写出了HTML和CSS代码。
在vision coding的过程中,你也可以不断与它交互,让它按你的要求修改。比如一开始它做出的效果我不太满意,又让它修改了两三次。

最后得到了这样一个前端页面:

左侧是音乐播放器,点击“播放”键会有唱片播放或停止的效果,左右也可以切歌。
右侧上方是好歌推荐,下方是播放列表,和我画的草图基本一致。
点击播放列表的每一首歌,左侧的播放页面也会相应切换,基本的交互功能已经有了,页面色调和风格也比较符合提示词要求。
美中不足的是,左下角不起眼的“顺序/随机”播放按钮,点击后不会真的按照逻辑切歌,还处于摆设的状态。
接下来如果想优化,可以进一步给模型提需求。
我们再来看看另一个case——让GLM-5V-Turbo解读论文。

这是一篇来自马萨诸塞大学的经济学实证研究论文,里面复杂的公式和图表很多。
但是GLM-5V-Turbo的优势就在于——可视化。
它直接帮我们拆解了整篇论文的结构,把核心发现、主要结论和相应图表都提炼了出来,还生成了一个图文并茂的报告。

这对于外行来说太友好了,扫一眼就能大概看懂这篇研究在做什么,每个图表对应的含义是怎样的。
转念一想,这其实也相当于另一个形式的ppt?学生党做论文pre都可以直接拿来用了。
给龙虾安上“眼睛”
智谱这次还特别拓展了龙虾的任务边界,给自家澳龙安上了“眼睛”。
在AutoClaw中选择GLM-5V-Turbo模型,你就可以让它浏览网页和文档,做报告和PPT,还可以解读复杂图表。
澳龙已经上线了“股票分析师”skill,完美适配GLM-5V-Turbo解读复杂图表的能力。
我在飞书上给它截图了一张英伟达股票图,让它帮我分析一下。

没过多久,它就给我生成了一份图文并茂的分析报告:

整体内容还是挺详细的,还给出了基本面分析和操作建议,简单作为一个参考是足够了的。
这么强,咋做到的?
据官方介绍,GLM-5V-Turbo在模型架构、训练方法、数据构造、工具链四个层面都做了升级:
第一,原生多模态融合。
GLM-5V-Turbo从预训练阶段就把文本和图像能力一起训练,后面再通过进一步优化,让两者配合更默契。
同时,他们做了一个新的视觉编码器(CogViT),在识别物体、理解细节、空间关系这些能力上都更强。
再加上一个更适合多模态推理的结构(MTP),整体推理效率也更高。
第二,30+ 任务协同强化学习。
在强化学习阶段,模型同时训练了30多个任务,覆盖STEM推理、图像定位(grounding)、视频理解、GUI操作等多个方向。
这样带来的好处是:模型不只是某一项能力强,而是感知、推理、执行整体更均衡,也更稳定,避免了只在单一领域“偏科”。
第三,专门为Agent能力设计数据。
Agent最大的难点是:数据少、而且很难验证对不对。
智谱的做法是:
- 搭了一套从“看懂元素”到“预测一连串动作”的训练体系;
- 用合成环境大规模生成可控、可验证的数据;
- 甚至在预训练阶段就提前加入Agent相关能力(比如GUI操作数据),减少模型幻觉。
另外,还用了类似“以评估反推能力”的方法,用多模态任务去倒逼模型变得更像一个能干活的Agent。
第四,把工具链从“纯文本”升级到“能看能操作”。
除了原有的文本工具,GLM-5V-Turbo新增支持多模态搜索、画框、截图、读网页等多模态tools。
这意味着模型能真正做到一整套闭环:看懂环境 → 规划步骤 → 动手执行。
而且它和Claude Code、AutoClaw这些工具的配合也更好了,整体更接近一个能实际完成任务的智能体。
目前,新模型在Z.ai和AutoClaw上都可以体验,也支持API调用,感兴趣的朋友快去试试吧~
体验地址:
AutoClaw(澳龙):https://autoglm.zhipuai.cn/autoclaw/
Z.ai:https://chat.z.ai
API接入:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...