凌晨上线的豆包 1.6-vision,直接把 OpenAI 还没发布的 GPT-5 拉出来“公开处刑”——我们用 48 小时暴力测试:让模型看 10 张模糊监控截图,它在 3 秒内写出完整时间线并锁定嫌疑人;丢一张外卖小票,它能把商家隐形折扣规则、食材卡路里、甚至发票漏税风险一次性算清。

这个很好理解,缩放、裁剪、旋转、划线都是图片工具的一种。
当下真的幻视我七八年前用OpenCV打比赛,不知道还有没有人记得这张包浆照片,当年但凡是做图像处理的都应该用过来改色、或者丢给CNN(卷积神经网络)来识别。


隔壁GPT5-thinking的识别准确率只有15.4%,能看出来它已经在努力放大细节了,但是每个字的划分区域不够准确导致的错误。

绘线几何|POINT
刚好提到point,我还给模型们准备了数学几何题,

Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的,
point可以随意移动,超长的上下文让它可以一次输出十几张过程图。


GPT5-thinking这波属于是“虚空画线“了,
看来是用的PIL没有定点和连线的功能,

一句话总结就是好用,
实打实的好用,
默认开启的图像工具降低了写提示语的成本,
两两组合还可以完成画线,准点画框、旋转 八倍放大的操作,
求赶紧同步发布到可以直接使用的网页端,
降低使用门槛,
这样我们都可以用上我们自己的,
最好的模型。
@ 作者 / 卡尔
本文由人人都是产品经理作者【null】,微信公众号:【卡尔的AI沃茨】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237