V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cairnechen
V2EX  ›  问与答

opus 的视觉能力是不是不如 gpt5.4?

  •  
  •   cairnechen · 1 天前 · 893 次点击
    写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置,估算坐标,定位目标区域(可以迭代式地调整目标范围) GPT5.4 完成起来毫不费力,opus 坐标漂移的程度很夸张(大量目视判断后重试),问了下,claude 说自己看到的不是全图,而是看到渲染到会话的缩略图,比如一个 2000 宽度的图片,他实际看到的是 600 像素,这么变态的吗?
    7 条回复    2026-03-28 23:28:53 +08:00
    liulicaixiao
        1
    liulicaixiao  
       1 天前
    分辨率问题,需要自己提前调整图片。
    liu731
        2
    liu731  
    PRO
       1 天前
    视觉这块还得 Gemini
    cairnechen
        3
    cairnechen  
    OP
       1 天前
    @liulicaixiao 要怎么调整,我刚才发现一个更奇葩的情况,让 cladue 知道图片的尺寸,它的处理能力就提升很多(准确性提高),是的,只要它知道图片尺寸其他什么都不用干就能提升处理能力。。。 奇怪的是,claude code 明明有 file 工具可以拿到图片信息,但是它自己不会主动用。。。
    sillydaddy
        4
    sillydaddy  
       1 天前
    其实 benchmark 分数可以证明,不过我还是喜欢这个帖子里的视觉测试:
    /t/1192001

    当时我测试了只有 codex 5.3 extra high 能解决。不知道最新的 5.4 能不能解决,起码 Opus 4.6 是不行的。
    VeryZero
        5
    VeryZero  
       1 天前
    要先确认是缩放导致的位置不对还是 opus 认错了。

    大概率是缩放导致的,这样的话等比例算回来就行了。千问的视觉模型也有这毛病,1920 的图片,它实际处理的时候缩放成了 1000 ,导致返回的位置是有偏移的
    cairnechen
        6
    cairnechen  
    OP
       1 天前
    @VeryZero 嗯,看了文档,claude 缩放的门槛是 1580px 或者 1.15M 像素或者~1600 token ,超过了就缩放,我那张图肯定触发了,为什么我告诉它实际图片尺寸之后它准确性提高了,是因为它开始用比例方式换算坐标了
    idragonet
        7
    idragonet  
       16 小时 57 分钟前
    视觉绝对 Gemini 第一!
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2872 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 08:26 · PVG 16:26 · LAX 01:26 · JFK 04:26
    ♥ Do have faith in what you're doing.