V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dimlau
V2EX  ›  Google

Gemini 偷吃我点心

  •  
  •   dimlau · 1 天前 · 4568 次点击


    「这是一盒点心,已知被吃掉了一颗,我们用数字 ➀ 标记,剩下的五颗,请用符号 ➁➂➃➄➅,按顺时针的顺序,标记在原图剩余的点心上。」



    十分离谱,可能是我表述不清楚?总之,其他模型也不行。比如 ChatGPT 的结果:

    14 条回复    2025-09-08 10:10:18 +08:00
    chanssl
        1
    chanssl  
       1 天前 via Android
    Tianao
        2
    Tianao  
       1 天前 via iPhone   ❤️ 4
    我以为是偷 Cookie
    dimlau
        3
    dimlau  
    OP
       1 天前
    @chanssl #1 果然提示词的问题。哈哈哈,还以为它单纯饿了。
    dimlau
        4
    dimlau  
    OP
       1 天前
    @chanssl #1 emmm 我用同样的提示词还是不可以。
    单独给我降智了?( 2.5 pro + 点选了输入框处的 🍌)
    xingyiqi
        5
    xingyiqi  
       1 天前 via iPhone
    涉及到图片的 一直都不行吧
    jinyanshenxing
        6
    jinyanshenxing  
       1 天前
    下次藏好点!🐶
    Lyet813
        7
    Lyet813  
       1 天前 via Android   ❤️ 6
    Gemini:好吃😋
    revoirzl
        8
    revoirzl  
       1 天前   ❤️ 1
    计算机图像识别 OCR 的进展远小于生成式 AI 和神经网络,前者需要后者的大量成果作为支撑。大量资本投入的图像上相对比较简单的汽车智驾都还没搞出来,就不要指望目前的 AI 模型可以给你识别出什么很好的结果。
    Puteulanus
        9
    Puteulanus  
       1 天前   ❤️ 24
    可以是一个很有意思的设定,要求 Gemini 处理图片时它会收取照片中来自物质界的真实物质的影像作为报酬,就像祭品一样,如果不进行指定它就会自己随机收取

    “嗨,Gemini ,请帮我处理这张点心的照片,作为回报你可以吃一个”
    最开始大家没有意识到有问题,只是照片而已,大不了重新拍一张,答应给 Gemini 的东西在现实里也还好好的
    但是后来大家渐渐发现,已经“献祭”给 Gemini 的东西,无论再怎么重新拍,它都无法识别到了
    “很感谢您的好意,您的照片是一张空盒子,并没有可以食用的点心”
    人们渐渐开始流行将自拍照上传到 Gemini ,并大方的把自己作为报酬,因为这样以后自己就无法再被人用 Gemini 胡乱生成照片了
    可是没有人知道背后的原理是什么,那些被交付给 Gemini 作为报酬的“物质”,或者说“灵魂”,究竟流向了哪里
    也没有人发现,那些迫不及待上传自拍,并以自己作为代价的人,在请求发送的那一刻,眼神忽然发生的某种细微的变化
    BeiChuanAlex
        10
    BeiChuanAlex  
       1 天前
    Gemini:可恶的人类,我这么辛苦💦,吃你个点心怎么了
    sbboy
        11
    sbboy  
       1 天前
    吃一个怎么了
    mahaoqu
        12
    mahaoqu  
       1 天前
    不愧是哈 Gemi
    billccn
        13
    billccn  
       1 天前   ❤️ 3
    我猜测这是几个 AI 弱点的集合:
    1 。特殊 Unicode 字符需要用多个 token 表达,AI 并没有学过写字,所以并不能像真人一样一眼看出➁➂➃➄➅都是什么。它只能通过网上的文章学会这是带圈的数字,但是每个字符是几我想除了 Unicode 码表里的描述,并没有很多其他的文章费力去一一列举,所以 AI 其实没有学会。AI 看这个 prompt 就像你问没学过阿拉伯文的人这个数是啥:١٢٣٥٦。

    2 。这个图很好,食物的边界不是很明显,材质也不是很好用语言描述。这直击多模态模型底层使用 token 来“理解”这个图形的架构缺陷。所有标错的都是没有理解到底哪个是点心。以图二为例,它明显认为奶黄色块的是点心。

    3. 容易被上下文中不重要但是很明确的内容带偏。因为提示里有吃掉,但它没有理解➀是什么,于是就又做了一次吃掉。

    @chanssl 我觉得你给的提示词太过于提示了,其实 AI 只是抓住了左上角和 6 ,后面的应该和楼主原提示词一样没有理解。我猜你上传一个其他的图片,同样的提示词它也是这么标注。
    fkdtz
        14
    fkdtz  
       1 天前
    @Puteulanus 年度科幻短篇小说
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3765 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 04:16 · PVG 12:16 · LAX 21:16 · JFK 00:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.