V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
TWorldIsNButThis
V2EX  ›  GitHub Copilot

都说现在 ai 写代码厉害,但是我聊了半天也没法让 ai 正确处理一个独立的小需求

  •  1
     
  •   TWorldIsNButThis · 1 天前 · 1061 次点击

    用 Java 的 PDFBox 提取出 电子 f 票(铁路电子客票)上的 f 票标题、购买方名称、f 票号码等信息

    原因是 f 票 pdf 里有个盖章,这个盖章和 电子 f 票(铁路电子客票) 这几个字在视觉上是重叠在一起的,导致直接根据区域提取文本会提取出错乱的文字

    但是我发现直接用浏览器打开 pdf ,选中的文字时候,可以正确选中 电子 f 票(铁路电子客票) 这几个字

    我问 ai 这个盖章是什么,它一会说是 PDImage ,一会说是 PDFORM ,给出了两个提取代码跑下来都是错的

    我直接问怎么处理盖章,它给我发了一段 python 调 opencv 的纯视觉方案。。

    还有上次用 poi 处理 excel ,想让图片变成嵌入到单元格,我特意转成英文版 excel 找到 excel 图片嵌入到单元格操作的原文去问也没用,回答都是错的

    缩写是因为提示:发布这个内容需要你已经注册满 2025 天

    17 条回复    2025-01-09 09:41:03 +08:00
    edgar51774
        1
    edgar51774  
       1 天前   ❤️ 1
    让他写一个,然后参考
    TWorldIsNButThis
        2
    TWorldIsNButThis  
    OP
       1 天前
    @edgar51774 写的都没法用啊
    estk
        3
    estk  
       1 天前 via iPhone
    4o 不行,要 o1
    min
        4
    min  
       1 天前
    让大模型写前大模型时代的代码,
    去解决多模态大模型可以轻松搞定的问题?
    bjzhou1990
        5
    bjzhou1990  
       1 天前
    提问是一门艺术
    jifengg
        6
    jifengg  
       1 天前
    回到你最初的问题。那些文字能选中,和你说到“盖章”是什么完全没关系,那个章 99.999%就是一张图片嵌入到 png 中。至于为何能选中文字。起始也是 pdf 还有一层文本层(但是是透明的),你选中的是那层文本层,它叠在你看到的文字上,看起来就像是选中了你看到的文字。
    效果你可以参考:win 微信打开一张包含文字的图片,在上面选择 ocr 出来的文字的效果。
    有些 pdf 看着明明是扫描版的,但是文字可以选择,也是这么来的。
    tyrone2333
        7
    tyrone2333  
       1 天前
    f 票 发票打出来犯法吗
    bk201
        8
    bk201  
       1 天前
    没觉得厉害,单纯让它做一些体力活
    hahastudio
        9
    hahastudio  
       1 天前
    @tyrone2333 看完帖子再回复犯法么
    FishNaCl
        10
    FishNaCl  
       1 天前 via iPhone
    我印象里电子发票的盖章是在 pdf 的注释层里面的,和发票不在一个图层,理论上是可以在 ocr 之前直接在程序上直接去掉盖章的

    因为经常打印电子发票的时候,会发现打印出来没有那个章,经别人指点才发现要把“打印注释”勾选上才行。
    tankeco
        11
    tankeco  
       1 天前
    话说,为啥不扫发票上的二维码
    TWorldIsNButThis
        12
    TWorldIsNButThis  
    OP
       1 天前 via iPhone
    最新消息:还是自己手动用按面积提取的方式做了

    然后晚上喜提 n+1
    night98
        13
    night98  
       23 小时 2 分钟前
    @TWorldIsNButThis #12 你这太 6 了,办法刚想出来了被裁了?
    ly841000
        14
    ly841000  
       22 小时 48 分钟前
    都是吹出来的,反正我的工作是完全没法用,修改他的 BUG 时间比自己动手还慢
    thingingWoods
        15
    thingingWoods  
       22 小时 44 分钟前
    TWorldIsNButThis
        16
    TWorldIsNButThis  
    OP
       22 小时 30 分钟前
    @night98 倒没有因果关系,只是纯粹的时间上的先后 hhh
    wnpllrzodiac
        17
    wnpllrzodiac  
       10 小时 30 分钟前 via Android
    写 helloworld 一吧刷子
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3271 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 12:11 · PVG 20:11 · LAX 04:11 · JFK 07:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.