V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
collen
V2EX  ›  问与答

AI 编程数据提问

  •  
  •   collen · 16 小时 20 分钟前 · 451 次点击
    我把我之前和 gpt 的对话下载下来了,我想做清洗数据,但是我发现我之前大量和 gpt 的聊天就是编程,解决我的问题,现在这些数据是垃圾数据吗,应该过滤吗,或许,有可能,我在对话中提出了万中无一的解决方法,或者当时网络上没有解决方案,我通过自己的思考解决了,这种有可能吗,要记录吗,顺便如果我不是程序员,我是一个作家,我让他帮我生成了大量小黄文,这个小黄文也算是数据吗,要保留吗,医生呢,我让他帮我找了一堆类似的病例和文献,这些也是有意义的数据吗
    coreJK
        1
    coreJK  
       15 小时 34 分钟前
    1. 编程领域:解决过的问题,或者是和 AI 对话过程中解决过的方案,应该总结成可以复用的解决方案,这个还是有价值的(不过 AI 本身已经汲取了大量人类解决过的一些问题的答案),和 AI 对话过程中,更像是一种“查询”的过程,只是呈现方式变了,由 AI 组织语言回答,而且还存在说错的概率;
    2. 作家:这个不好界定感觉,应该归纳为素材吧;
    3. 医生:这个行业应该需要更加严谨的态度,如何保证病例和文献的真实性是个问题

    导出来的数据,如果是结构化的 json 应该还是好处理,MD 还得额外转换一次

    不过感觉对于对话历史记录,现在几个主流的都支持对话历史记录检索了
    collen
        2
    collen  
    OP
       15 小时 2 分钟前
    @coreJK 但是我 1 万多条对话,大概有 6000 多条都是问编程的,或者项目代码让他帮我改,比较古老了,2023 和 2024 年的,那个时候没有 claude code 我直接全部复制粘贴过去的,现在清洗起来要跑很久,这些代码都应该没有意义了吧
    coreJK
        3
    coreJK  
       14 小时 35 分钟前
    @collen #2 这个意义得看你自己了,如果确认是有用的数据,花多少时间整理都是值得的(个人观点),没必要为了整理而去整理数据吧

    感觉现在 op 是也不知道那些数据是有用的,所以一直在纠结中
    CLMan
        4
    CLMan  
       6 小时 25 分钟前
    类似的包括下载文件、浏览器打开的标签等。当堆积到一定程度后,就很难有心思去整理了。

    建议实在拿不定主意,保存在文件然后压缩存储,以后有精力再整理。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1247 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:03 · PVG 01:03 · LAX 09:03 · JFK 12:03
    ♥ Do have faith in what you're doing.