V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
compilelife
V2EX  ›  奇思妙想

基于 LLM 的资讯跟踪软件

  •  
  •   compilelife · 240 天前 · 1725 次点击
    这是一个创建于 240 天前的主题,其中的信息可能已经有所发展或是发生改变。

    欢迎大家讨论,或者找类似的软件。

    背景:我是做预研的,需要长期跟踪某个课题的最新资讯、论文、期刊文章等。我会首先构建一套“分类体系”,比如关注文生图领域,有些人做的是提升推理速度的工作,有些人做的是主题驱动的工作,有些人做的是可控性的工作,等等;基于这个分类体系,有些文章我会细看,有些粗略看,有些收藏以后看,和当前的研究焦点有关。

    软件设想:自动跟踪资讯,按预设分类规则整理,并回答一些关键问题。

    运作流程:

    1. 设定信息源、分类规则、各分类下要回答的关键问题
    2. 软件每日采集,生成各条信息源摘要
    3. 软件分析每条信息源,按规则分类
    4. 软件根据文章内容,回答关键问题
    5. 软件支持由粗到细地浏览信息,如按分类,呈现标题+摘要,点击显示关键问题的回答内容
    6. 软件支持 AI 问答

    背后技术设想通过 LLM 均能实现

    举个例子:

    • 设定源 arxiv ,paperwithcode
    • 设定分类:推理速度、主题驱动、可控性、其它
    • 主题驱动下,设关键问题:1 )是否 trainning free ; 2 )是否支持多主题

    走过路过,留个言?可行否?有价值否?有现成软件否?有其它 idea 否?

    14 条回复    2024-03-13 13:00:16 +08:00
    paopjian
        1
    paopjian  
       240 天前
    我记得都有人直接用 AI 监控推特热点了,翻译润色以后自动发文章. github 里搜索怎么用 API 应该就有监控内容发布的程序吧?
    SorryChen
        2
    SorryChen  
       240 天前
    可行,但,来 Paperlib 里写个插件实现吧。

    https://github.com/Future-Scholars/paperlib

    论文管理,RSS 订阅都现成的了,接入 LLM 就完事。

    (自我推广 hhh )
    czfy
        3
    czfy  
       240 天前 via Android
    对用户来说价值是有的,难点不在于 LLM ,而是在数据采集

    C 端应用,RSS 息微,如果你想要的信息源不支持 RSS 怎么办?像 RSShub 这类工具也转化不了怎么办?只能爬虫,而爬虫的成本对面向 C 端的产品来说几乎是不可接受的。所以最有可能的是现有的 RSS 产品开发者增加基于 LLM 的这一批功能。然后下一个问题就是,用户愿意为此付出多少费用?如果 ROI 太低,那就很少有人愿意做

    B 端应用,爬虫之后 ETL 里加一批 LLM 的 API 调用做处理后定期推送不是问题,至于是否做成实时调用 API 那就看公司的技术能力和客户的付费意愿。LLM 在 B 端应用其实很顺理成章,这也是为什么 API 都是伴随每个模型同步发布的,因为这能带来收入
    viWww0vvxmolvY5p
        4
    viWww0vvxmolvY5p  
       240 天前 via Android
    @czfy 不考虑太复杂的动态源,私有源,其实数据采集容易做到。
    难点在于怎么统一调性,千人千面,怎么做出符合人口味的内容?这方面光有程序员技能恐怕不行。
    gaobh
        5
    gaobh  
       240 天前 via iPhone
    这……太简单了,写个爬虫插件,再写个联网插件,接个 llm ,让他自己抓去呗,这种现在都不是工程问题了,小学生都能干,不会的话用 dify ,fast 编一下流程就行了
    viWww0vvxmolvY5p
        6
    viWww0vvxmolvY5p  
       240 天前 via Android
    @gaobh 超过 5 个步骤 99%的用户会放弃,用户最想要的是动动手指头点两下就行,让他们聊几句都费劲,因为要想需求,想转换的事。
    czfy
        7
    czfy  
       240 天前
    @mway 如何定义私有源?微信公众号文章算私有源还是公有源?
    viWww0vvxmolvY5p
        8
    viWww0vvxmolvY5p  
       240 天前 via Android
    @czfy 要登录的
    elonlo
        9
    elonlo  
       240 天前
    https://get.mem.ai/
    这个已经做了,我看推特经常看到 mem save thread ,就是这个东西在采集
    compilelife
        10
    compilelife  
    OP
       240 天前
    @SorryChen #2 不错不错,我回头看看
    compilelife
        11
    compilelife  
    OP
       240 天前
    @gaobh #5 可以帮忙列下详细的技术栈吗?
    compilelife
        12
    compilelife  
    OP
       240 天前
    @elonlo #9 好,我回头详细体验下
    gaobh
        13
    gaobh  
       240 天前
    compilelife
        14
    compilelife  
    OP
       240 天前
    @gaobh #13 👌
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2714 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:45 · PVG 20:45 · LAX 04:45 · JFK 07:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.