V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
LuffyPro

向量化多源文本时,如何做好文本分割?

  •  
  •   LuffyPro · Jan 9, 2024 · 1691 views
    This topic created in 845 days ago, the information mentioned may be changed or developed.
    • 项目想读取多种类型的文本,比如 doc,md,xlsx 等文件的内容
    • 将其向量化后,存储到向量数据库

    请问大家是如何做文本分割的,当然这里不是指简单的字符分割,而是如何将他们合理的分割后存到向量数据库,以便于提高知识库的匹配精准度。谢谢回复。

    5 replies    2024-02-29 20:10:28 +08:00
    Haku
        1
    Haku  
       Jan 11, 2024
    人肉分割。别笑,我们公司就是这么干的,效果不说有多好,但是起码比机械地按句子标点符号啥的分割要好很多。

    一定要程序来分割的话,可以直接交给 AI 然后按照语义分割试试。
    LuffyPro
        2
    LuffyPro  
    OP
       Jan 29, 2024
    谢谢回复,确实,感觉绝大部分 ai 应用还是专用型,专用型一般是特定场景,语义分割时的约束比较好定义,人工分割也简单些,比较适合初期落地。
    这是我找到的别人的回复: https://zhuanlan.zhihu.com/p/673906072 ,共勉。
    PS:新号 注册 15 天后才能回复😂
    shm7
        3
    shm7  
       Feb 27, 2024
    按照句子分割,再长的按照分句分割。中英那么多标点符号呢。NLPer 的祖传技能了。
    IanG
        4
    IanG  
       Feb 28, 2024
    SpacyTextSplitter
    LuffyPro
        5
    LuffyPro  
    OP
       Feb 29, 2024
    谢谢大佬们的回复。
    @shm7 主要是想在分割的同时,尽量保留上下文语义关系或者逻辑关系。
    @SpacyTextSplitter 效果怎么样?可惜目前仅看到 py 版本。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1760 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 00:01 · PVG 08:01 · LAX 17:01 · JFK 20:01
    ♥ Do have faith in what you're doing.