V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oopus
V2EX  ›  分享创造

汉语古文断句预训练模型

  •  2
     
  •   oopus · 2021-11-18 12:48:15 +08:00 · 1902 次点击
    这是一个创建于 1131 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/cbdb-project/sentence-segmentation-for-chinese-historical-texts

    这是基于 LSTM 的预训练模型。此模型可帮助您为汉语古文断句。任何人都可以在 CC BY-NC-SA 4.0 许可证下使用此预训练模型。

    我们在 2018 年建立此模型。(Xu Han, Hongsu Wang, Sanqian Zhang, Qunchao Fu, and Jun S Liu. 2018. “Sentence Segmentation for Classical Chinese Based on LSTM with Radical Embedding.”)虽然模型已很老旧,我们发现当前并没有项目在 GitHub 上公开用于汉语古文断句的预训练模型。因此我们认为它仍能帮到一些项目。

    此仓库并不是任何当下断句或者标点系统的竞争者。如果您有资金支持或者有其他选择,请选择那些当下的商业化断句、标点模型,或利用自己的资源训练合适的「现代」模型。

    此仓库仅希望为以下项目、学者、爱好者提供帮助:1 )希望标记成千上万条语料记录,研究结论对标点正确率容忍度高。2 )无法建立自己的古汉语断句、标点模型。3 )无力支付付费模型。

    在本仓库的 training-data/ 目录下,您可以找到我们用于训练此模型的语料。如果希望帮助上述项目、学者、爱好者,您亦可基于这些训练集训练自己的模型,或丰富训练集的内容。我们欢迎任何人向本仓库提交代码或无版权问题的语料。我们期待在中国历史研究中,未来会有更多的预训练模型开放给公众。

    我们丢失了用于训练模型的源代码,但未来如果找到,第一时间更新在此仓库中。


    来自作者之一的私话:

    「安得广厦千万间」,这个 repo 服务的对象是「天下寒士」。能吃饱、穿暖的项目和研究者,请一定购买和支持商业化方案。买不起、用不起但是想一试的「寒士」,至少还有一个选择。这个模型的正确率,论文作者们当时就认为距离真正能帮助人文研究还远得多,所以一直也没有发布,更不要说到今天大量更优秀的模型发布。但是看到直到 2021 年,GitHub 上完全搜不到一个用来断句的预训练模型,心里就很不舒服。

    如果能用这个项目来刺激一些组分享自己的预训练模型,快速淘汰这个老旧的模型。即便是这样,我自己也会很欣喜。

    2 条回复    2021-11-19 10:46:23 +08:00
    Chipmunker
        1
    Chipmunker  
       2021-11-19 08:57:17 +08:00   ❤️ 1
    好像训练数据集是简体的。那是不是不能直接用于繁体文本?
    oopus
        2
    oopus  
    OP
       2021-11-19 10:46:23 +08:00 via iPhone
    @Chipmunker 谢谢你的细心观察,繁简都可以的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3136 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:46 · PVG 20:46 · LAX 04:46 · JFK 07:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.