1
neosfung 2019-02-01 17:02:54 +08:00 ![]() |
![]() |
2
Sanko 2019-02-01 17:05:30 +08:00 via Android
jieba
|
![]() |
4
neptuno 2019-02-01 17:38:21 +08:00
分句?标点符号,换行符分一分?感觉这种东西自己写写比较好,重点是分词吧
|
![]() |
5
inhzus 2019-02-01 17:41:33 +08:00 ![]() 正好可能以后用到, 稍微写了写
使用的第三方库 [HanLP]( https://github.com/hankcs/HanLP) 代码: https://gist.github.com/imagecser/ea03d286838fb9afe7e20fba46c4ecd2 结果: ![]() 如果非要用 python 的话, 参考一下 pyhanlp 就好了 |
6
a41050447 OP @neptuno 主要是要考虑各种规则,括号,引号,双标点,小数点,url 这些,还可能是中英混合的文档,造轮子太废时,
|
![]() |
8
yuikns 2019-02-02 07:24:03 +08:00
|