|      1rpman      2021-11-30 13:15:25 +08:00 起码得有点机器学习基础吧 要超越 jieba 的话, https://github.com/hankcs/HanLP 了解一下, 甚至可以基于他做多任务蒸馏 | 
|  |      2menc      2021-11-30 13:15:42 +08:00 直接看 jieba 分词的源码就行。 jieba 分词用的是传统方式,在不开隐马尔科夫模型的时候,是一个很基本的前向最大匹配和后向最大匹配算法,不需要数学知识。 建议看 jieba 早期的一些源码,没有现在这么多东西 | 
|      5rpman      2021-11-30 13:29:19 +08:00 @flyhelan 不知道你的学习目标是什么. 单纯说 jieba 的话它基本已经停更了, 更多只是作为一个 baseline 而存在, 或者只是单纯的路径依赖. 在真实生产上对准确率有一点要求都不会考虑它. 顺便一提即使是 jieba, 在末期的版本也已经用上了深度学习, 虽然效果还是落后. | 
|      8rpman      2021-11-30 14:16:58 +08:00 | 
|      9rpman      2021-11-30 14:25:23 +08:00 @rpman 顺便补充, 不知道 jieba 的 Bi-LSTM 深度模型是咋回事, 在我的数据上没显示出什么明显优势, 性能倒是比 HanLP 慢不少. | 
|      10xingshu1990      2021-11-30 15:44:40 +08:00 有几楼偏了,不过……好像……偏的又合理。 第三方库的第一次出现,都是作者本身有一些需求,然后慢慢完善起来,慢慢的功能通用起来。 建议从 jieba 上传的第一份代码开始看起,看看每次更新了什么内容,为了完成什么需求,然后自己跟着一个字母一个字母敲了,调试。 |