V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lwswanson
V2EX  ›  问与答

求中文人名提取算法

  •  
  •   lwswanson · 2014-05-20 18:40:01 +08:00 via iPhone · 2841 次点击
    这是一个创建于 3842 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有V友研究过:基于海量数据的中文人名算法或者学习或参与过类似的开源项目呢?不胜感激!
    1 条回复    2014-05-21 00:10:27 +08:00
    Sunyanzi
        1
    Sunyanzi  
       2014-05-21 00:10:27 +08:00
    刚好做过 ... 不过是自己摸索出来的完全不专业 ... 大概简单说下我当时的设计吧 ...

    中文人名以百家姓开头 ... 那些不以姓氏开头的昵称一律无视 ... 不在百家姓内的姓氏无视 ...

    中文人名最长三个字 ... 所以少数民族的朋友无视 ... 四个字的名字或者冠夫姓的名字无视 ...

    中文人名很少用到某些字 ... 比如的地得 ... 我你他 ... 包含这些字的名字无视 ...

    有了这三个原则 ... 接下来就是全文扫描了 ...

    名字默认都是三个字 ... 第三个字在某个范围内的话视为两个字的名字这样 ...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3339 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 12:15 · PVG 20:15 · LAX 04:15 · JFK 07:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.