V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
darasion
V2EX  ›  问与答

怎样用程序分辨一个“词”是中文日文还是韩文?

  •  
  •   darasion · 2011-03-06 19:27:24 +08:00 · 4899 次点击
    这是一个创建于 4807 天前的主题,其中的信息可能已经有所发展或是发生改变。
    13 条回复    1970-01-01 08:00:00 +08:00
    Livid
        1
    Livid  
    MOD
       2011-03-06 20:00:00 +08:00 via iPhone
    把这个词放到 3 本辞典里搜索。
    darasion
        2
    darasion  
    OP
       2011-03-06 20:13:30 +08:00
    @Livid 囧,那还是算了。我放弃。
    Sam
        3
    Sam  
       2011-03-06 20:42:41 +08:00
    有些词在日语和中文都同时有,比如“宿舍”,“派出所”:)
    darasion
        4
    darasion  
    OP
       2011-03-06 20:54:14 +08:00
    @Sam 嗯,是的。以前火车司机的工作日志就叫:“司机手帐”。日语“手帐”也是这个意思。
    lianghai
        5
    lianghai  
       2011-03-06 22:15:52 +08:00 via iPhone
    基本也就是靠字典了。另外可以通过识别 CJK 各自的独有字符来协助提高效率;并且如果如果有上下文而少有外语引用的话,可以在不确定的情况下进一步检查上下文……
    est
        6
    est  
       2011-03-06 22:17:40 +08:00
    cjk已经被unicode统一了,基本只有看词频来区分了
    apoclast
        7
    apoclast  
       2011-03-06 22:20:37 +08:00
    @est 我也这样认为
    dc
        8
    dc  
       2011-03-06 22:24:30 +08:00
    调用 Google 翻译的语言检测?
    Livid
        9
    Livid  
    MOD
       2011-03-06 22:25:21 +08:00
    @dc 嗯,Google 翻译的 auto 模式很不错。
    ayanamist
        10
    ayanamist  
       2011-03-06 22:35:21 +08:00
    Polyglot 3000效果很好,不过貌似只有桌面版……
    http://whatlanguageisthis.com/ 的效果一般
    bruce
        12
    bruce  
       2011-03-06 23:04:37 +08:00
    判断每个字的UTF编码范围, 看哪个范围的字数多
    tysx
        13
    tysx  
       2011-03-16 12:55:42 +08:00
    对这个词用各自语言独有的字符集转码,比如说用gbk和shift-jis去分别中日文,不报错就说明是
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2400 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:02 · PVG 18:02 · LAX 03:02 · JFK 06:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.