查询汉字的编码值，可用 alt+数字打字。

#!/usr/bin/python
# -*- coding: utf-8 -*-
# utf-8 中文编码

u"""
罕见字 𪚙
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=2A699&useutf8=true

运行结果：
1 gb18030:49  utf-32le:49
2 gb18030:50  utf-32le:50
3 gb18030:51  utf-32le:51
A gb18030:65  utf-32le:65
B gb18030:66  utf-32le:66
C gb18030:67  utf-32le:67
䶮 gb18030:65183  utf-32le:19886
𪚙 gb18030:2553670965  utf-32le:173721
"""

__author__ = 'GameXG'


def a(b):
    c=b.encode("utf-32le")
    for d in range(len(c)/4):
        e=d*4
        f=''
        h=0
        for g in range(4):
            f+=c[e+g]
            h+=ord(c[e+g]) * 0x100 ** g
        i = f.decode("utf-32le")

        j = i.encode("gb18030",errors = 'ignore')
        l=0
        for k in range(len(j)):
            l += ord(j[k])*(0x100**(len(j)-1-k))

        print u"%s gb18030:%s  utf-32le:%s"%(i,l,h)

表示用 abcdef 当变量名很影响可读性，如果同一个名在不同地方是不同的内容更影响可读性。

Supplement 1 · May 1, 2015

在线版
http://gtool.sinaapp.com/

Supplement 2 · May 1, 2015

http://en.wikipedia.org/wiki/Alt_code
http://en.wikipedia.org/wiki/Unicode_input

utf

编码

unicode

9 replies • 2015-05-02 22:37:08 +08:00

Sylv

May 1, 2015 via iPhone

在 iPhone 上那个罕见字 gb18030:2553670965 无法显示，显示的是一个方框。看样子都不在 iOS 的字库内。
有点为你侄子未来担忧，要是以后你侄子名字在别人手机里只能显示个方框，那得多尴尬，白取这么特别的名字了。

gamexg

May 1, 2015

@Sylv 名字用的是  ，𪚙只是测试用的。

Sylv

May 1, 2015 via iPhone

@gamexg 很可惜，你回复中的两个字在 iPhone 上都是方框

ryd994

May 1, 2015 via Android

@gamexg 然而 Nexus5 Android5.1也看不见

SoloCompany

May 1, 2015

关键词
Karabiner
Change input source to Unicode Hex Input while you are holding down right option key.

gamexg

May 1, 2015

@Sylv @ryd994 真晕了，这个字占了两个编码，ctrl+f 能发现䶮 != “” 。

google 搜索 “” 直接没内容，baidu 把䶮和 “”当作一个字处理的，在百度搜索页面 ctrl+f 能发现其实是两个字，甚至百度百科䶮页面都是两种编码混着用的...

必应输入法打出来的是“” gb18030:2201407289 utf-32le:59491，记得出生证明打出来的也像是“” gb18030:2201407289 utf-32le:59491。

toduse

May 1, 2015 via Android

我这里显示的就是同一个字

KexyBiscuit

May 2, 2015 via Android

Android 上直接空白

rtyurtyu

May 2, 2015

"同时发现对国人来讲实际上用 UTF-8 不如用 UTF-16 更合适“

你这是想当然的说，一看你就没做过测试

随便找个中文很多的网页另存为UTF8和UTF16比比大小就知道了
UTF8比UTF16小得多
道理很简单，中文多一个字节，但是英文少了一个字节，两者抵消
而一般网页上其实还是英文多

把本帖另存为UTF16有93.5K，而UTF8是49.8K

查询汉字的编码值，可用 alt+数字 打字。

查询汉字的编码值，可用 alt+数字打字。