1
creanme 2021-08-13 16:03:04 +08:00 1
unicode? 不知道怎么转
|
2
XiLingHost 2021-08-13 16:03:06 +08:00 1
base64
|
3
1423 2021-08-13 16:08:43 +08:00 1
|
4
wangkun025 2021-08-13 16:08:44 +08:00 1
第三方处理不了 utf8 的话,就没什么办法。
这个就是 utf8,第一个字符 Unicode number 应该是 U+1D440 |
5
learningman 2021-08-13 16:08:56 +08:00 via Android 2
这些是某些小语言里面的字体,长得跟英文像,被拿来当艺术字了。
这个没有直接转换的办法,你只能自己维护一个映射列表。我觉得干脆禁止更干脆一点。 如果你要问这是什么编码的话,那只能说只要你能看到,那就肯定 Unicode 。 |
6
wangkun025 2021-08-13 16:10:55 +08:00 1
这个没法转换的。类似于把一个中文的字符转换成英文,本质上是无法转换的。
让第三方接受 utf8 是正途。 |
7
1423 2021-08-13 16:14:15 +08:00 1
还挺有意思的,试一下效果
Sans-serif bold italic symbols 𝘼𝘽𝘾𝘿𝙀𝙁𝙂𝙃𝙄𝙅𝙆𝙇𝙈𝙉𝙊𝙋𝙌𝙍𝙎𝙏𝙐𝙑𝙒𝙓𝙔𝙕𝙖𝙗𝙘𝙙𝙚𝙛𝙜𝙝𝙞𝙟𝙠𝙡𝙢𝙣𝙤𝙥𝙦𝙧𝙨𝙩𝙪𝙫𝙬𝙭𝙮𝙯 Dotless symbols 𝚤𝚥 Double-struck digits 𝟘𝟙𝟚𝟛𝟜𝟝𝟞𝟟𝟠𝟡 Double-struck symbols 𝔸𝔹𝔻𝔼𝔽𝔾𝕀𝕁𝕂𝕃𝕄𝕆𝕊𝕋𝕌𝕍𝕎𝕏𝕐𝕒𝕓𝕔𝕕𝕖𝕗𝕘𝕙𝕚𝕛𝕜𝕝𝕞𝕟𝕠𝕡𝕢𝕣𝕤𝕥𝕦𝕧𝕨𝕩𝕪𝕫 |
8
vvong OP |
9
hahastudio 2021-08-13 16:32:42 +08:00 via Android 2
Unicode normalization
|
10
013231 2021-08-13 16:36:47 +08:00 6
標題中的字母屬於“Mathematical Alphanumeric Symbols”. 將其轉換為“正常”字符的行為叫“Unicode Normalization”.
以 Python 為例, 可以使用標準庫中的 unicodedata.normalize 做這樣的轉換. >>> import unicodedata >>> print(unicodedata.normalize('NFKD', '𝑀𝑏𝑎𝑘𝑢𝑛𝑑𝑎 𝑎𝑙𝑒𝑥')) Mbakunda alex |
11
hahastudio 2021-08-14 10:26:01 +08:00 1
说起来,这个帖子的 tag 是怎么回事,是分词 bug 了么 @livid
|
12
learningman 2021-08-14 12:12:13 +08:00
@hahastudio 应该是,估计是 4 字节 unicode 被当成 3 字节处理了
|
13
Conty 2021-08-16 08:00:38 +08:00
我倒是经常收到类似编码的垃圾邮件,subject 就是这样的,让你能读懂,但是又没法用关键词过滤。
大家有啥好办法吗? |