|
Unicode中有一種特殊字符叫surrogate pair(代理對)。如果是utf16編碼,通常情況下,一個字符就佔用兩個字節。可是兩個字節的容量有限,只能承載Basic multilingual Plane内的字符(BMP--基礎多語言平面),凡65,536個。而實際上,截止於unicode5.0, 已編碼字符已達到了102,012個。光是cjkv(中日韓越)的漢字已採錄的就在7萬以上,兩個字節的編碼肯定是不夠用的。
/ B0 W" e/ a3 w$ d- E6 }
4 T; W9 I ~6 z# D+ ?unicode的 cjkv字符最主要的有三組,cjkv unified ideographes (在BMP内,20,924個)、cjkv unified ideographes extension A (也在BMP内,6,582個)和 extension B(在第2平面,42,711個)。擴展B集的字符既然不在BMP内,就要用到連續兩個雙字符編碼的代理對來表示一個漢字(4bytes for 1 character)。( X: F I: ]( ?0 a: c$ ?
; L6 k. E0 q5 t本論壇「康熙字典詞庫」中就有大量的擴展A/B集的字符。據我的觀查,mdict pc 版對擴展AB集的漢字都能正是顯示,但是它的輸入欄卻只接受基本字集裏的漢字。很怪異的是,擴展A集的漢字同樣也在BMP中(兩字節一字)居然也不能識別。
. S# f& d; u+ T: J9 A% q6 [# K
/ R& [; U: T5 r7 s1 d' k$ p5 I相反如果打開fuzzy查詢的對話窗,則所有3集中的漢字都能正常輸入。
5 g/ G8 {+ K' B i
+ |6 g' L- T" |) n- s2 i我猜,可能原輸入欄設定的內碼是GBK,或者本地內碼(Window xp內碼雖然是utf16le但文件系統卻用GBK/BIG5),而詞庫內部卻用的是unicode,於是兩者有些參差。
* l4 y; i( `2 i* i Y% x4 J8 e; @. k4 E. c/ ~7 I h& {( {5 a
0 i% u8 D8 z4 D4 @5 ?& r
5 c- c- u# P& K( ~! P
! C* J! _: L* `, z! u4 J
[ 本帖最后由 blankego 于 2009-2-16 15:57 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
|