|
本帖最后由 wubis 于 2014-9-8 23:37 编辑
% T3 U( l! U6 y4 r: G4 c p( p, D0 F% r* W
比如索引一本古籍,几十个单人旁的字是相邻的词条,这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全?2.有些声称收纳汉字最多的字体,遇到古籍上面一些字还是无能为力,这时该怎么标记?
) g6 [# u, @9 q0 C, ]2 A1 T' r9 b# Q! l
最全的汉字表莫过于unicode的cjk吧,可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。
, z/ ~" D/ A1 X% p2 ^" h# X然后中韩译文网有个unicode中日韩的表,我整理过约5%,95%字体按照同一部首排在一起,基本上按笔画排序,可是找出来14画里面有个12画的也够呛,特别是面对提手旁,三点水的,只能抽样检测,唉。
; t" A: {' _% W1 }( h8 t, E# z
至于用汉典里面的部首检索,算了吧,应付古文力不从心,他比小狼毫的字库还要小一点,而且真的不能保证正确性(论坛有说)。小狼毫繁体字和简体字加起来也应付不了某些xx,小狼毫的字词官称来自android输入法啊,opencc,三拼等。比上面的那个中韩unicode表还要小一点。9 G7 }$ Q/ u" p: x
2 r5 N$ z! K/ y: J {' t求助:
# _' M+ m" V% X1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢). S& v* D% V* N0 z0 o
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。7 F8 z9 p2 U0 A% `& I
; x0 @0 A2 _# u; z" K; @$ V$ e
" @7 \5 N s# `7 j2.如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。" Q% v* X9 A/ A/ G
我想到两表各占excel一行,根据拼音排序(是不是只能按拼音排序),然后每隔50行抽检对比左右两行字。总共也才113xx多。; k! w) Q9 I$ Y0 j0 v/ g8 ?- t
; p# f- ?1 H* D; p
3.bing到sql等有些支持部首排序,可是sql语句不懂
9 P/ l) e' Z- } _7 B: h
) Z( F& S. T) ~, K1 z, l: l4.中文分词词库,sphinx等那些对这个问题有用吗
# I% u0 D& B# n7 D. I' c7 q
2 p% B0 h" ~# z* { B6 b4 b5 |静候高见 |
|