掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 987|回复: 3

[求助] 根据部首快速查字 和 如何制作基于部首的字典

[复制链接]

该用户从未签到

发表于 2014-9-8 23:37:56 | 显示全部楼层 |阅读模式
本帖最后由 wubis 于 2014-9-8 23:37 编辑
% T3 U( l! U6 y4 r: G4 c  p( p, D0 F% r* W
比如索引一本古籍,几十个单人旁的字是相邻的词条,这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全?2.有些声称收纳汉字最多的字体,遇到古籍上面一些字还是无能为力,这时该怎么标记?
) g6 [# u, @9 q0 C, ]2 A1 T' r9 b# Q! l
最全的汉字表莫过于unicode的cjk吧,可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。
, z/ ~" D/ A1 X% p2 ^" h# X然后中韩译文网有个unicode中日韩的表,我整理过约5%,95%字体按照同一部首排在一起,基本上按笔画排序,可是找出来14画里面有个12画的也够呛,特别是面对提手旁,三点水的,只能抽样检测,唉。
; t" A: {' _% W1 }( h8 t, E# z
至于用汉典里面的部首检索,算了吧,应付古文力不从心,他比小狼毫的字库还要小一点,而且真的不能保证正确性(论坛有说)。小狼毫繁体字和简体字加起来也应付不了某些xx,小狼毫的字词官称来自android输入法啊,opencc,三拼等。比上面的那个中韩unicode表还要小一点。9 G7 }$ Q/ u" p: x

2 r5 N$ z! K/ y: J  {' t求助:
# _' M+ m" V% X1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢). S& v* D% V* N0 z0 o
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。7 F8 z9 p2 U0 A% `& I

; x0 @0 A2 _# u; z" K; @$ V$ e
" @7 \5 N  s# `7 j2.如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。" Q% v* X9 A/ A/ G
我想到两表各占excel一行,根据拼音排序(是不是只能按拼音排序),然后每隔50行抽检对比左右两行字。总共也才113xx多。; k! w) Q9 I$ Y0 j0 v/ g8 ?- t
; p# f- ?1 H* D; p
3.bing到sql等有些支持部首排序,可是sql语句不懂
9 P/ l) e' Z- }  _7 B: h
) Z( F& S. T) ~, K1 z, l: l4.中文分词词库,sphinx等那些对这个问题有用吗
# I% u0 D& B# n7 D. I' c7 q
2 p% B0 h" ~# z* {  B6 b4 b5 |静候高见

该用户从未签到

 楼主| 发表于 2014-9-8 23:39:15 | 显示全部楼层
而且中韩unicode表,那个网站明确标明不允许转载

该用户从未签到

发表于 2014-9-9 00:09:45 | 显示全部楼层
# A2 Y. a9 A- q9 R4 f  ?" \
6 G! I4 _9 O  ?9 f$ F6 x
帖子里涉及到的问题,够写博士论文了。帖子有点乱,我是没太看懂。
) x+ H+ _% j  M; o) L0 X/ Y- _% h* }0 B* Y$ Y
不知道楼主知不知道拼音输入法里的U模式,8 q9 ?8 K) k& A" n' w# H. o
http://pinyin.sogou.com/help.php?list=3&q=8 + y1 L/ U* g7 i! p, c8 x
U模式主要用来输入不会读(不知道拼音)的字等。在按下u键后,输入笔画拼音首字母或者组成部分拼音,即可得到您想要的字

3 D$ A: y8 B: d0 E( b/ w( ~我觉得部首查字法纯属多余。
7 I4 L# p" G- ^& X2 g3 g% s% p1 V8 x. m  s# v  ?, s1 s4 Y

/ B, u# k3 N5 ^! q2 p4 x1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)5 f, G- ^  R/ Z& h+ V7 N
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。0 M& @4 `% F6 j& }  r; y
A: 我看不懂问题。
' n5 x& A1 s1 S6 Y) g) \2 D4 \) w8 O, a2 ?
2. 如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。- x. K# p2 \. w# @; R
A: 这个问题我也没太看懂。其实如果一个字占一行,那么直接可以用EditPlus的删除重复行功能(其它文本编辑器也可以实现类似的功能,如UltraEdit可以排序,排序过程中删除重复行)。Excel就更简单了,可以搜索“Excel 删除重复”。
% q. X1 w* [$ x+ }  ^! {/ r2 @# \( a/ h& ]0 F8 R2 G
3.bing到sql等有些支持部首排序,可是sql语句不懂9 {1 }* f$ S9 v8 i; J
A: 不懂就赶紧学,哪来那么多废话 ,这个年代,自学是生存发展之本,缺什么补什么。一天就可以入门了。
' j* X9 k2 ^8 C0 ^4 B" j3 C& h$ Z$ @' t5 I6 Z8 w
4.中文分词词库,sphinx等那些对这个问题有用吗8 h# W" H% K6 {
A: 没看懂。中文分词词库,免费的有不少,好的词库,值钱,值大钱。. x2 _% D; ~9 V' k$ f

% R& U" e% R. q1 i, S- a8 \% }' r! f) D7 ^* g% }' p" D
, P% l/ F" c( C

评分

1

查看全部评分

该用户从未签到

发表于 2014-9-9 04:35:29 | 显示全部楼层
感觉楼主暂时没有找到协作的知音~
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

小黑屋|手机版|Archiver|PDAWIKI |网站地图

GMT+8, 2024-4-28 03:16 , Processed in 0.037034 second(s), 9 queries , MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表