掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1170|回复: 3

[求助] 根据部首快速查字 和 如何制作基于部首的字典

[复制链接]

该用户从未签到

发表于 2014-9-8 23:37:56 | 显示全部楼层 |阅读模式
本帖最后由 wubis 于 2014-9-8 23:37 编辑
9 a$ G0 h9 D, O) S3 K7 i1 w- x( _" u  k. }: e' m
比如索引一本古籍,几十个单人旁的字是相邻的词条,这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全?2.有些声称收纳汉字最多的字体,遇到古籍上面一些字还是无能为力,这时该怎么标记?, `9 e9 p& @0 Q0 m2 z) T9 H) ~
1 S, [/ ^: ~- g/ A* w' Z( z
最全的汉字表莫过于unicode的cjk吧,可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。0 v  M4 u8 b$ w( c
然后中韩译文网有个unicode中日韩的表,我整理过约5%,95%字体按照同一部首排在一起,基本上按笔画排序,可是找出来14画里面有个12画的也够呛,特别是面对提手旁,三点水的,只能抽样检测,唉。9 d% A( l+ ]6 m/ |8 j* d& t
5 {& e2 a) h, G2 r5 M* L
至于用汉典里面的部首检索,算了吧,应付古文力不从心,他比小狼毫的字库还要小一点,而且真的不能保证正确性(论坛有说)。小狼毫繁体字和简体字加起来也应付不了某些xx,小狼毫的字词官称来自android输入法啊,opencc,三拼等。比上面的那个中韩unicode表还要小一点。
$ N0 D. I7 r+ g- `$ ]9 C# s  S
& H4 T+ F+ O' D4 U5 L0 k1 [/ {求助:7 ]' s2 j  _. ^4 e+ J" r
1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)2 O& s( V1 f. P8 s
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。
+ C& H6 _9 I9 D7 a
1 q+ |1 t1 j! y: |' ?
" s; x0 U. a4 j, o, v7 q5 X# I6 Z7 k8 J2.如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。
0 s& g' N: I" p4 Q" ^9 Q' r' y; N我想到两表各占excel一行,根据拼音排序(是不是只能按拼音排序),然后每隔50行抽检对比左右两行字。总共也才113xx多。6 Z: ^7 C6 [" \" o" [3 f5 ]3 c2 w; l

6 N/ V8 p' O% h  f. Q3.bing到sql等有些支持部首排序,可是sql语句不懂6 q1 P# _8 T! u$ t4 }, ~/ j2 d4 v* M% M

& k6 J# S: _2 e3 M8 b! z* k4.中文分词词库,sphinx等那些对这个问题有用吗
1 P- p( ^: e) O9 S9 `% s) Z) C  r! v; n, |. w7 g. E
静候高见

该用户从未签到

 楼主| 发表于 2014-9-8 23:39:15 | 显示全部楼层
而且中韩unicode表,那个网站明确标明不允许转载

该用户从未签到

发表于 2014-9-9 00:09:45 | 显示全部楼层
( C. v7 v5 E; k5 c7 G, }* c" g5 S

: u2 h8 }5 N, B+ @  w& T帖子里涉及到的问题,够写博士论文了。帖子有点乱,我是没太看懂。4 x$ ~3 R- }$ l: L; H

% `" L: U; F% a1 I9 N! U& w不知道楼主知不知道拼音输入法里的U模式,+ b' H8 m2 z9 H( r
http://pinyin.sogou.com/help.php?list=3&q=8 9 y7 E; _& O1 Y- w, E7 U5 \, }
U模式主要用来输入不会读(不知道拼音)的字等。在按下u键后,输入笔画拼音首字母或者组成部分拼音,即可得到您想要的字
3 `8 b6 O" M, C* n1 N) L- T
我觉得部首查字法纯属多余。
8 B# H" q" w+ d: u& L% e- X( R% T. L# O7 _* F% Z

$ U2 N7 E9 {3 v# j( Z1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
! f) _0 u$ b9 O& A( k7 w; h5 ~: P1 V! |我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。
+ w3 l; Z3 }  Y- }A: 我看不懂问题。
% T& t. F0 p3 a' U) t
$ }. R& ]/ L, s  @9 q* E" |2. 如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。7 X" t/ Q: J4 M* K- |2 l
A: 这个问题我也没太看懂。其实如果一个字占一行,那么直接可以用EditPlus的删除重复行功能(其它文本编辑器也可以实现类似的功能,如UltraEdit可以排序,排序过程中删除重复行)。Excel就更简单了,可以搜索“Excel 删除重复”。/ c% ?/ ~' h6 g- q' G/ b/ V

$ c$ z4 U( K3 R4 x/ T3.bing到sql等有些支持部首排序,可是sql语句不懂
  H8 E4 ^3 {6 V- U# e$ X/ d& o* @5 Y( NA: 不懂就赶紧学,哪来那么多废话 ,这个年代,自学是生存发展之本,缺什么补什么。一天就可以入门了。
4 U+ Q+ G3 Y2 v- r5 `- N
# U) {! p+ Y8 w3 p# f4.中文分词词库,sphinx等那些对这个问题有用吗
# w) ^, o# G; L+ P+ g- vA: 没看懂。中文分词词库,免费的有不少,好的词库,值钱,值大钱。, [% w  a+ A, N7 ^* _. `

# C% {0 V- ]  [- K' m6 z# g
- t5 d1 S, ^; H- s( W6 _1 d, j; D; ~! I- {2 A' r

评分

1

查看全部评分

该用户从未签到

发表于 2014-9-9 04:35:29 | 显示全部楼层
感觉楼主暂时没有找到协作的知音~
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

小黑屋|手机版|Archiver|PDAWIKI |网站地图

GMT+8, 2025-5-10 16:45 , Processed in 0.021893 second(s), 25 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表