根据部首快速查字和如何制作基于部首的字典

wubis · 发表于 2014-9-8 23:37:56

本帖最后由 wubis 于 2014-9-8 23:37 编辑

比如索引一本古籍，几十个单人旁的字是相邻的词条，这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全？2.有些声称收纳汉字最多的字体，遇到古籍上面一些字还是无能为力，这时该怎么标记？

最全的汉字表莫过于unicode的cjk吧，可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。
然后中韩译文网有个unicode中日韩的表，我整理过约5%，95%字体按照同一部首排在一起，基本上按笔画排序，可是找出来14画里面有个12画的也够呛，特别是面对提手旁，三点水的，只能抽样检测，唉。

至于用汉典里面的部首检索，算了吧，应付古文力不从心，他比小狼毫的字库还要小一点，而且真的不能保证正确性（论坛有说）。小狼毫繁体字和简体字加起来也应付不了某些xx，小狼毫的字词官称来自android输入法啊，opencc，三拼等。比上面的那个中韩unicode表还要小一点。

求助：
1.除部首外能很快给汉字分类（重码率小）又能减轻分类者负担的办法（这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔（或三笔），重码率为10%左右，可是分类十分慢，而且眼睛也投降了。

2.如何合并两份字表，即AB表各有对方没有收录的汉字，怎样合并。
我想到两表各占excel一行，根据拼音排序（是不是只能按拼音排序），然后每隔50行抽检对比左右两行字。总共也才113xx多。

3.bing到sql等有些支持部首排序，可是sql语句不懂

4.中文分词词库，sphinx等那些对这个问题有用吗

静候高见

wubis · 发表于 2014-9-8 23:39:15

而且中韩unicode表，那个网站明确标明不允许转载

Oeasy · 发表于 2014-9-9 00:09:45

帖子里涉及到的问题，够写博士论文了。帖子有点乱，我是没太看懂。

不知道楼主知不知道拼音输入法里的U模式，
http://pinyin.sogou.com/help.php?list=3&q=8

U模式主要用来输入不会读（不知道拼音）的字等。在按下u键后，输入笔画拼音首字母或者组成部分拼音，即可得到您想要的字

我觉得部首查字法纯属多余。

1.除部首外能很快给汉字分类（重码率小）又能减轻分类者负担的办法（这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔（或三笔），重码率为10%左右，可是分类十分慢，而且眼睛也投降了。
A: 我看不懂问题。

2. 如何合并两份字表，即AB表各有对方没有收录的汉字，怎样合并。
A: 这个问题我也没太看懂。其实如果一个字占一行，那么直接可以用EditPlus的删除重复行功能（其它文本编辑器也可以实现类似的功能，如UltraEdit可以排序，排序过程中删除重复行）。Excel就更简单了，可以搜索“Excel 删除重复”。

3.bing到sql等有些支持部首排序，可是sql语句不懂
A: 不懂就赶紧学，哪来那么多废话

，这个年代，自学是生存发展之本，缺什么补什么。一天就可以入门了。

4.中文分词词库，sphinx等那些对这个问题有用吗
A: 没看懂。中文分词词库，免费的有不少，好的词库，值钱，值大钱。

chigre3 · 发表于 2014-9-9 04:35:29

感觉楼主暂时没有找到协作的知音~

		自动登录	找回密码
密码			免费注册

[求助] 根据部首快速查字和如何制作基于部首的字典

评分

[求助] 根据部首快速查字 和 如何制作基于部首的字典

评分

[求助] 根据部首快速查字和如何制作基于部首的字典