|
本帖最后由 tsiank 于 2016-6-7 08:14 编辑 8 T! [* f' C8 X% \
1 g7 A7 ^( O4 [- k
近段时间一直在摆弄汉语大词典,因为网络上现在流传的各种大词典文本版有着诸如词条缺失,排版断行不妥,增补失当等问题,刚好又在网上发现了大词典3.0光盘提取工具,于是想着不如从源头重新制作一次。只是没想到这个工具是半成品,各种搞不定,于是发贴https://www.pdawiki.com/forum/fo ... CA%B5%E4&page=3
. ^9 A0 r6 N$ G9 }8 j) s' v希冀高人出手,后终于在gnoweb大神的帮助下搞定,使继EPWING之后,又一版本完整再现了光盘版3.0数据。其实说“又”也并不妥当,之前就有高人提取过,只是没注意到而已。0 |% d8 `" B, W( m. o& k L
! ]. u# W8 {( }
汉语大词典光盘繁体版3.0共收18,014 个(去除重复共13069个)汉字字頭,336,706条复詞。因为光盘版3.0采用的是BIG5编码字集,所以只能收录13069个字头,超出BIG5范围的字只能舍弃,这就造成了字头数,词条数以及例证都要比纸质版少得多。且因为是在简体版的基础上加工的,也出现了简繁一对多的错误。在删除BIG5范围外的字时,由于操作失当,产生了许多词条内容重复错乱的问题(参见此贴:http://blog.xuite.net/fg_wang/twblog/106485207)。比如“吻喇喇”,3.0第二、第三义项的释义及内容都是词条“唿喇喇”的,因为“唿”字并不在BIG5编码中,所以3.0并没有词条“唿喇喇”,不知为什么把这两个词条内容并一起了。再比如“五奴”条,因为释义中“䭔”字并不在BIG5码内,所以3.0的释义是直接把“雖喫䭔子亦醉,不煩酒也”这句翻译成了白话文。像这些问题改不胜改。
) u8 n7 I6 c7 R) v) O
$ S; n# J. Y8 M, d7 [! @" Y
8 M+ k5 J# s/ d9 ]9 H& f
4 D1 h- w3 V, U3 y" T) Q/ I
* g m' W; b" X5 R- R. O! A
- B4 Z+ M4 B5 e1 J6 I/ O依据光盘版3.0而制作的其他字典格式版本有DSL版、MDX版和EPWING版。DSL版和MDX版特点是查不到“堃,煊”等字词,因为不在BIG5范围内。也查不到“誕”字,可能是制作过程中词条丢失。只有EPWING版数据与光盘版一致。
1 B% w( m* v" A- D9 i0 ` u I* N' L0 G3 }" I4 i
- z; i% }$ |( w; D
汉语大词典光盘版2.0因为采用了GBK编码字集,所以收录字头27898个,去除重复去计20902个,刚好是GBK编码的全部汉字。复词343307条(提取后的词条数是343303,那4条不知道跑哪儿去了)。由于GBK编码比BIG5编码的字多了七千多个,所以字头数,词条数以及例证都要比3.0版的多,而且由于是简体原版,也就不存在简繁转换错误,也基本不存在词条内容错乱的问题(目前为止只发现了十个带“冤/寃”和“蠹/蠧”的词头有些内容重复错乱)。其文本质量相对3.0要好很多。此外,似乎还有另一个版本的光盘版2.0:http://www.guoxue.com/?p=4453 ,网上说其共收入18,013个字头,336,385条复词,比这个版本的2.0要少,是不是也是繁体版的原因?我没找到下载。这个光盘版2.0沒有提取工具,只能用笨方法去複製,而且几乎没有什么排版,所以提取数据后又在排版上花了很大的精力。2.0虽然比3.0文本好一些,可缺漏之处依然大量存在,一般缺失的都是“同某某词条”,“亦作某某词条”,这样的情况也是改不胜改。原光盘内含548幅图,可在正文有链接的只有513个,多亏了sky66的帮助,又找出了几十幅,而且在制作过程中改正了原光盘版的许多错误,根据字头的拼音给每个词头加上了拼音(当然由于多音字的问题不一定都准确,不过词头首音是可以保证的),根据图像版的页码数据给每个词头添加了页码信息。因为这些,mdx版比原光盘版是青出于蓝而胜于蓝了。' A9 z k; b3 \+ a
. [8 }1 D/ O* o; n, e
7 w f7 h2 v5 \% W0 q/ Z- g8 D
+ x* i r5 c4 t. k2 B; c% d* W; o; F" V/ v1 t J) J
* N, X7 {( w1 H. v& K) S
依据光盘版2.0而制作的其他字典格式版本有stardict版。stardict版有简体版和繁体版,其繁体版应是由简体版转化而来,参看此贴:https://www.pdawiki.com/forum/fo ... F%B4%F3%B4%CA%B5%E4- a, P. R* F# c* b( w$ j
此版词条数360000(依据goldendict词典信息),可以查到“誕,堃,煊”等字。不过转换过程中也丢失了一千多个词条(如查不到“軕,軕子”等字词),而且没有排版,专名号也没有加上去。另外由于简繁转换而造成了简繁一对多的错误。
/ T0 L+ j1 }' N9 P4 F
7 l8 w5 E2 i0 `* q0 W9 w7 F* E汉语大词典订补,原mdict数据來自於sxingbai,这个mdx应该是据网上流传的PD制作的,比较遗憾的是没有专名号。试了一下,从原PDF中也没法复制出专名号,只得作罢。此次主要是改动了一下排版,html标签与2.0和3.0的mdx一致,使得这三部mdx可以共用一个css文件。9 c" k* k4 e2 K* _# Y. p) m& h
9 H8 O8 P2 q3 P1 Z6 s) k
6 @. N5 b. \6 j8 p# a+ a7 i
+ ]0 q x3 d0 o. |3 S3 I: p: k' N' p
8 K& ^/ b9 l- z5 Z( ~( D9 Z/ p# e9 B( M& t5 W8 p" N( {5 A) n
汉语大词典图像版,已经发布了,就不用多说了。制作过程中,发现“坊”字条,“府良切”前面少了“《廣韻》”二字(各大电子版也都一样),这是在图像版(也即纸质版)中发现的第一个缺漏,而繁体纸质版已经修正了(感谢sky66提供纸质繁体版图片)。
) A! H9 S" y( }2 u6 f, P- _: |
" t" A5 k5 D: p, P# t- m ^; X3 a) Y
, S7 p4 }3 [* {% T" O$ }, Y |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
|