掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 10567|回复: 34

[词典讨论] 汉语大词典一家子mdx版欣赏

[复制链接]

该用户从未签到

发表于 2016-6-6 22:16:26 | 显示全部楼层 |阅读模式
本帖最后由 tsiank 于 2016-6-7 08:14 编辑 7 i4 }% v9 ?! V3 X, N& L
& e6 ~, k+ z& K& C
近段时间一直在摆弄汉语大词典,因为网络上现在流传的各种大词典文本版有着诸如词条缺失,排版断行不妥,增补失当等问题,刚好又在网上发现了大词典3.0光盘提取工具,于是想着不如从源头重新制作一次。只是没想到这个工具是半成品,各种搞不定,于是发贴https://www.pdawiki.com/forum/fo ... CA%B5%E4&page=3' p8 @9 W/ s9 n
希冀高人出手,后终于在gnoweb大神的帮助下搞定,使继EPWING之后,又一版本完整再现了光盘版3.0数据。其实说“又”也并不妥当,之前就有高人提取过,只是没注意到而已。
1 X+ p9 s4 O7 J/ e5 Y* K* o5 i( w# D" N' q) s
汉语大词典光盘繁体版3.0共收18,014 个(去除重复共13069个)汉字字頭,336,706条复詞。因为光盘版3.0采用的是BIG5编码字集,所以只能收录13069个字头,超出BIG5范围的字只能舍弃,这就造成了字头数,词条数以及例证都要比纸质版少得多。且因为是在简体版的基础上加工的,也出现了简繁一对多的错误。在删除BIG5范围外的字时,由于操作失当,产生了许多词条内容重复错乱的问题(参见此贴:http://blog.xuite.net/fg_wang/twblog/106485207)。比如“吻喇喇”,3.0第二、第三义项的释义及内容都是词条“唿喇喇”的,因为“唿”字并不在BIG5编码中,所以3.0并没有词条“唿喇喇”,不知为什么把这两个词条内容并一起了。再比如“五奴”条,因为释义中“䭔”字并不在BIG5码内,所以3.0的释义是直接把“雖喫䭔子亦醉,不煩酒也”这句翻译成了白话文。像这些问题改不胜改。
8 X) c- F! N; X* W$ J; K: O5 C$ a6 T/ f6 [, L7 v3 w* u& K
* [* o6 }# S: c# w
6 j& ?, V: f7 x1 j+ \; j% D! L2 o9 e' S

1 V/ `8 e0 p+ S/ t! o( R0 w$ y( V% ?0 G. m9 A" z: J1 `
依据光盘版3.0而制作的其他字典格式版本有DSL版、MDX版和EPWING版。DSL版和MDX版特点是查不到“堃,煊”等字词,因为不在BIG5范围内。也查不到“誕”字,可能是制作过程中词条丢失。只有EPWING版数据与光盘版一致。
0 `3 T& v+ Y  m9 c% r; ~
& J% h- s! w3 w7 j8 k( H/ k/ \/ e+ s' o+ R7 [; \5 h
汉语大词典光盘版2.0因为采用了GBK编码字集,所以收录字头27898个,去除重复去计20902个,刚好是GBK编码的全部汉字。复词343307条(提取后的词条数是343303,那4条不知道跑哪儿去了)。由于GBK编码比BIG5编码的字多了七千多个,所以字头数,词条数以及例证都要比3.0版的多,而且由于是简体原版,也就不存在简繁转换错误,也基本不存在词条内容错乱的问题(目前为止只发现了十个带“冤/寃”和“蠹/蠧”的词头有些内容重复错乱)。其文本质量相对3.0要好很多。此外,似乎还有另一个版本的光盘版2.0:http://www.guoxue.com/?p=4453 ,网上说其共收入18,013个字头,336,385条复词,比这个版本的2.0要少,是不是也是繁体版的原因?我没找到下载。这个光盘版2.0沒有提取工具,只能用笨方法去複製,而且几乎没有什么排版,所以提取数据后又在排版上花了很大的精力。2.0虽然比3.0文本好一些,可缺漏之处依然大量存在,一般缺失的都是“同某某词条”,“亦作某某词条”,这样的情况也是改不胜改。原光盘内含548幅图,可在正文有链接的只有513个,多亏了sky66的帮助,又找出了几十幅,而且在制作过程中改正了原光盘版的许多错误,根据字头的拼音给每个词头加上了拼音(当然由于多音字的问题不一定都准确,不过词头首音是可以保证的),根据图像版的页码数据给每个词头添加了页码信息。因为这些,mdx版比原光盘版是青出于蓝而胜于蓝了。; N6 z: M+ z/ s0 ?8 K# P* S
! ^/ ^0 i" N$ [! d/ u- I( _. X- B
: U, U/ I1 d" w2 g8 l

, }" m! g3 g! G; F' T$ c/ w7 B1 v
% p6 |( ^- t; C+ {" C# F( T& `$ ]2 n2 Z/ J$ t
依据光盘版2.0而制作的其他字典格式版本有stardict版。stardict版有简体版和繁体版,其繁体版应是由简体版转化而来,参看此贴:https://www.pdawiki.com/forum/fo ... F%B4%F3%B4%CA%B5%E4/ r  H4 ]# D5 `; y
此版词条数360000(依据goldendict词典信息),可以查到“誕,堃,煊”等字。不过转换过程中也丢失了一千多个词条(如查不到“軕,軕子”等字词),而且没有排版,专名号也没有加上去。另外由于简繁转换而造成了简繁一对多的错误。2 h, c  u1 }- }* Q2 D* {$ b
% \4 l& U" y( k6 z
汉语大词典订补,原mdict数据來自於sxingbai,这个mdx应该是据网上流传的PD制作的,比较遗憾的是没有专名号。试了一下,从原PDF中也没法复制出专名号,只得作罢。此次主要是改动了一下排版,html标签与2.0和3.0的mdx一致,使得这三部mdx可以共用一个css文件。$ O: @$ k7 g3 x2 I; u

2 {% c; Q9 W/ a7 H% z$ ~+ m
+ _) z; O# b# f( q7 T0 _* l
* q) x8 q0 B9 ]! Q% R. i  p3 w4 V' L) M) x
9 B2 B/ o' o$ d* J2 k' x
汉语大词典图像版,已经发布了,就不用多说了。制作过程中,发现“坊”字条,“府良切”前面少了“《廣韻》”二字(各大电子版也都一样),这是在图像版(也即纸质版)中发现的第一个缺漏,而繁体纸质版已经修正了(感谢sky66提供纸质繁体版图片)。
7 p/ R4 c) D$ X" I8 i# N5 D8 p# M) C5 _( k

5 C+ u9 O) Q# ]% m: s3 N

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情
    开心
    2019-1-18 23:55
  • 签到天数: 230 天

    [LV.7]常住居民III

    发表于 2019-2-13 01:02:14 | 显示全部楼层
    2.0里还是有些瑕疵。如秦、汉等词条的分义项给划到例证里去了,大约40处没有简繁区别的。汉的释义序号也有问题,不知是哪的问题。圣 的例证错位,不知有多少处(似乎是源数据的错误,早前版本也有)。9 [3 Y. t  T7 _0 P( I( N( _4 v, F& s
    非瑕疵但有些疑惑的,释义序号编排也与纸质版有异,不清楚是不是电子化时重新处理过。
  • TA的每日心情
    擦汗
    2019-3-22 09:51
  • 签到天数: 80 天

    [LV.6]常住居民II

    发表于 2018-1-29 22:20:19 | 显示全部楼层
    链接没有啊

    该用户从未签到

    发表于 2017-9-12 16:59:42 | 显示全部楼层
    不知楼主的大词典2.0 3.0 在哪里能下到,谢谢!
  • TA的每日心情
    开心
    2021-2-28 15:47
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2016-6-6 23:10:54 | 显示全部楼层
    不知为什么图一直在转圈,都看不到啊

    该用户从未签到

    发表于 2016-6-7 02:39:06 | 显示全部楼层
    的确是看不到图,一直在转圈,不知啥原因

    该用户从未签到

     楼主| 发表于 2016-6-7 08:15:16 | 显示全部楼层
    warbri 发表于 2016-6-7 02:39
    / F' \& d8 d, x/ n/ ^/ u* @2 W4 ]的确是看不到图,一直在转圈,不知啥原因

    ) g3 @* C# a4 {7 c昨晚還好好的,今天也是打不開,又重新弄了一下,只是展示全圖了。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-6-7 10:35:22 | 显示全部楼层
    tsiank大真是汉语辞典的专家,这应该是目前为止最好的系列资料版本了,敬佩。
  • TA的每日心情
    开心
    2023-2-6 01:16
  • 签到天数: 568 天

    [LV.9]以坛为家II

    发表于 2016-6-7 10:39:41 | 显示全部楼层
    资讯丰富!信息量好大~~, |5 n! z8 h# |; v: ?
    , m+ g. Y+ W2 n
    论坛藏龙卧虎,高手交流,看得我眼花缭乱,呵呵~~

    该用户从未签到

    发表于 2016-6-7 11:12:48 | 显示全部楼层
    真是辛苦!这词典下一次大折腾,估计得等新版了
    $ T+ @4 ~* S, S! D, _2 Y3 {. p3 N

    该用户从未签到

     楼主| 发表于 2016-6-7 13:10:31 | 显示全部楼层
    klwo2 发表于 2016-6-7 11:12
    1 ]% K% f+ G+ C# q: `真是辛苦!这词典下一次大折腾,估计得等新版了
    6 l1 l! w  [7 ]
    之所以折騰,是因爲現在的版本沒有一個是完整無誤的。目前就這樣了,起碼還能用個五六年。

    该用户从未签到

    发表于 2016-6-7 18:35:08 | 显示全部楼层
    这版本确实漂亮,重点还是贵在"完整无误"

    该用户从未签到

    发表于 2016-6-10 20:54:23 | 显示全部楼层
    我去年对《汉语大词典》的几个文本做过认真比对,所以我相信我目前使用的应该没有遗漏。

    该用户从未签到

    发表于 2016-6-10 21:10:19 | 显示全部楼层
    本帖最后由 sky66 于 2016-6-10 21:24 编辑
    . N& p! |* O/ S8 W- ~
    sxingbai 发表于 2016-6-10 20:54. u: B( J+ d1 ^* t0 z% o3 D
    我去年对《汉语大词典》的几个文本做过认真比对,所以我相信我目前使用的应该没有遗漏。
    ( R2 Q& `" z' [9 X& m6 p* P0 Z

    6 \3 N7 o1 }8 D- S& t請問您使用的《汉语大词典》文本版可否查到  "𡥃(子女)" 、 "㡭" 、 "𤫩(王靈)" 等字? 複合字詞條可否查到 "䑏疏"

    该用户从未签到

     楼主| 发表于 2016-6-10 21:34:32 | 显示全部楼层
    本帖最后由 tsiank 于 2016-6-10 21:36 编辑
    " T, E0 n' W  E
    sxingbai 发表于 2016-6-10 20:54! J8 r+ w# d( Q( m" i
    我去年对《汉语大词典》的几个文本做过认真比对,所以我相信我目前使用的应该没有遗漏。
    ' ?9 N% X+ J1 s  T. `

    ( L2 |  I# |& A0 d+ E, p目前的文本都是有遺漏的,莫非還有另外的文本?可否貼個圖欣賞一下?

    该用户从未签到

    发表于 2016-6-11 19:44:05 | 显示全部楼层
    sky66 发表于 2016-6-10 21:10
    / W$ t; \  X2 {+ a) g請問您使用的《汉语大词典》文本版可否查到  "𡥃(子女)" 、 "㡭" 、 "𤫩(王靈)"  ...
    + g% }! F- ~; q( ?
    汗,你说的没有,是来自其它文本版,还是来自印刷版?

    该用户从未签到

     楼主| 发表于 2016-6-11 21:06:32 | 显示全部楼层
    sxingbai 发表于 2016-6-11 19:44. z+ g/ B# p' ?; b
    汗,你说的没有,是来自其它文本版,还是来自印刷版?

    ; M! W# c3 x, {除了 "䑏疏"以外,你的版本应该也不会有“㓖冹”,“䲦鳥”吧? . T  \  V6 {' `% Y
      _5 o3 `, V7 K, L4 J/ T
    : r; r, o. Q, N  `

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-6-11 21:20:39 | 显示全部楼层
    tsiank 发表于 2016-6-11 21:06
    1 Z/ s( F1 k; s3 q0 x) i除了 "䑏疏"以外,你的版本应该也不会有“㓖冹”,“䲦鳥”吧?
    # M8 i- h! p; P# L9 F' o
    嗯,再汗

    该用户从未签到

     楼主| 发表于 2016-6-11 21:31:06 | 显示全部楼层
    sxingbai 发表于 2016-6-11 21:20
    - j8 w+ S, |- m6 Y- i$ C+ I嗯,再汗
    $ |2 w& |( G" v7 I& Q0 O
    哈哈,我开玩笑的。其实这几个词都是在寻找图片对应的词条过程中,手工添加进去的。

    该用户从未签到

    发表于 2016-6-11 22:48:12 | 显示全部楼层
    sxingbai 发表于 2016-6-11 19:44# i/ @5 M9 p) c. K; y, J1 J
    汗,你说的没有,是来自其它文本版,还是来自印刷版?
    9 T# y/ o+ T2 K- B3 \
    目前還有不少字、詞是只有圖像版才有, 除非手工添加.
    % V, ?0 k# F- `" g1 f8 c真希望有完整的文本版..

    该用户从未签到

     楼主| 发表于 2016-6-11 23:03:01 | 显示全部楼层
    本帖最后由 tsiank 于 2016-6-11 23:04 编辑
    2 \1 i6 z+ D+ b$ y" i: J" b
    sky66 发表于 2016-6-11 22:487 W& W5 s7 P9 x" S. E! v# D
    目前還有不少字、詞是只有圖像版才有, 除非手工添加., _9 P& E: Q2 t4 @! C' |; t
    真希望有完整的文本版..
    * X1 W( p, i/ {4 e# x5 Y
    , S+ L" Q- `; j+ a
    如果能组织起来三四十个人(此论坛加上国学数典论坛),每个人负责一万个词条,利用一年的时间,慢慢地在2.0的基础上先把与图像版缺失的字、词条补上,那就可以有个相对完整的文本版了。只是这个在09年到12年那几年或许还是可能组织起来的(那时候的热度比较高),现在一点儿可能都没有了。

    该用户从未签到

    发表于 2016-6-19 20:33:14 | 显示全部楼层
    楼主辛苦,谢谢分享
  • TA的每日心情
    开心
    2020-3-10 04:46
  • 签到天数: 62 天

    [LV.6]常住居民II

    发表于 2017-7-15 23:39:43 来自手机 | 显示全部楼层
    不错,下载下来看看,过去用的是国学版

    该用户从未签到

    发表于 2017-7-31 23:48:04 | 显示全部楼层
    绝对正能量,好东西
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-28 17:39 , Processed in 0.049945 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表