掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

123
返回列表 发新帖
楼主: tsiank

[工具] 汉语大词典光盘版3.0及提取工具

[复制链接]

该用户从未签到

 楼主| 发表于 2016-5-18 16:06:12 | 显示全部楼层
gnoweb 发表于 2016-5-17 23:03$ a9 e" ~7 O6 H" x( t
已修正。

, G7 G! Y) \7 e忙活了這麼久,終於把我的排版也搞定了,數據優化到了200多兆,和你的大小差不多了。光盤版的還有一個問題,就是一個義項下又有許多小項釋義時,比如“青”字,並沒有排版,看着有些亂,需要在這些地方自己排版一下。不過正則匹配肯定有照顧不周的地方。另外,字頭詞頭的小標號是有一定的注音提示意義的,所以建議還是保留爲好,並且可以做成直接跳轉到指定位置。比如“參見參3”,點擊後可以直接跳轉到“參3”這個字頭。字頭下的詞條列表可以設爲摺疊模式,需要時可以點擊查看,或者完全隱藏,不然太佔位置了。6 R) Y( f9 C9 v8 p+ {* P

' o: }' g. P' T1 u- L! Y1 x. Z7 ?% V7 s2 {3 X" K% U

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-5-18 16:08:12 | 显示全部楼层
本帖最后由 gnoweb 于 2016-5-18 16:11 编辑
+ u' P2 D* W+ K; a9 H- u
coolsummer 发表于 2016-5-18 15:35& w- Q; U* H* n) h' j+ E! ^
与WFG大讨论时,WFG大又指出一项差异,gnoweb大的撷取似乎还是漏失了一些讯息,见图:
9 X# i" V2 z% S

+ {; E* y$ c9 A# u7 [单独提出的词目里没有保留第一个字的编号信息。可以自行回退入第一个字目查阅。单字目下都保留了各自的词组链接。
' I4 v. T9 ]$ k. O6 U( V$ H& W% t6 S! d; G. P3 Z  y

该用户从未签到

 楼主| 发表于 2016-5-18 16:08:29 | 显示全部楼层
coolsummer 发表于 2016-5-18 15:35: `3 i# r* x0 N3 ?6 Z/ ^
与WFG大讨论时,WFG大又指出一项差异,gnoweb大的撷取似乎还是漏失了一些讯息,见图:
5 z% {/ A& L& g$ z
這個我知道,所以我都保留了,並且點擊時可以直接跳轉到相應位置。2 T7 }& s% p) f. x5 D  ]- t/ ^

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-5-18 16:13:39 | 显示全部楼层
tsiank 发表于 2016-5-18 16:06
% v  W. M# Z; u: ~. F% `忙活了這麼久,終於把我的排版也搞定了,數據優化到了200多兆,和你的大小差不多了。光盤版的還有一個問 ...
( H( S$ |$ r  S, J5 I' V8 T3 e& {5 J
好的。随后有时间可以优化一下。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-5-18 16:16:38 来自手机 | 显示全部楼层
    真漂亮!WFG是哪位大神呀?

    该用户从未签到

     楼主| 发表于 2016-5-18 16:30:16 | 显示全部楼层
    liuyunrushui 发表于 2016-5-18 16:16
    ; f: i* |: e, J9 L! [& n8 G真漂亮!WFG是哪位大神呀?

    3 {4 e+ S- ^8 f4 U7 Y: D對岸一位網友:。http://blog.xuite.net/fg_wang/twblog/106485207  需要fq.

    该用户从未签到

    发表于 2016-5-21 11:13:03 | 显示全部楼层
    光盘版3.0數據的問題, 供大家參考:) H; I4 L. Z8 _& e: A0 s$ ~: Q" c
    * F1 _% z  p5 t# I) e# ?7 x+ p
    1. http://blog.xuite.net/fg_wang/twblog/106485207 由 WFG 提到的 [爰] [胡然] [能始] [丑] [厂]4 Z. x5 t% T# ~/ w! O
    , [" s) J& m9 o9 S5 w7 n5 g
    2. http://www.guoxue.com/?p=4453 提到的 [夜叉] [老饕] [裳]   j. x3 q$ u7 `; |: E- j5 f& K8 L
    * Z+ A  _9 r8 E1 t
    3. ",," 有64處, 經與原書逐一確認, 全部都是 ","
    " o/ \& Z% W  a( m7 T    目前看到所有的文本版都有相同問題, 還有"。。" 29處待確認.
    : @7 O$ [4 J% P% J3 b+ u1 b) E6 e7 Z) z4 j7 `* {" e
    4. [喪]
    % n& D: k* k( x5 }”`《三國志·魏志·武帝紀》
    7 ~5 `5 h1 W+ _1 P% R=>
    3 y9 U) h3 B, V1 }”</LZ><LZ>《三國志·魏志·武帝紀》5 s# ?) c0 x5 Q# q( V9 [

    3 P" ?: ]  k. B$ G4 o5. [翟]4 i) \2 L1 p! ]3 t4 \- r
    這些孩子。”``. ?1 e" s: A& `- `3 z( X
    =>6 l, j: b5 W9 |: M
    這些孩子。”9 }! [4 i9 t8 q8 J' P7 J: p4 A

    3 W" k2 Q$ S- e6. [名貿實易]
    ! {, W: z  C& |; p5 W謂名稱相似,實質不同。貿,牟牟”,等齊。易,變易。《商君書·開塞》今世之所謂義者,立民之所好,而廢其所惡;此其所謂不義者,將立民之所惡,而廢其所樂也二者名貿實易,不可不察也也。”一貿“貿”義易”。謂名稱與內容應互換。
    ( C& B4 {, R- W9 x=>
    " g, d  r! v7 x5 U謂名稱相似,實質不同。貿,通“牟”,等齊。易,變易。<LZ>《商君書·開塞》:“今世之所謂義者,立民之所好,而廢其所惡;此其所謂不義者,將立民之所惡,而廢其所樂也。二者名貿實易,不可不察也。”一說“貿”義同“易”。謂名稱與內容應互換。</LZ>" u9 J8 b& L0 L! d3 v

    0 U; _+ D' {8 \: d' C  \7. [儉易]
    " {: L) r' P& I$ N  }5 J7 ]猶言吉凶好壞。《釋文》引<u>京房</u>注:‘險,惡也;易,善也。’”
    0 M! e+ Z; ^( _7 c" \+ @=>2 |) U% e  r8 \) @1 i
    猶言吉凶好壞。儉,通“險”。# v7 q9 a& m/ B- H3 Y1 A

    2 U! G" a6 d, q3 G& o% p2 x8. [只要功夫深,鐵杵磨成針]   類似問題還有幾個詞條, 需與原書校對修正: [德勝頭迴] [柰園] [科頭跣足] [捕取] [被錫] [鄂不] [鎛鋁] [鞠花] [黃污]9 u3 W$ I4 f0 S  g; o9 ^! h1 z
    鍼,針針”。功,亦作“工”。1 e! [' t; b4 _  \3 A1 R9 `8 p
    =>
    2 j% H# [' ?- F7 J5 x( n* S鍼,同“針”。功,亦作“工”。' V5 a0 z0 ^% R0 L& |/ ?
    1 F( o) C/ A6 d
    9. </XH><SY></SY> 有 1650 處,  難以逐一確認修復.
    % V3 A) _8 g7 p" X& e5 L0 w* B  [, T4 z3 c9 s. f* @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-5-21 11:50:21 | 显示全部楼层
    等2020年新版吧,或許相應電子版會解決字符不全,數據缺失的問題。

    该用户从未签到

    发表于 2016-5-21 12:00:03 | 显示全部楼层
    原先的电子版有一个功能(至少2.0有),就是模糊查询,不知道有没有什么办法可以移植% N. m2 S, c% S; a

    % u5 g9 x0 c$ C9 `4 X' I1 s" X也许是我mdict/goldendict 使用不熟,没发现怎么模糊查

    该用户从未签到

     楼主| 发表于 2016-5-21 15:00:35 | 显示全部楼层
    本帖最后由 tsiank 于 2016-5-21 15:10 编辑 1 O: M5 b; B" [6 E. I
    sky66 发表于 2016-5-21 11:138 n- `- I8 ^+ N8 L) v
    光盘版3.0數據的問題, 供大家參考:
    3 R, i, b' L  B% Q' d) Y4 t" y* n! i% k. ]1 b  n$ Y  a$ C5 g
    1. http://blog.xuite.net/fg_wang/twblog/106485207 由 WFG 提到的  ...

    4 }5 V9 j& z$ ]( y1 k
    ; D2 d4 r0 Z8 c9 m/ W( Q" ~嘿,對照着你說的這些,我都一一改正了。那個“。。”也全是多了一個句號。在查看“。。”的過程中,看到“長公主”這一條,釋義中“後代僅爲皇帝姊妹的封號。”後又重複了“亦省作“長2主”。《漢書·外戚傳上·孝景王皇后》:“長公主嫖有女,欲與太子爲妃,栗姬妒,而景帝諸美人皆因長公主見得貴幸,栗姬日怨怒,謝長主,不許。”這個例證中”的內容“。而例證的“亦省作“長2主”。長後少了個2。另一個版本也有這樣的錯誤,真是改不勝改。這讓我倒想起了這個詞典跟英語WBD詞典的情況倒很相似。+ ~5 C& }1 O* V3 p9 j$ r

    3 E6 U, M2 G* e8 t2 h那一千多個<SY></SY>的情況,大多都是因爲異體字的原因造成的吧,像疏,疎;梨,棃;牀,床。真不知道爲什麼繁體版的把原紙版詞頭中的“牀”等字换成了“床”。像这样的异体替换很多,造成我添加本词典词头页码时有将近四千个没法加入页码数据。相比之下,另一版本的大词典用字倒是忠于纸质版,可是排序真是混乱,也实在是搞不懂怎么造成的。真是怪,明明是从纸版来的,却没有一个版本正常的。
    & B1 H6 B9 b/ g3 s& }
    ! i$ z0 S3 A' D& C7 i2 V0 A/ O: \6 R8 l# v! |) l; C
    4 ?& a' C8 d- Q6 ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 15:13:34 | 显示全部楼层
    klwo2 发表于 2016-5-21 12:00
    " Y' |( N1 g4 b5 ]原先的电子版有一个功能(至少2.0有),就是模糊查询,不知道有没有什么办法可以移植
    0 r6 J1 Y* k) k- q) F/ U! H- F3 w/ B( B
    也许是我mdict/gol ...
    , @( G) D3 T5 W' r, k- q. b
    goldendict不也可以用*,?来匹配查找吗?

    点评

    还真是,我傻了……  发表于 2016-5-21 15:27

    该用户从未签到

     楼主| 发表于 2016-5-21 15:37:44 | 显示全部楼层
    最终的排版就是这样了,也是我觉得大词典理想的样子。尽管觉得部首unicode那些信息不必要,为了跟光盘版一致,还是加进去了。字关的页码可以点击跳转到图像版,词头也加入了页码信息和拼音。由于异体字的原因,有四千多个词跟图像版不一致,所以无法把图像版的页码vlookup过来。词头的拼音是利用字头的拼音生成的,所以第一个带下标的字的拼音与原字头是一致的,其他的多音字正确性就没法保证了。不知道为什么大词典把些的suo音放第一位,导致带些的词头注音都有误了。如果mdx词典格式能够实现随时编辑的功能就好了,这样查阅过程中发现错误随时改正,即查即改,不用那么麻烦再编辑源文件重新编绎。
    ! {, s; F6 H' k% {+ m! O
    . h; P5 q1 k' {8 Y2 I$ K( P, f5 I( a5 c5 A# ?* {
    ( F  C3 s. y& X+ ?2 L3 w

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 15:56:05 | 显示全部楼层
    gnoweb 发表于 2016-5-21 11:50
    * p! i2 C4 f5 T. U9 L等2020年新版吧,或許相應電子版會解決字符不全,數據缺失的問題。

    $ U4 _! b9 X! O7 ]6 i0 v! J  I: i之前不是说2015年出第一卷吗?都2016年中了,还没见影呢。2020年出齐,我看没准。

    该用户从未签到

    发表于 2016-5-21 17:44:31 | 显示全部楼层
    tsiank 发表于 2016-5-21 15:00, `4 ]  J$ a% B: ~0 R/ e
    嘿,對照着你說的這些,我都一一改正了。那個“。。”也全是多了一個句號。在查看“。。”的過程中,看 ...
    4 y& t# j' U: P
    從",," 和 “。。” 錯的地方都一樣來看, 目前各文本版的來源估計都是同一個, 到後來不知怎麼各改各的, 就亂了..
    / d' r& x; q% ]
    5 m# j. A* I; r; ~+ t  t另一版本用字雖然忠於紙質版, 但是順序不同, 原本以為是有什麼新的見解,  重要的釋義或例證放前面..1 U2 v* e4 a8 n& |2 [0 {7 W
    但是, 從"長公主"這一條來看, 例證的順序這麼排就是錯了.
    7 n2 Q1 Y  ?/ b/ Z因為《宋史·秦国大长公主传》的例證, 並沒有用到前面所提到的 亦省作“長主".
    / G- G; l7 ^6 c, X7 b7 I

    该用户从未签到

    发表于 2016-5-21 17:48:28 | 显示全部楼层
    tsiank 发表于 2016-5-21 15:56
    8 X8 w) q2 M! U* i之前不是说2015年出第一卷吗?都2016年中了,还没见影呢。2020年出齐,我看没准。

    3 b4 e$ H1 l$ e8 w% h9 A5 phttp://news.66wz.com/system/2016/05/20/104833730.shtml
    3 Q2 W7 b2 X( x) b/ C+ R+ t$ |6 @$ O
    陈增杰说,他目前负责第三册上半部分,初稿663页,计110万字,明年5月交稿。

    + F# [7 v& `" e! C4 j/ Z/ Q2 w1 @6 E* k7 I1 ]4 w+ D
    2017 5月, 第三冊上半部才交稿, 之後還要再做校對整理, 印出來可能都2018了." @2 Q; d/ Z: Z9 ]% w4 @3 `
    要出齊, 可能還真的要很久. 現在的版本繼續將就著用吧..

    该用户从未签到

     楼主| 发表于 2016-5-21 17:53:52 | 显示全部楼层
    sky66 发表于 2016-5-21 17:44( G7 \4 O+ ?7 j
    從",," 和 “。。” 錯的地方都一樣來看, 目前各文本版的來源估計都是同一個, 到後來不知怎麼各改各的, ...

    " A& q% V7 Y5 X: A9 s8 M根本就不是有什麼新的見解,好多例证近代的竟然都在唐宋之前,哪有这样放例证的。还是那句话,我是实在不明白怎么会乱成这样。

    该用户从未签到

     楼主| 发表于 2016-5-21 17:55:13 | 显示全部楼层
    sky66 发表于 2016-5-21 17:483 c; _- O# k% c
    http://news.66wz.com/system/2016/05/20/104833730.shtml

    ( T: L9 G5 U) a0 }估计至少还要10年时间,2025年能出齐就不错了。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-23 16:58:35 | 显示全部楼层
    我从WFG大那里又得知几处错误,在此加以补充:5 J2 p; Q2 S8 B/ _( c; z) S
    * F8 }, W# e$ O  [* p  [0 _" s
    1. [建窯] 宋代著名瓷窯。窯,(1)窯址原在 => 宋代著名瓷窯。窯,同「窑」。(1)窯址原在
    % O% U4 G1 G# @8 h3 U  x7 H2. [石經] 蔡邕用隸書寫成的「熹平石經」, => 蔡邕用隸書寫成的「熹平石經」,亦稱「一字石經」。
    % e" X; f& z4 q9 O1 i/ A3. [赤城] 在浙江省 天台縣北 => (1)在浙江省 天台縣北- f1 T9 C% a$ C4 M3 ^  t
    4. [九辯] 大义项 (2) 未断开,排版错乱
    + D/ ?  X/ K% v1 q' [5. [十三家] 大义项 (2)(3)(4) 未断开,排版错乱
    % i1 v# A+ c! j: P( \- @6. [十八變] 大义项 (2) 未断开,排版错乱
    + D+ S% K# g' X7 x8 H- R7. 一千六百余处,缺文、释证重复错置,例如:[一床][一線][一鉤][二疏][上果][二豎][三犁]......
    3 k! i; z* S. R另六十余处 "..."("."的数量不定) 为对纸本有删节之处: U- R9 s+ ^3 }/ ]
    ; m6 M; K' ?% n
    基于以上 3 - 6 项,若对小义项有做批次断行处理的大大,可能已造成"误杀忠良"的错排,请特别注意。- {1 C- e  Q& I5 [9 c- d0 d
    6 q( k" R) c. Y
    其实这光盘资料的错误,真是改不胜改,当初编辑者硬删资料以套入BIG5的编码之中,就已种下"祸根",再加上某些简体转繁体造成的错误,先天早已是不良。各位大致整理成自己喜欢的排版后,足堪使用就好,批次处理愈细、愈多,引起新问题的可能性恐怕就愈高。
    / V) q% V" @+ Q* G7 N' L

    该用户从未签到

     楼主| 发表于 2016-5-25 01:13:45 | 显示全部楼层
    coolsummer 发表于 2016-5-23 16:58$ x8 {# t+ }! L! ~( Y* D5 d
    我从WFG大那里又得知几处错误,在此加以补充:$ R! f( `+ z+ ]& z8 ^3 T5 C. {
    - P' L+ k2 x4 s6 \7 O6 }
    1. [建窯] 宋代著名瓷窯。窯,(1)窯址原在 => 宋代著名瓷 ...
    1 t, U* @# V0 s, a+ ^- O0 q2 Q5 i
    前兩天下載了漢語大詞典光盤版2.0忙活了幾天,提取了數據。2.0收有字頭27898個(去除重複後有20902個,也即收錄了全部GBK編碼範圍內的字,比3.0多收了六千多字,即使去除收錄的簡體字頭,也多了三四千字頭),詞條343307条。無論是收字還是收詞,都比3.0的要多。有“煊,堃,脉“等字。不過有些字頭詞條不見於紙版。2.0因爲是GBK系統的,比3.0少了很多因適應big5碼而刪除有關內容造成的錯誤,所以基本上沒有那一千六百多處的釋義錯漏,例證誤置。除了是簡體釋義以外,文本質量比3.0要高,說3.0是2.0的閹割版也不爲過。只是2.0的排版很糟糕,大釋義與例證都沒有分開。
    5 G* @- q0 v( g6 D7 ~% {- G
    7 }2 o0 i. z* B5 e& \) D
    5 Z# H  R7 ?6 [+ H9 \! e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-25 09:41:40 | 显示全部楼层
    sky66 发表于 2016-5-21 17:48
    & s5 d. B9 m5 o/ ^( |7 \: Z9 E" Y  e: [http://news.66wz.com/system/2016/05/20/104833730.shtml
    , s4 G5 [: r, _0 Q. ?1 W; _
    3.0對紙版上的釋義多有改動,今查“五奴”條,釋義中“但多與我錢,雖喫&#19284;子亦醉,不煩酒也。”此句引用的話2.0把“雖喫&#19284;子亦醉”用......代替了(自己已改正),而3.0把這句話直接翻譯成了白話,亂序版的倒是忠實於原文。應該是因爲“&#19284;”這個字gbk和big5碼都沒有收錄,所以做了不同的處理。不過3.0對2.0也補充了一些內容,比如還是“長公主”這條,3.0比2.0多了“亦省作“長主”,可惜又沒處理好。
    ! v* u# z) m8 B% f5 A% V
    1 s+ L; V0 @2 k: T& s- G+ N: G$ Q6 ?; k: p, e

    ( l3 k; U" J- L+ K8 c4 @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-25 10:49:19 | 显示全部楼层
    tsiank 发表于 2016-5-25 01:13
    ' H% `7 h- ]: \# z' T" x" L" A前兩天下載了漢語大詞典光盤版2.0忙活了幾天,提取了數據。2.0收有字頭27898個(去除重複後有20902個,也 ...

    ' ]2 `+ i/ }/ v- i% j看来汉语大词典光盘版2.0的数据还是有其价值,感谢tsiank大的分析,我也来试着提取看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-9 02:29 , Processed in 0.025653 second(s), 20 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表