掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: tsiank

[工具] 汉语大词典光盘版3.0及提取工具

[复制链接]

该用户从未签到

 楼主| 发表于 2016-5-13 11:40:31 | 显示全部楼层
gnoweb 发表于 2016-5-13 10:18" F. J: H1 [1 H! O( h
1、修改 makefile (参考图片,修改成自己的 python 相关路径)( Q, }5 \4 t, \# b7 Q% }( U5 e

9 s+ j2 K0 ?# \+ [$ a2、CMD 工作目录切换到代码所在目录,使 ...
# M' r  K  d  q) K
高手出现,膜拜!我说怎么运行不了,,原来还要再编译。我现在又回到笨办法用按键精灵了。要循环一万四千多次,估计要三时多个小时。这些我先记下来稍后研究。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-13 11:49:29 | 显示全部楼层
    tsiank 发表于 2016-5-13 11:32
    ; ]2 l4 ^8 \7 r& L9 V- J5 y$ ]还是自己先弄吧,自己做出来的字典可以自己做主,好的词典重复劳作的多了。我现在正用按键精灵处理呢,看 ...
    , p- y8 [* s4 q4 X* L: L
    WFG 大的法子避开了解码资料库,直接取得光盘画面呈现的 HTML,应该最不会有资料错漏的问题。祝 tsiank 大 --- 顺利成功!

    该用户从未签到

     楼主| 发表于 2016-5-13 12:18:29 来自手机 | 显示全部楼层
    wawxing 发表于 2016-5-13 07:58
    + ~6 O. j% _2 y- G$ L在虚拟机中按键精灵。就能做其他事情了。

    ; R: \5 ?" \' c5 V5 y3 C9 j电脑装不了虚拟机

    该用户从未签到

    发表于 2016-5-13 17:57:43 | 显示全部楼层
    gnoweb 直接给出了方法 可以试试!!

    该用户从未签到

    发表于 2016-5-13 18:08:16 | 显示全部楼层
    看了下blog 看来原始光盘数据问题也有很多啊

    该用户从未签到

    发表于 2016-5-13 18:17:55 来自手机 | 显示全部楼层
    看了下blog 提到了很多光盘原始数据的问题

    该用户从未签到

     楼主| 发表于 2016-5-14 01:11:21 | 显示全部楼层
    chigre3 发表于 2016-5-13 17:57$ u5 [( y9 z+ b, |+ G& k3 S
    gnoweb 直接给出了方法 可以试试!!
    5 X9 e0 ~* n9 H3 @) d
    編譯時出現underfined referience to的錯誤,查了下,不明所以,現在用按鍵精靈以保存了四千多個字頭,還有九千多個就完成了

    该用户从未签到

     楼主| 发表于 2016-5-14 01:12:51 | 显示全部楼层
    chigre3 发表于 2016-5-13 18:17& K/ L6 |) c, W# W9 B& w
    看了下blog 提到了很多光盘原始数据的问题

    . ^1 f1 v- e6 ?$ ^# H/ [總比現有的文字版好些吧。

    该用户从未签到

     楼主| 发表于 2016-5-15 21:01:43 | 显示全部楼层
    coolsummer 发表于 2016-5-13 11:491 g9 h' v5 K. f' V+ \9 q
    WFG 大的法子避开了解码资料库,直接取得光盘画面呈现的 HTML,应该最不会有资料错漏的问题。祝 tsiank  ...
    5 J2 g' w* A$ V2 Z& I
    初步完成,剩下的就是代码优化与排版的问题了。
    ) e  Y6 F3 I/ i4 s8 [

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-16 10:04:10 | 显示全部楼层
    tsiank 发表于 2016-5-15 21:01+ b$ z  {" S$ J# m  N
    初步完成,剩下的就是代码优化与排版的问题了。
    " s+ J4 X; r$ f. k6 D. K! g
    tsiank大效率真高,又一部好辞典即将完成,恭喜贺喜!

    该用户从未签到

    发表于 2016-5-16 17:43:08 | 显示全部楼层
    tsiank 发表于 2016-5-15 21:01- m  j; t5 c# E7 ?1 R
    初步完成,剩下的就是代码优化与排版的问题了。
    * L! B5 L4 C8 r6 }1 v
    这样也好 可以对照blog说的数据条目数量对比一下

    该用户从未签到

     楼主| 发表于 2016-5-16 18:06:23 | 显示全部楼层
    chigre3 发表于 2016-5-16 17:43
    ( ?8 `7 m" q) u# f0 G" n: Q这样也好 可以对照blog说的数据条目数量对比一下
    2 g2 R, H5 D( s" C: r
    18,014 個漢字字頭+336,706 條複詞,總共354720條,不多也不少。
      E! ?8 ~$ v9 A: o5 |8 O另外,光盤裏面的hd3dbs.mdb這個文件裏面就有所有的字頭和詞頭,網上的工具就能得到這數據庫的密碼。我就是用裏面的18,014 個字頭(扣除重複後共有13069個)用按鍵精靈循環13069次得到全部數據的。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-5-16 20:23:46 来自手机 | 显示全部楼层
    大大太牛了!一开始钻研就停不下来呀!

    该用户从未签到

    发表于 2016-5-17 16:07:14 | 显示全部楼层
    又测试了一下,以 tsiank 提供的代码为基础,略作修改,能够完整提取 18014 个字目:7 r8 h* G5 l+ ]' p7 p* l
    ; a: C: b+ @1 ~# o5 j  X, W5 n
    . ~( ?) `; y" f! M' ^
    2 x4 B. r; W7 r2 M% e( o* c
    合并重复字目,取出词目后,总计 349775 个繁体条目(13069 + 336706):+ ?' x" x; M9 U" p2 q
    % q% B0 d1 l' ?/ N

    # Q- y' }, t0 p7 ^( l# }9 p0 X* j7 }/ N+ D
    ! t) J) s" }( |( q# D# _

    ( q7 M3 |& o/ E3 ^: Q因此目前两种方法都是可行的。有意者可自行尝试这两种方法。
    ' y* c, j1 ~. ?  Y( `4 E. |6 @8 F# y: X( B; e- u
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-17 16:41:41 | 显示全部楼层
    将tsiank大、gnoweb大贴出的撷取画面与WFG大的部落格相比对,两位的撷取似乎都没有部首、笔画、页码等资讯,WFG大的撷取则有,截图供各位参考。
    + v7 g8 N7 P- m2 p: R+ j

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-5-17 17:05:01 | 显示全部楼层
    epwing的劣势就在于外字的处理以及色彩修饰,看到大大们的排版,赏心悦目!

    该用户从未签到

    发表于 2016-5-17 17:35:45 | 显示全部楼层
    换个字体 一下子就古朴典雅了

    该用户从未签到

    发表于 2016-5-17 23:03:32 | 显示全部楼层
    coolsummer 发表于 2016-5-17 16:41
    # o2 @% E- }9 g; y+ h# `将tsiank大、gnoweb大贴出的撷取画面与WFG大的部落格相比对,两位的撷取似乎都没有部首、笔画、页码等资讯 ...

    8 T2 v8 f  s) N5 }  B2 p, R  e0 y2 U7 l
    / ^  b, c1 o3 t" b7 k; i9 q
    已修正。

    该用户从未签到

     楼主| 发表于 2016-5-18 01:54:11 | 显示全部楼层
    gnoweb 发表于 2016-5-17 16:07
    1 \% ]% V4 W1 n$ K又测试了一下,以 tsiank 提供的代码为基础,略作修改,能够完整提取 18014 个字目:
    7 e9 u+ s) F/ v0 d
    你这个才100多兆,我用按键精灵弄下来的文本都500多兆了。而且按键精灵提取的,有一百零几个词条竟然没有释义。这是原光盘版按字查询时的bug,按词查询却没问题,真是怪了。看了一下你的版本,用工具提取的也没这个问题。
    5 G) c+ z0 G* o' a1 S! Z$ L. i' o1 z* H7 a3 n( O$ M( a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-18 01:56:25 | 显示全部楼层
    coolsummer 发表于 2016-5-17 16:41
    3 C2 i1 X: z& H+ |3 _2 r将tsiank大、gnoweb大贴出的撷取画面与WFG大的部落格相比对,两位的撷取似乎都没有部首、笔画、页码等资讯 ...
    " X. w9 i# s% ]8 l  r- N
    部首笔画这些没有必要。页码只有字头有,词头并没有。把词条页码整合进去才好。

    该用户从未签到

     楼主| 发表于 2016-5-18 01:57:48 | 显示全部楼层
    liuyunrushui 发表于 2016-5-17 17:058 j3 f7 S0 e6 o4 ^$ X7 F  f, M% o
    epwing的劣势就在于外字的处理以及色彩修饰,看到大大们的排版,赏心悦目!

    " T3 D: P1 {0 \' B' ]  vEPWING的我下载安装加载词典后看到那种界面排版就不想用了。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-18 11:05:43 | 显示全部楼层
    tsiank 发表于 2016-5-18 01:54/ [' n: J* S# [& \1 v( P1 `
    你这个才100多兆,我用按键精灵弄下来的文本都500多兆了。而且按键精灵提取的,有一百零几个词条竟然没有 ...
    # M. G: v7 ?- i; z
    经我向WFG大求证,确实有此问题,必须手动再修补。所以目前看来,似乎还是gnoweb大修改后的撷取法较优,一次到位,没有遗漏。

    该用户从未签到

    发表于 2016-5-18 12:06:09 | 显示全部楼层
    部首笔画页码编码纯文本数据
    3 a& ~* w* B. ]$ i9 F
    " C2 V+ }. N( m6 S
    / ?% s, W: j+ X! |, ?
    5 e5 b4 B: [  ^. r7 K字;总笔画;部首;首外笔画;非标准部首;非标准部首外笔画;Unicode16bit;GBK;BIG5;卷及页面! N$ H$ z% d) G- m$ n6 \
    ' k  Z7 j2 d/ I2 P! ]
    这个总笔画与剩余笔画数据,不太准确,比如“還”这个字,光盘给的是总18画,首外14画。
    ; [. S, |+ F# k& s( X' ]% D+ E2 Q; ~$ H5 X& V
    可以使用 CSS 隐藏掉不需要的信息块。或者隐藏掉整个 INFO 块。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-18 15:35:57 | 显示全部楼层
    与WFG大讨论时,WFG大又指出一项差异,gnoweb大的撷取似乎还是漏失了一些讯息,见图:  r6 p- ]+ P1 Y  D
    ; v2 z1 ~5 n7 W8 ?  }5 P

    ' C  ?1 u0 O( U. D6 c( `# B
      q+ V6 m8 h4 h2 f' D6 f+ E% t上图是WFG版的 "于" 字(为省篇幅,略经删减),中图是WFG版的 "于咨" 一词,下图为gnoweb版的 "于咨" 一词,红圈处就是差异所在。这些编号标示了该字于此复词中的读音如何,算是一项重要的资讯。例如在此例中,"于咨" 的 "于" 字,应该读 xū 而不读 yú。以上资讯提供给各位参考。
    ( {' T. }; c, u/ q; e& Y9 i" U

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2016-5-18 15:45:05 | 显示全部楼层
    另再补充,若将复词的相同词头亦做合并,据WFG大的统计,单字数目:13069、复词数目:333625、词条总数:346694。提供给各位检核。/ Y5 T2 P1 n. _$ [+ i5 d* ^1 `$ I
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 03:22 , Processed in 0.020767 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表