掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 871|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑 0 @+ P0 p; R7 x% k2 B/ |. J
    9 V& S! y/ E8 a; @
    9 p) m& ?6 p! H2 e3 ~" o$ L
    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    ; n* _- e7 V: P# A, W. ~; x4 i/ ]没有办法谁让你的词典那么具有代表性呢 + D8 t. e& v6 U- f& O8 S5 O  J* g

    % l1 v  q. C. p- p8 d) H% z! r大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    : u! s* ]8 I/ r* u; e
    ' ]3 h7 j& z2 _* N' G) U1.这个按照软件作者来说,是可以无限的合成词典
    4 W5 W/ R$ k4 b6 [% W4 g- M/ z2.这个方法适合大量的词典
    + d% C3 u" t8 k' W" C3.这个方法是mdx解压得到txt,对txt的合并
    ; @# T, K4 W5 Y- h6 w9 \: d! r4.存在问题& h3 D. l8 s7 w, I9 d
        1.适合小型的词典" ]- L) \" g% b) |) E9 n
        2.没有复杂的css. [; D0 \6 _0 o2 _6 b
        3.没有或者很少的js" h0 `8 h) D+ ]2 e. c; g" U0 O
        4.没有跳转: g  t" e  ?& P% o' `1 x4 c# G- y
        5.没有大量的图片+ E: A, U) r% [; ^: q  r& t9 U+ l
        6.没有语音的! w9 ?7 l. j" e0 u
    - A% C- {7 ?7 ~( [; ]9 q2 z
    * H/ u! X& j& F) f1 T% k
    5 E# _* C' ^4 J8 [8 w+ S
    一 需要软件
    3 M5 v% r, _2 X9 y1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    : J+ ?7 a5 U+ v: K6 [https://www.pdawiki.com/forum/thread-17709-1-1.html+ \3 T7 n7 u9 P- k
    2.[MDXBuilder] MdxBuilder 3.0 Beta28 K. V) @; g' M& I
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747$ I: s! V2 U* M+ }' B' G
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    / i6 _+ C7 J0 _2 v; thttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    1 c9 d- O0 P% c. K! Z' \- n9 x* G# Z5 Z" ~
    第一步( c. K& v* w: l
    使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式1 O/ ]  L) i! q: b2 }7 G* i3 J
    ! r4 n" Z0 ?8 K( l& A
    同理,对lang5++转换,得到( L+ M/ d, H' }/ A" Y) X

    : s' Q7 I0 M& h( g8 {( G) n( F; L' s# a
    第二步
    & t/ M" b8 j# M$ y( b* L1 f) V9 Z: s我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    , m- h1 J+ f( T! ~2 x9 Shttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747: Q2 v1 e8 |: q/ K; M

    0 d, q# r" |' b) N注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    8 M; K# C7 w5 r+ d/ p但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    9 W; ^! q- q2 D+ P/ `0 X# S3 v1 V
    : a+ q! m( o- a" A- O; T! j7 M  ]3 F2 {. }% W& p
    & F2 o( \1 P. M9 E% V' M
    得到这个6 Y/ j7 d/ {# W: S- R9 D
    . p4 L% O. E8 g2 `- r: c% h4 l; c

    7 U0 b! Z' A+ a1 V不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    1 k7 V+ k3 ?7 K: O, ?+ a  @/ n5 k5 V8 [0 m! x* L
    9 T: d  X, ]# ]8 ^, L# W# P
    让我们来看看效果图
    9 {$ y) s4 O" `( E1.部分排版出现错误,js跳转没有问题,* d( g2 j, N/ N& B
    2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    ; d9 E* `# x) ?: L  r2 K3.css可以修改
    * E; I7 f' C: Q9 w7 [

    , ~4 T+ [" _: D
    7 J, L  B( F( G0 u+ M0 K( x4 k% N  }
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    7 f0 r  j( s( j" @' W; F由于会出现加载问题,本词典必须放在第一位
    7 }9 N5 V! }* I8 U0 f

    / U  E1 q1 P! c! s2 k那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开
    . k" G$ o5 F, ^' x0 B
    * O8 Q9 L3 @# w( y$ `这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典1 C6 t% S% X1 Y5 ^/ z# K. }. X
    , f; U6 l' ?1 n* o& D: u
    需要的工具
    9 G# H8 n+ `6 [6 T1 S# O8 h' B4 \0 k+ N3 V' v0 Z
    1..emeditor64 百度
    ! F# Q# p6 h9 r7 z( M9 z' F2.MDict8 I0 }5 U. P$ }# K: g' p
    http://www.mdict.cn/wp/?lang=zh$ [1 d, s3 x' b" G  t
    3.Google浏览器7 ?: a9 j+ t, I4 Y+ g0 n
    5 Q6 |5 f0 v: S
    我们来通过牛津搭配和牛津同义词字典来看看
    ! j5 L! i2 v( M1 z" B" H0 k我们还是老方法得到两个合并在一起的txt,实现替换
    ( e# f1 f1 L% Q/ a& G5 d# L; |4 {4 ~" B& {

    ; D! ?. i% Z% L+ ~) q得到mdx
    0 C  z# J5 m# i: A- M- a* Q6 [* L) S" `4 r
    我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤  a8 }2 o! ~$ q% M" R: E
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    7 j% c6 y& |* ]& N% p7 J! h2.提取源
    # E- q- B7 [7 u  |4 Y3.使用Google打开  go.html
    + l+ ]4 P- H6 h5 ^0 p7 n4.使用MdxExport.exe打开mdd得到之前他们两个的css
    * W" D) x7 W' m9 P( \- _- l$ W7 W3 @; b
    我们查看测试文件牛津动词.mdx 排版一片混乱
    ; A; Z6 m1 a1 f0 r
    0 X- Q* ^5 O5 S+ q8 Z' [- ~0 S4 Q) p; t7 Z
    我们使用这个新的css导入看看是什么样/ d, E4 k3 _3 o% @3 Q7 O5 m( D* H

    & Y. }. X  W  m0 r0 R
    4 o; {9 Z8 V0 c5 |- m) _我们导入之前原有的css
    ( f; Y7 A6 Z6 b0 F
    ' Y. ^' o$ D& S) x8 _/ l: E) V6 t) @5 C" [
    修改新的css来删除标题字样% q  Q" y0 k4 b; D6 \0 @2 L3 a

    0 l- @6 }- u# s* C' E
    ; |+ P. ?+ i; u) [3 Y1 s3 Q( L& A5 o& R$ X8 W# I# N4 T
    我们开始合并,使用MdxBuilder
    & F4 e  F$ [+ Y. Q
    ( M* ~- P( I# Y/ ~8 G0 U& H
    + l% y6 M. |; [我们看看效果图
    6 X0 O: R% p& y! z
    . w. c8 O! `- \: M+ X/ V5 R
    5 {3 Y5 y% X0 V* f6 A大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~0 D  \" p) O% }2 ^+ S/ \
    ( O( K3 F9 T0 X$ }6 e2 y
    * I4 S* }6 G- Y! E, T9 g$ C
    2 M8 J! z5 x- y, a8 |  O

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……" U* i1 o! t- m0 c" d3 b
    我粗略的看了一下
    6 j4 s3 V( O, {* w( _似乎是比较简单粗暴的合并方式?/ m& s: f# a% B6 P
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    & t. t+ o9 Z$ N) f感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    & j3 o8 M, X: ^& Q& x/ s* h5 F1 H8 X
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:554 `% x) N4 G2 |. ~) L% z
    ....额 请问为什么要清空 out 文件呢?
    - I* J& f; {- X  b$ ]
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    - ^) g7 B7 _9 f  e& f# _那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    7 R% k; I4 D: z% r8 ~- w这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04' P$ X8 Q7 T. s% @- e, a4 K
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
    4 F4 i: E; i+ a* g4 ^
    我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:137 ^) }1 K; }4 [6 V% p6 t0 M
    我的也是,win7都不行,我有时间再试试看吧

    # G- Y9 K& a1 X嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:236 f; e5 k- ~$ O: L
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...
    4 E8 T( t- u7 c, Z3 e9 o4 k- w
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26' O6 F1 X& X) o  s3 [. r! P
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    8 F- A% N) E, `  T5 r' k( H  I; ?哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    8 @- ?1 D0 g$ ?0 o0 k先码再看……7 m* u3 ?) k% F# t+ h! |9 c
    我粗略的看了一下! O; B" O5 K- D5 s; V
    似乎是比较简单粗暴的合并方式?
    $ k/ @- R9 a. }
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    $ P& y: d* |7 n- K% W
    Bouroz 发表于 2018-6-16 18:24! b- L/ `8 Y4 y1 S
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    % n- l2 b7 u% q- F. X2 @9 u0 @$ k- N3 F- O, d4 k! \5 I
    我也没系统化学过编程……
    ' j. [/ N3 Y# a! J, W先用论坛给的解压工具把mdx解开+ j. m7 x, c5 A
    使用EmEditor找到一个最具特征的单词(entry)
    3 c4 G/ L4 k1 N! s% {; V( v提取出单词对应的那部分7 `1 F7 Z4 {+ o" `! u, P5 ~
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    ! Q2 _- v! l: s2 e  S5 W6 A只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    ; @7 \+ k, L  i, z& f% W然后使用notepad++的tidy2进行格式化排版( b5 j; U. E. Q9 s
    当然你也可以选择不用。; h! p. e* M9 ]; K+ m
    主要是用来观察这个词典的格式化排版。( f) J" I- ~  ^! y3 d1 Z
    词典的排版应该叫html的排版吧……
    ) j; N0 i4 ^% M找到规律以后! K$ H" q7 v' Q( x+ S/ T
    我是用Python使用正则表达式进行提取的* m) S. f' J  K
    比如论坛里比较著名的500万词的那个简明必应
    . J, N  |" k5 s9 V6 W7 Y% J他是把html展开了,一行一行的。
    & T; m1 N9 W8 u  b# ~但是其他词典的经常都是所有内容压缩在一行里了。
    # r: M6 v$ O; s" I  i! I提取的时候要找到标签内的关键词部分。3 t) N% g/ p0 a' K

    7 u2 U9 o. M: z( C其实吧……不知道你信不信1 Z& a3 L. b/ m+ r# M0 `
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了8 b1 Q  b( I9 s6 @8 R& H
    COCA BNC ANC之类的也都提了……
    % ?! f- n5 |* ~/ J. P+ x  Z但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq2 P! Z9 O" M; f) A! @

    , |: k' @1 p8 v3 ?我现在就是没时间把这些做成一个完整的查询系统! V" W' K3 w; \% L" c
    不过做好了一个词单的对比分析器。
    4 \" e) ~: ^/ [$ T8 c: _可以对比出两个词单之间的差距
      X! }2 p% Y9 e6 Q6 V$ ]6 }+ y" ^然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……+ k9 g+ H. m, Y9 y4 p8 h
    ( Y6 I3 u' q' b* ?5 x( A9 n
    至于教程……
    3 G4 h( V( r. j( E最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 " e" o- v7 H5 a$ R& G! @* U* P
    Bouroz 发表于 2018-6-16 18:24
    # p0 ^% b; {8 p+ ]提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    " E- I9 n$ q- a1 m& B0 x5 C% t

    ! C( p4 n/ F+ Y1 R/ h  Y0 J这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
    0 w, l6 P: j2 e的分享给你,7天有效期的链接
    6 n' N0 D3 g: T% g" b  j# b) [7 {: F

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    ( I5 N2 E$ \: p提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    - O! v4 M! B" N$ h/ [/ d+ |0 z7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。0 D9 F7 L! L! T  j- D
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu0 X% G  e; Q( o" B9 M7 b% Q
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:289 {" C9 D1 ?- S! u) }2 j6 X, o
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    5 ~7 v2 \" d3 F) V您做的JavaScript的排版应该也属于编程部分吧. U. z- O4 L! I) B
    而且也挺繁琐的。
    1 |( X7 `, l' l8 i( U4 v0 o5 u其实提取词典不比您那个麻烦多少。
    0 g: l4 r2 F0 k: u* A- c但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。7 o  T$ T) S6 c: e) ~+ M

    % @5 G+ ~3 ]) t! R4 I我看bt4baidu分享的抓取词典的开源代码部分。1 R: [2 r+ d. Y0 [
    好像就包含了如何抓取并且生成各种节点……
    . O2 Q" P! B) F/ F' A1 k( D5 _; D/ b9 E' W/ X1 W
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    $ h& `/ x% G2 M& P( ?% Y2 H  I甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    3 d% E# b- H* M5 S当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的$ j: W, z7 G6 @; H
    我还没完全写好整合  B) n) g: L/ f6 k- X8 O) y

    ) W" h& l+ I+ V7 E
    ; x5 b7 W9 a" ]2 H& w2 v- Y( g  m
    这个东西我就先不公布了,理由如上' }" j* o5 j) o1 k
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
    ! {! e( ?# D% e% k
    - D8 r, q0 E# B  J这里还得谢谢楼主提示了我用EmEditor这个软件
    # F5 ^: I, u- C不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    ! x, [  v, Q/ H含PoS(Part of Speech)词性版的, |& r6 x, }/ f2 [3 i
    我还没完全写好整合

    & ?) N7 ~1 C! ?非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2020-10-8 07:40
  • 签到天数: 160 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2021-1-19 04:08 , Processed in 0.058434 second(s), 18 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表