掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2449|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    ' f6 e( \6 k3 U# b. c# v8 z1 K- e4 O2 W! A- g  M( a9 q

    % J; p5 G4 K# f' r1 ?. i2 I  P3 p' \额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    . c5 @5 i" f2 @3 D) M. _/ r" G没有办法谁让你的词典那么具有代表性呢
    2 Y, c: X/ N; a0 c
    + l4 l4 A# t& j1 q大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    % Y: b/ I5 W! T0 A0 y# Y+ F
    ' y7 C* W2 I6 j2 M+ X/ ]1.这个按照软件作者来说,是可以无限的合成词典, S. _+ V3 b( _
    2.这个方法适合大量的词典8 Z% o0 U  @: Z0 W
    3.这个方法是mdx解压得到txt,对txt的合并+ V- t  E1 s/ j( K' |: S
    4.存在问题( r# ^" E: ^2 Q- Y
        1.适合小型的词典
    5 @# a4 |7 M6 z- v8 G2 a3 f# m0 H    2.没有复杂的css
    1 U* o$ s' X1 z3 I, t    3.没有或者很少的js
    ) y. V9 H2 y/ V2 I    4.没有跳转
    ( `1 x8 H" u. d! o  }    5.没有大量的图片
    2 S& r' G( D6 B4 s! l' n7 }    6.没有语音的& ]+ i5 _8 v1 j6 c9 B! N

    $ ~+ h3 a+ `+ \& @- m- @

    & b9 w+ ^+ H& O! r* I( n6 L$ ]# `8 Z, _) I! S7 k3 K, N# d
    一 需要软件) x* D5 i) g6 Y  v! V- y
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    " e- k/ O. Z" L! w( Ahttps://www.pdawiki.com/forum/thread-17709-1-1.html
    $ |# g8 H6 I! D0 S( h1 V2.[MDXBuilder] MdxBuilder 3.0 Beta2/ C6 }1 k+ E. @! d& h" ]/ N
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    0 T  X  ]7 F/ ?9 p6 n3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    6 M! m% H- K) s! Q) a: S4 ~: _https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747/ F- J% h0 u4 Z9 a& E
    . N: d7 q1 ?( }3 J& G, b% A
    第一步
    4 w. ^7 Y% w, [) b- r使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式# w" ?5 {8 h3 @* F( p

    0 A: z# Q7 _" |同理,对lang5++转换,得到
    ; X; L: ?5 w6 G& ]0 C& }8 Q1 y8 T, \# c) D: X" j" z% }
    7 G6 {. ~4 c* A9 s/ B7 ]
    第二步+ J4 w- E3 L+ R6 Y/ J' \; S
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具# d+ \8 s4 }1 O8 w
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    5 |6 L# a4 o9 i$ F" Y$ r
    ! p% r2 d' x3 ]* H1 E! @* f注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    - L0 |* {# e) b1 m  h- X但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
      p: z7 c3 M& @; |' O! x. n5 j: {- p+ ~$ X. |

    + o3 ^' I5 L3 v* E% U$ J  O" I
    - j* z# k" R! M' n% q) m/ R得到这个
    ! I( a- u/ U" R- d3 {
    . `9 C  g, c0 ~. J. B
    , \0 U5 R, [- v0 K8 C不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    ! v: k( f& E5 V$ p' o! ^0 x( [/ U7 n2 e
    , M$ z7 f) i8 X
    让我们来看看效果图4 ^8 r# g5 z( {4 h  \4 i0 f  J. ?& P* _
    1.部分排版出现错误,js跳转没有问题,
    5 v/ x/ E  ]' }! a3 |6 h. _2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位% s1 b7 ?$ t! I
    3.css可以修改
    1 H1 p% b# V! q$ ~: [: m* H
    % y- U* ]8 i$ d; S+ Y3 y) _2 D

    ! Y3 v. h4 ~0 w# d8 v! M- O+ c' U: R- r0 Y
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转" r& Q7 v: {% U( ]% ~
    由于会出现加载问题,本词典必须放在第一位

    & T; }' N5 }0 M7 _* j1 x/ P; c6 O# m7 q+ X
    那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开
    ( @- x( `9 I- W& R' l. k
    ' @% M3 [) \9 r6 e这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典( R# k1 f2 i4 S
    6 B" D5 e# ^1 @" j$ L
    需要的工具
    % b1 Q' y( e" k4 w4 z- O
    5 `5 D* m" p2 Y, l8 H7 H1..emeditor64 百度# p0 o, t6 W/ l
    2.MDict
      ^6 S( K+ M3 f0 U1 G! M+ ohttp://www.mdict.cn/wp/?lang=zh
      k& r' a- D" L3.Google浏览器
    , b+ c" S8 ?: q( q, l( B& f( |& L' O
      `# k8 F) ]$ [3 D. ]1 k我们来通过牛津搭配和牛津同义词字典来看看
    4 k3 J& U8 u, p1 v( B我们还是老方法得到两个合并在一起的txt,实现替换: X& g4 n' n1 T% M

    - }- x; F2 d2 P5 [
    6 F' h; U0 ~  H, O得到mdx" a4 v+ s' f( v: J  V* Y

    ( ]; P3 Y+ J: `5 E& e' k( d% V我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    2 c: F( _; s; F1 B8 h! K1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    / o& d0 M3 F- i  ^% r$ s3 r2.提取源
    5 N# N: O4 d- ^9 G- f" y3 f3.使用Google打开  go.html( K! x( u% r9 g9 z! k0 o" e6 J& S4 Q) J
    4.使用MdxExport.exe打开mdd得到之前他们两个的css0 _8 @) t6 ]4 ?( o) r

    * q0 }. b  N- s' ?7 P* M$ E我们查看测试文件牛津动词.mdx 排版一片混乱1 ]* d& n/ j- N- T# U5 O  e
    " K# _) m4 W" k3 E3 {2 r$ o
    ' X  _: R5 w2 N  i
    我们使用这个新的css导入看看是什么样+ R$ c+ Q2 }8 f5 V+ J5 u* n# `
      U+ k) M+ u& p5 z# X

    % n9 A" ]& s5 k0 p我们导入之前原有的css/ Y4 U) Y2 j- N* ^4 v% J
    ! _: X9 e. U+ b3 T, ~* E

    2 }7 X9 J& P2 X3 z/ m修改新的css来删除标题字样9 {  T, x! y! J* H! g+ E0 I
    ) K( w. _, _' }2 ]  B; J0 P

    3 U- b0 U( J9 J4 A! G9 D& S: K/ `0 m9 I3 Q( X
    我们开始合并,使用MdxBuilder/ _- w% K$ Z, W
    0 n0 |' i2 q+ z2 ?/ E) A: L
    ( n( A  v* _& j6 k8 g) G
    我们看看效果图
    , n4 J& O7 K% y3 {: M% O/ n! ]/ X# c
    & S0 p0 e# [1 s
    # i3 ?1 Z$ T: R( g: S大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~% T; p& v5 n. u- ~* U2 J

    - Z3 e4 |7 ~) W* A2 t. _2 o6 B

      i( A4 a, @  Z$ ]

    + p. W- y( B  Z3 F) \  @! `9 F( W

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……% m3 k4 l& [3 T" W
    我粗略的看了一下1 {; {  N7 c6 ?8 ^3 o. a3 p
    似乎是比较简单粗暴的合并方式?, _- `  D" S$ B  S, p/ m: A! n
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    6 O& x" m$ H- R& j感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    9 H" H- K$ w! i, f3 e
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:556 [8 p/ _" @$ T, g
    ....额 请问为什么要清空 out 文件呢?

    " C8 B7 z& R! T7 u% _1 x那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    4 h* x; Z: T3 \* i" a; D那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...
    ! Y0 b; G, O% W2 F& W
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    * H) h' e  }1 l' F, [% C9 |- G这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    4 B1 s6 C/ D2 q2 ^7 n( ~我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13: u& a4 K& n1 S" U" t
    我的也是,win7都不行,我有时间再试试看吧
    " J: }) z: ]$ P" L
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23# X) c5 \% _5 k* Q" X
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    9 {% U. C" @5 ~5 J& s3 a. o那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26- D, t7 P) w' d
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    / I  d, ^7 R" o; R% B) a- r+ B/ w哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    4 y& ]$ B9 O$ [6 C1 ?先码再看……  S, j  G: O) d+ K# u  Z8 w- H
    我粗略的看了一下
    0 U# v/ c- v, O: ^6 A2 E+ p似乎是比较简单粗暴的合并方式?
    + i1 ?5 |; A- r. D0 N7 y9 f% F
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    % M  l2 f$ Q* Z! Q# T
    Bouroz 发表于 2018-6-16 18:24
    ) [0 ~, S+ t9 {! ^' n- Z提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    % b. g0 f( `- t) _
    + v8 \0 V# F6 g: s我也没系统化学过编程……$ h6 O+ @9 S' P; s% m7 M" c
    先用论坛给的解压工具把mdx解开
    % |2 t8 g) r9 [使用EmEditor找到一个最具特征的单词(entry)
    & u1 n8 {/ J2 h' L: i9 p' T6 j/ R( Y提取出单词对应的那部分
    * N% O* t1 K4 h2 X为啥叫entry,因为不同entry有时候指向的是同一个单词  w, {+ K9 ^1 K4 g
    只不过有时候为了单词的不同形式……比如单复数都能被搜索到。6 m$ F7 r; P+ W' E: }0 n2 I
    然后使用notepad++的tidy2进行格式化排版0 E! u6 ]( s: x+ H
    当然你也可以选择不用。
    6 t# x; k' f8 C主要是用来观察这个词典的格式化排版。3 e/ i- q% K3 X5 v8 z) Z
    词典的排版应该叫html的排版吧……, |) o2 N- o/ I- v1 I3 V
    找到规律以后7 _4 s' p+ c/ D( ?3 G" Y
    我是用Python使用正则表达式进行提取的
    ' L1 T* T3 t, M比如论坛里比较著名的500万词的那个简明必应
    ( B- b0 W9 h$ u3 L他是把html展开了,一行一行的。, r5 s2 T# [; x  @4 Q! x! O
    但是其他词典的经常都是所有内容压缩在一行里了。/ a8 G  v6 z5 l3 O' i# n( N' r( n2 [
    提取的时候要找到标签内的关键词部分。% y, t2 p; ]$ r4 G+ R

    * U' f1 C1 v2 N) M0 s9 r; y3 M其实吧……不知道你信不信- W4 m% u& W+ w8 [  M8 v$ x
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了: W2 b  e2 F3 D6 m( B
    COCA BNC ANC之类的也都提了……
    2 }8 Z6 d1 b$ a4 v5 u; c* a& x但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    ; P1 e+ c3 N: C& F9 P( H/ C
    2 g7 Q! L- \5 ?4 K. ^* ]我现在就是没时间把这些做成一个完整的查询系统
    3 H. c) y2 H$ a% W1 h" e不过做好了一个词单的对比分析器。# M+ Y2 F. M& t  U
    可以对比出两个词单之间的差距
    ( d; X  L, t9 v% z7 ?然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……
    & k9 }+ m. ~$ G. b% h
    ( Z% G: Y* u9 p; Z) A/ U1 F至于教程……' z% w  A! p' i' e
    最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 + o6 u/ \' G. t4 E# v% a6 ?
    Bouroz 发表于 2018-6-16 18:24
    , S% o9 g' L) k3 y- Y! j% U% H8 c提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    4 m& Z% _0 p8 x# K4 y& E" f8 ^  p9 E1 A# F' M
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild$ a) z# u: V. Q$ n
    的分享给你,7天有效期的链接
    / g& J2 E' o8 C7 U& R& _* G" _/ B* B" `& _, L2 v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    + X+ y* o2 I% A2 k3 X* g提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    $ A  X% p2 A8 U! O# {
    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。: H) S: t0 X. ~* t! a9 K
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    3 j7 S- I, y( Z但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
    8 z0 M3 x7 L3 z% p哈哈哈 我也不太懂 可能需要编程啥的 太高深了
    9 E. Y1 }# V6 m: O
    您做的JavaScript的排版应该也属于编程部分吧2 X% b! ?8 @1 X) N8 Y4 [2 ?
    而且也挺繁琐的。
    8 f: P8 j' s5 {0 c( l其实提取词典不比您那个麻烦多少。4 N/ y6 Y- Z: o7 A; [
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。
    ; H3 U: u- I3 E0 _7 g0 L" y) T
    ! o$ N* {- j8 P) ^. d3 W4 G2 i我看bt4baidu分享的抓取词典的开源代码部分。/ Z" \/ q, Q. R; F" G, P
    好像就包含了如何抓取并且生成各种节点……
    - q6 K' _/ N8 Z3 P2 b' N7 \) e  u8 ?: }. P! e3 {) K3 k
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
      i( j6 j3 }' V9 Y甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
      |& Z1 X" [; J& o( L当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的! y  T! H& ]+ I$ w% O
    我还没完全写好整合1 d0 j9 p, ?- z% G$ l" Y! Y$ K

    3 {" \2 K/ D9 d+ ?. m9 p, h! n1 s9 O+ Y! G/ W

    ; b1 I) h. J% ~; x( o# m+ {这个东西我就先不公布了,理由如上
    $ H4 X8 A) H/ R1 p+ W9 }就是先自己研究明白了,而且还不知道设计啥版权不呢……
    ( s4 v! l6 B& c
    ( C7 [# w, a' ]+ f* X8 z这里还得谢谢楼主提示了我用EmEditor这个软件
    * p2 w% z9 N* U不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    8 r2 B+ K. S# @$ c含PoS(Part of Speech)词性版的  A; K( i: E9 L3 i$ [1 Z
    我还没完全写好整合

    3 v5 z) ~+ M* }: X8 M非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 18:15 , Processed in 0.087691 second(s), 16 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表