掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2443|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    ) c5 h: ~7 ^0 W( b) S( v! ~8 \0 w- b. o. E8 k- v

    & b$ X& \/ p: ?# E0 q" C1 w! _额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    2 P0 d9 B! A: U! a' J6 f没有办法谁让你的词典那么具有代表性呢
    9 J4 i! G. W. O3 S: @) j
    " f# }5 ?; B- f: z. A6 L大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    - o2 d8 E5 D# i* Z+ u3 H# Z% @; M
    $ K: l2 E! {! E% v6 M% d: u1.这个按照软件作者来说,是可以无限的合成词典
    # X. y- B0 `- h3 z" m2.这个方法适合大量的词典7 [5 k) \4 ^8 O( O0 |/ ?" u
    3.这个方法是mdx解压得到txt,对txt的合并! z- t: E3 b4 z. a
    4.存在问题
    ' ]# x& U$ J7 X  I. }0 M7 O    1.适合小型的词典
    % n2 Z" l2 K% L$ }0 @# I    2.没有复杂的css
    ; g- \  d5 ]$ A9 `    3.没有或者很少的js$ Y3 f. V) c6 D+ H! S% C. ^
        4.没有跳转7 p: c8 h2 B8 M  N6 `% M' B
        5.没有大量的图片
    2 j/ {5 E% [5 O- f( |* L1 }3 P    6.没有语音的4 j4 I7 B% O* S; K; H  R* ~

      I7 t& u% l. q: O0 ~& G

    2 `1 q: @8 |$ [$ a: X+ C# L$ o- ~) c0 r' m: \, t
    一 需要软件; }- {" ]! }8 O2 ?& b) @
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    ' i" P  c8 ~4 \9 s. ?https://www.pdawiki.com/forum/thread-17709-1-1.html
    . l7 ^& _9 R% n; }' `2.[MDXBuilder] MdxBuilder 3.0 Beta2
    2 J" |* U: V. _) Vhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747& c# T, Q- D- X
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    6 K" l" C: ]" s2 O, j7 bhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747. @, b* V5 h5 s; g: o7 @4 i4 x! F

    : D6 l5 A5 \4 o2 _1 Z/ }! ^- o第一步3 x; c* E! q  ~6 g# F7 X
    使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式% V3 n9 ~& V$ t
    9 f, t4 G- G% A9 z
    同理,对lang5++转换,得到
    5 ^6 R" h3 ?% I; u8 D8 V# W# t, B: d
    3 [" \) j7 ~; C" G
    * A2 `2 q2 U. {" m% J第二步6 _6 M/ T& O5 X" O3 Z( g
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具4 W: R/ m6 {. C3 X
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    , w0 J3 e4 a' [, X# y% Q! Z' ~  m2 G
    注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    * \( ~1 h1 Z$ V! P& W; m+ e但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹! D% {; a" R+ `  X
    " S" S3 t  E1 T, a1 C( G
    & [9 f3 C; z  K3 M9 S' h

    * A  w5 J! c6 f得到这个
    2 p; f) Y" Z# _! H7 E1 g2 n/ ~: E

    % \- y& @; V1 `4 n6 h8 d/ L+ ?9 `不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    " L! V. C- d2 z" y. O4 ?; U( J- D7 n) T( I
    $ W. v( r7 r$ e4 E2 h
    让我们来看看效果图' n" b& E8 e! A5 M8 _7 W9 \
    1.部分排版出现错误,js跳转没有问题,
    8 a6 B: X7 }3 W" I# _2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    5 I9 p- a+ y# M, e6 \. y6 L* d3.css可以修改

    : c# V! a7 ?6 z! _  {3 i
    % ?! f+ E+ I; B" d& M* S" |; X" T
    ( J3 W( l+ J" G2 z: E
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    : m0 o( X2 k3 V- y/ M, S由于会出现加载问题,本词典必须放在第一位

    3 Q; O. t) T, U! L* }2 g
    + S* {. v% K3 [$ Q8 E3 k那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开7 l& c9 h  }- p: {8 R/ v2 i

    3 }7 }6 f; g8 J: F这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典$ `: u6 k+ J! J; r6 Q

    " ]5 g% o- m% S/ B9 q) E需要的工具7 |1 E& |( K# |; e

    ) F9 [, z  o0 `# ]8 l( W# ^1..emeditor64 百度7 N. n6 }' y, @3 j
    2.MDict; Y2 ~" T* o; M+ o
    http://www.mdict.cn/wp/?lang=zh/ L0 @+ F" i0 H) G
    3.Google浏览器
    ! S5 ^% c, m% l: ?4 y0 \- u+ f" G8 f& H( `
    我们来通过牛津搭配和牛津同义词字典来看看
    3 Q8 W' V* Z0 P( F" Q! t4 \我们还是老方法得到两个合并在一起的txt,实现替换
    6 w) L$ x. E( \1 W/ @; V' K3 g8 c* a' t
    * ~6 m+ s( x, q2 i5 {9 r% e; O" Y" O7 ]3 H" u
    得到mdx
    3 P! g+ Q, w, t3 t6 ~) N! N2 @0 V
    + q2 R' o1 l/ b7 J% F. W我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    : [( H& _3 G1 K. L2 G9 }( Y7 o1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    0 K$ `3 u! @4 ]8 h0 `' U2.提取源
    3 s' _! {2 Z" y2 `6 ^4 ~" o$ G3.使用Google打开  go.html
    5 ^5 J. s7 @& f( H+ D1 h5 j4.使用MdxExport.exe打开mdd得到之前他们两个的css
    : x" K2 x1 r0 x0 U0 }9 L/ \  S: Y! `- A& L. ^& L1 v
    我们查看测试文件牛津动词.mdx 排版一片混乱6 o& e! J. O8 n6 Y2 D

    3 }$ N3 O) R. ~% o8 N3 r: C* X* ~' a/ O' b: E  f
    我们使用这个新的css导入看看是什么样9 g) ~7 @: v* x8 R8 v5 J  F# o$ ^1 K

    ) S& p$ a5 p" P! _2 d# Q; X0 w+ P
    , E* q: c/ S/ P3 |, t" o我们导入之前原有的css
    / s1 H: {0 g, j: n& n6 F+ s7 X  m) P0 R4 Y8 B  j" X' q9 M8 \# r& j" a

      G/ K. ^, ~# d/ V+ S修改新的css来删除标题字样
    * `9 V8 w& U9 A) w/ h0 b. d
    ' X2 ~0 I! ]% l- b7 M8 G- [7 i- K( T4 _$ m; i6 w4 ~: X

    2 F: Q8 A5 v* ^8 G5 A: r我们开始合并,使用MdxBuilder8 k/ }. A2 D' Z; v$ c- A
    . D- `' {5 F1 p- L2 {9 x- B! ^
    3 @0 I# l5 }7 a9 H) j  p9 P, d
    我们看看效果图
    5 }& q) f* M2 ]1 |* j. r* I* V# D5 c( }" X1 h
    3 D8 q3 `& L/ x/ C' p
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~
    . s6 e0 f/ t$ s
    " j- {  ~: p; n- v# f
    - J" H1 z4 z2 x
    % k) `/ e* Q: K4 u+ W1 L

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……4 c/ n' R4 V/ r* d
    我粗略的看了一下
    , f# p+ _# J( K- z; \! D似乎是比较简单粗暴的合并方式?7 L9 J6 ^! M" _5 I- L; u9 j
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:578 H- {( r6 |) a2 ^9 k# ]
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    * {9 v2 ?2 k: T2 [$ k8 ~2 L
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    . }9 |) ~4 ]0 s3 G) B....额 请问为什么要清空 out 文件呢?

    , F) i3 S, p$ d/ y- e那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    " D1 s5 ^7 t9 O+ u那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    ) w/ z6 ?/ `. Y. N这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    * W* L! h. j3 u# V! J9 D" D8 k7 E& F! E这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
    7 ?" I% S0 y3 H& L/ u
    我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13
    0 ~/ m* U0 T0 ?4 ?; |我的也是,win7都不行,我有时间再试试看吧
    % p! e3 ~: }. o4 w7 ^1 T
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23
    , A/ N+ Y, m$ X% {嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    ) ~- u# ~, Z5 L: c& l/ R0 a那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:269 u3 I. I: f* Y5 h* b: d6 v
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    , t2 c9 Z9 P- C" l) I2 @4 \哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    4 D/ U/ B, g8 u1 u! `先码再看……
    ; K4 L3 v- x8 \- V我粗略的看了一下
    3 d7 H% r0 m, b# Z" |: I( l# X4 ^似乎是比较简单粗暴的合并方式?

    - R2 N5 S+ A! e' P9 B提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    0 n- Y6 j. I, `4 n. N
    Bouroz 发表于 2018-6-16 18:24
    8 r5 E+ s1 l# B1 I提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    2 S' \5 a: m$ E  w) a0 W2 J/ m) P  S' e; b
    我也没系统化学过编程……: y6 t3 N1 P) V! N8 J) |/ r  t
    先用论坛给的解压工具把mdx解开7 j+ O+ u: ?4 m* Y
    使用EmEditor找到一个最具特征的单词(entry)$ |8 B: E0 T, `3 l6 J4 B
    提取出单词对应的那部分' o) Z; u/ G! `3 B
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    " P! J, t9 Y0 |5 C0 g+ v( u只不过有时候为了单词的不同形式……比如单复数都能被搜索到。( C4 v# T1 t# Y: J
    然后使用notepad++的tidy2进行格式化排版
    . S  F& K% e0 A当然你也可以选择不用。' F& v' j/ l, a( ~9 c+ y
    主要是用来观察这个词典的格式化排版。
    1 l* Z, M, n8 F# m词典的排版应该叫html的排版吧……
    . n# ~! U; J2 U3 G找到规律以后
      v9 m! l' @" ^% h4 u3 ]  Q* P% `4 X我是用Python使用正则表达式进行提取的$ Y9 x2 {$ j! [' _4 S
    比如论坛里比较著名的500万词的那个简明必应
    0 t' P8 Y: v+ _& X, i/ E+ D. z他是把html展开了,一行一行的。
    ( K8 c9 ^: l" P$ P但是其他词典的经常都是所有内容压缩在一行里了。
    / d: P& q# F" v+ Y提取的时候要找到标签内的关键词部分。, X1 m* t- e) C+ Q7 x5 j

    / b) p' |/ p; d$ `其实吧……不知道你信不信7 l% a- q* e5 R2 X
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了' ^" }$ J% U% Z- N% T. @, y, Q
    COCA BNC ANC之类的也都提了……% \: k. [# S% H" V
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq) X" b2 l1 s5 S$ C2 W  N

    8 W( d; G  k' f* H; M" z% Z& n我现在就是没时间把这些做成一个完整的查询系统% d9 G; W  C7 I, M
    不过做好了一个词单的对比分析器。
    ; l6 j- [, Z- J5 v' e# x可以对比出两个词单之间的差距
    , y3 Q; r2 {8 u& O' E然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……: a6 O- c. |% f% R& [

    * M) [  u: z( \' m8 ~* f: \至于教程……: \0 a- j5 C) U7 o$ u5 z
    最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 1 Q2 p) j+ t$ g; O* [8 K
    Bouroz 发表于 2018-6-16 18:24
    4 r! i! Z! E7 M" U) ~/ g, [提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    $ V9 B2 U/ A/ D  S( r5 Q
    / R" z2 Q; G0 w
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
    7 G- O, p* R' B4 H0 Z的分享给你,7天有效期的链接1 y  f( F/ I4 R' t4 p6 n
    ! C" M( R: }% E/ m# _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:240 H. y, s+ D, {; v# D6 @! ?! [
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    + R  x  s. j) H: X% V$ j; f& ]
    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。' X4 V; j6 `: L! ?) c
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu$ L% r3 l, F& o  L2 J; K" ^# W) Y, e
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28: F: v* V$ ~; w0 y- {
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    * M, ]$ m* e5 t: a# `您做的JavaScript的排版应该也属于编程部分吧
    : u+ `5 S& R- |+ B5 l& `( p而且也挺繁琐的。7 V. q/ P! d2 R3 V# |
    其实提取词典不比您那个麻烦多少。
    $ e* a4 }. _' a' d但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。" u$ _/ _0 v! x

    ) Y: F! p; B7 K% l& N3 n5 ~我看bt4baidu分享的抓取词典的开源代码部分。& ?% R  R! U2 y- u
    好像就包含了如何抓取并且生成各种节点……$ v7 X, T- m6 ]: c  `4 U: i

    - C9 J# v) y* \* K2 K但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    2 j1 e* f6 Y$ V* o" K甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    : r: R4 C5 T+ R/ ]) _当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的2 h2 W! D7 k! R3 P
    我还没完全写好整合1 S/ N- C- t8 T' j1 ]& l7 D+ c
    + a, |3 K8 y- h7 X! i8 b
    1 x% r2 q  K' e. D. @

    0 C( l* c5 k: l: G, t这个东西我就先不公布了,理由如上2 v2 o0 v5 ~8 `
    就是先自己研究明白了,而且还不知道设计啥版权不呢……8 ~7 [! s" x; Z, w3 [

    3 g' M6 b" R2 ~6 v9 i$ L这里还得谢谢楼主提示了我用EmEditor这个软件1 n; X: d4 V/ k
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    3 p8 W: e, e( p) G) P3 r+ `7 Y# e含PoS(Part of Speech)词性版的& m6 ?& z4 \; B2 D6 d
    我还没完全写好整合

    1 I; v$ A* y2 X) c$ M( ]- J. B& k& l7 }/ {非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 11:51 , Processed in 0.085414 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表