掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2454|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑 9 B# m# H3 {) t' @+ Q5 B
    8 Z! J8 s1 E) B' `! h: l
    0 u9 H% {  R; G- U4 c$ {
    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    4 k8 y3 k' e; i2 Y! z没有办法谁让你的词典那么具有代表性呢
    7 M# t# i7 @& k% ]1 G7 u5 e! ?0 X9 g& V/ D
    大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。% c) F: N7 [3 L0 h1 e, U/ l* Z  D

    4 J  f8 U3 Z7 H! N& g% L" x1.这个按照软件作者来说,是可以无限的合成词典
    & ?+ O% X1 Z: m# [" N3 V2.这个方法适合大量的词典
    - @0 w5 Y7 p, Y) v/ I3.这个方法是mdx解压得到txt,对txt的合并
    % {0 @5 |4 _. ?4.存在问题
    . O" b" f: u2 R    1.适合小型的词典
    4 T2 `3 i' F: s! q# Q    2.没有复杂的css
    0 E) \* k4 D, R$ e" R    3.没有或者很少的js) d# W: g7 a! G6 E
        4.没有跳转
    ! H3 `# W7 {* U3 r" o3 L    5.没有大量的图片0 m; ?2 j1 t! T1 F1 |
        6.没有语音的3 g- c4 F2 a& O/ c, U
    9 J; ~8 d  K" J  p* o  g1 D9 w
    5 i+ E2 Y4 v6 _0 U" D1 j; p

    " E# s$ [0 `; r一 需要软件
    1 v0 \9 i4 g0 k7 ~1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    7 z& U* {9 h0 Phttps://www.pdawiki.com/forum/thread-17709-1-1.html4 q0 u! s  m) }
    2.[MDXBuilder] MdxBuilder 3.0 Beta2
    ) I1 Y. R/ h9 c  [! \# K3 fhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    4 ]. x9 w4 w1 s3 j# ~( B6 U3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    ! g* O0 ?% k& j% w  K' ^" Uhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    + C% K  _. u4 T' t: H4 F; T9 T2 J5 A2 Y* u1 T, K, f
    第一步
    2 M1 C9 q- q/ q# G1 H" ~& k* v使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式
    $ Y3 `8 ~. l: j0 ~
    2 ?0 v3 X3 ~" d1 k, P- e! D同理,对lang5++转换,得到- ^) p* q! ]% J

    $ ^; f9 X( R, ^0 A( J6 D3 O& X' y& |" P$ m( q# x" r1 q
    第二步
    / j9 _$ ?3 v0 A6 W0 ^我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    $ C$ z: v1 c9 \https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37476 E4 o8 o+ N4 e4 S

    # q2 Y: J0 _1 s注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    , h2 u5 j# C. U- P3 b% b) f, m3 a但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹+ @, J: T" ^4 E/ g* J/ e9 y

    * @/ N, j% L+ D% e0 R; T: [" N; o, V. R% D
    1 {) X# q+ W# ~: G7 {
    得到这个
    6 e" @1 Y: @5 c1 P6 G0 s
    # f  y  t2 P$ [! W# v, r7 a5 M1 f9 `
    不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    & r3 |7 u  p% d* E4 R. Q. O, |9 ?9 ~+ _# n/ C

    : g% I% d/ c8 @3 N让我们来看看效果图) J7 p, l- i0 _9 \
    1.部分排版出现错误,js跳转没有问题,
    % T8 s; ~* Y8 K1 g2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    0 R, {. P5 s" j1 Q3 i3.css可以修改
    ; q# `! l0 l* S  l2 G( v. j
    * S1 g% X" @# h* H

    / d* G. J: U$ x8 k+ ?- Y. s. _8 h& s+ \
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转: k, G* H' y" P. U" F! ]
    由于会出现加载问题,本词典必须放在第一位
    ! `5 W3 m; G$ i& C9 {

    ; I+ m6 u; Y+ W0 Z9 h/ Y那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开
    ; J; ^! Q4 V* b) ^6 R$ G; o" p
    + Y  d/ E  X& _这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    8 [8 B) s  g1 L, V' s9 d9 t1 Q, k# d+ [
    需要的工具
    9 e  z' P. a1 F) A. X
    . T- b" {$ s# r8 h( Y0 ^$ u1..emeditor64 百度0 R$ h- \* `0 t6 P1 L
    2.MDict
    & q; J+ `% c7 x; A) `4 V- x$ Y! qhttp://www.mdict.cn/wp/?lang=zh+ o) d; d: ?' T* _' M* n# V3 S% ^9 M
    3.Google浏览器5 g- S; k/ o+ q/ D3 W

    ' w+ s" |5 t2 b2 W我们来通过牛津搭配和牛津同义词字典来看看+ o- `8 O' B: x; p" r1 D* l! {1 R
    我们还是老方法得到两个合并在一起的txt,实现替换
    3 k3 U2 l, O$ p+ m
    8 u! M' e+ X4 G( T
    9 X: \, X2 H) @. [) |得到mdx0 _- M7 t% t! i0 q5 `! j, j3 Z: ?
    % U0 S* f* l0 c9 j1 H9 `
    我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    # P, s: x0 N  p: V& {1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    - x3 t. s* f$ }+ Y; ^1 ^/ z* X2 c! L  l2.提取源
    6 U1 n- F8 V+ n8 k; n! `' @3.使用Google打开  go.html
    , |* j! x4 G* w' |% G4.使用MdxExport.exe打开mdd得到之前他们两个的css
    * ^$ g2 |$ i3 V% V. ]
    % O8 c. s8 h5 W- J) J我们查看测试文件牛津动词.mdx 排版一片混乱3 M$ }$ R# O# J+ o( b5 s+ m
    7 _* T6 y  c9 m2 |7 `6 K) V

    / t2 C/ T7 G" ?9 \% O3 g我们使用这个新的css导入看看是什么样
    % j/ ], X, U1 A! e: {# q; f6 a8 C
    4 V2 A( P8 r9 ]  F
    $ M0 `% e, I) T$ ]( }我们导入之前原有的css
    ' U' ]6 {# P" G% o# c* T' W4 ]' c  G7 A4 m1 F

    # \& F, |6 ~8 C9 K* u修改新的css来删除标题字样
    ( R/ S7 h+ y* R- u8 \* ]9 _' |! Q; h" p
    $ U, i0 E9 D+ z4 G( Z* v

    , B/ R- [  H3 n9 ?+ _# f我们开始合并,使用MdxBuilder& {. |  w8 \& U5 E/ g! G: u( L  M
    $ n) E6 T; x3 \8 {# u5 J2 l: U# ]

    4 {1 [7 f' r- ?+ {# h8 F7 F我们看看效果图
    ; Q  j3 W& V+ |: N/ K% k0 v7 B& w' M' u! D3 u1 A  T" A. Q
      N4 |$ K& t5 O6 v4 W
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~
    % k5 p1 I! @/ l$ X  Q! Z$ n/ J# w% p& o+ P! Q% |

    & R3 G0 o* q+ f8 S& X9 q' y/ y0 a
    4 F. P" z; A5 I& T5 z, p

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……% z0 Q% z7 i# W0 M& Q+ M
    我粗略的看了一下
    4 k/ M5 Y, r, J8 W1 q- A似乎是比较简单粗暴的合并方式?
    3 R6 j5 Y. H$ r. P1 S我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    + j* j8 o, j5 v& |: x4 t感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

    & k; I' f& {9 \; ?: R2 z....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:552 z9 [, M) |; ^5 X
    ....额 请问为什么要清空 out 文件呢?

    5 W; @$ f/ n/ G那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02; K5 w* l) N3 x/ Y
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    # L5 X% {7 b' r这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    - K8 R' |, [+ c% s这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    8 S7 ?$ Q- s" g我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13" G$ ^/ Q6 S/ G
    我的也是,win7都不行,我有时间再试试看吧

    ( j& p8 @; T3 R5 O7 V) [嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:236 i; a: E' e5 r2 g' r% b' j# e4 X
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...
    8 J6 w4 C. q8 w% g. q7 a
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:262 }) j5 l. S' Y5 P4 ^
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    1 S1 V; T# _% C, A4 \哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    * C$ `. R( x. Z1 z* B2 e9 W. }6 ~先码再看……
    % S' `5 v* v! Q( {! P9 F我粗略的看了一下
    " k" t5 q8 M! r/ q5 N0 N$ M/ t似乎是比较简单粗暴的合并方式?
    ( j' m2 ]  s  F3 v
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    ) I# G, B0 I- b9 k( {, q
    Bouroz 发表于 2018-6-16 18:249 i; L# T2 L. {/ r
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    * J) O- a7 o1 m# _$ P4 A) E
    - S% N2 @  Y' f! a: t  `* n我也没系统化学过编程……
    % k  g& [( L& `. U先用论坛给的解压工具把mdx解开
    4 z  `7 S" x3 ~3 G. j3 u, z使用EmEditor找到一个最具特征的单词(entry)6 j9 m3 |0 d8 S$ ]
    提取出单词对应的那部分) ^* A& j$ Q" O& q! F& }
    为啥叫entry,因为不同entry有时候指向的是同一个单词
      H6 _5 Y0 X2 j. [只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    + Q; g+ _: L& h; H然后使用notepad++的tidy2进行格式化排版* l& [1 G% V% \5 T
    当然你也可以选择不用。
    9 A4 }  ^$ |/ c/ I$ F' o  d( z! e主要是用来观察这个词典的格式化排版。
    . |$ D/ [  X& m词典的排版应该叫html的排版吧……: k7 p9 m( C1 R) f- G5 A
    找到规律以后( k! {% U" \! v4 T' B: L
    我是用Python使用正则表达式进行提取的0 C, X  G3 D/ }
    比如论坛里比较著名的500万词的那个简明必应3 G/ g  a1 e) w; Y# J, \4 h
    他是把html展开了,一行一行的。
    1 t9 U7 S' i% x( p但是其他词典的经常都是所有内容压缩在一行里了。
    % t7 e. g! m4 c7 @提取的时候要找到标签内的关键词部分。
    ! c' z' y0 t( A1 Y- r6 p9 P' E3 T/ A9 d
    其实吧……不知道你信不信) p# r% ~; W% F0 `2 |2 S1 |0 g' Z
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    0 L: q) V5 y- n% k; ]COCA BNC ANC之类的也都提了……1 n; f8 J3 _& v) K9 J
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    ( M5 `& p" i) y3 c/ s, v/ W
    ; B. d# g$ e/ o: [- }. T, y5 f我现在就是没时间把这些做成一个完整的查询系统9 k/ I7 {' \8 J! D. Z, C$ G
    不过做好了一个词单的对比分析器。  l/ Q  m% H. q* K6 {% m
    可以对比出两个词单之间的差距
    & f) Y7 y. }: F- y( _+ y. u6 z然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……
    4 b0 C: s) P1 L; O  u7 M7 q: B! y9 X6 ]
    至于教程……
    % w% v) N; L# I9 e* L5 [5 e最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 ) o) R3 ^( V) f' j
    Bouroz 发表于 2018-6-16 18:24
    9 F; f$ m) r8 n# \0 j提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    ( F/ ~% r$ \# {9 P- x/ J2 |7 s$ v: R% L* O+ o. e" S6 w; ?9 M" c  [
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
    8 D& ?! w1 I0 G- s# j& }5 G的分享给你,7天有效期的链接. i0 Q* L' {1 p

    + B2 ^; U8 M1 s9 E. @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    * U3 @* @) d  e/ O# S5 L' P0 r提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    + t) p$ @  E" }# p3 F7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。
    8 C4 e% _7 W# L/ s- T3 l链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    2 N) ^, r5 N. P* P7 O但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
    % f. F* {% `% [! v6 Y哈哈哈 我也不太懂 可能需要编程啥的 太高深了
    # U. `9 m+ j3 A" [, x' q& E
    您做的JavaScript的排版应该也属于编程部分吧, ^; j. r6 U' A4 Z& @. w
    而且也挺繁琐的。! p. w$ C: m$ p
    其实提取词典不比您那个麻烦多少。# a4 D( T4 t( t4 _2 z
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。
    ; B1 d0 g0 z/ Y9 V# |2 f
    ' @$ e2 p9 H! B9 h% l( _我看bt4baidu分享的抓取词典的开源代码部分。
    7 _# ^* e+ R$ @$ L  o# ?2 i0 L* N好像就包含了如何抓取并且生成各种节点……
    8 g+ [, @' P% p7 M6 p$ s! x4 u+ S% V+ \: ], a
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    ' s& ^$ V7 v0 E" g7 E2 q甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。9 E$ v, e+ C0 r5 T) I
    当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的
    ) {& `3 t, [! o  H8 w$ Q我还没完全写好整合7 e0 X3 x! O2 p0 [: ]$ l4 f5 A

    # Y, @' h* B* W% {' z, i0 h& K) o! R3 l6 c2 l# p+ G

    4 \# Q9 i; _+ l! ^2 k这个东西我就先不公布了,理由如上8 S) C/ i$ B( J# T
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
    2 z( C' a: b3 R& D0 w: E3 `# H" [( Q, }7 a# h& w" [/ S
    这里还得谢谢楼主提示了我用EmEditor这个软件+ [8 X$ F& m6 i9 A
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    4 l$ J! g; G. b- c! n' d含PoS(Part of Speech)词性版的
    0 P) I& B& t& [$ u$ r# O我还没完全写好整合
    6 v* b( F% R# k8 d
    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 04:50 , Processed in 0.053400 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表