掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2447|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    ( _* v6 a" I! J% s# j8 a8 E! e& ]/ i3 t) t7 {+ k) @! G/ A

    / M" x( \; y4 M  U额...希望ff大 不要怪我。每一次都是用你的词典来举例子。/ A7 p; Y) b- g& l# `9 x
    没有办法谁让你的词典那么具有代表性呢 $ @5 z* [6 z) l; E

    ! e) }9 H; f" l% W% G大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。1 B( C) E& h! I$ G; Q. z0 i( z

    8 V! ^+ D6 L! W7 z1.这个按照软件作者来说,是可以无限的合成词典
    % N- B3 Q/ x- l$ n' G; f8 G2 m2.这个方法适合大量的词典3 w2 u/ ^1 r% g& L9 V% ?1 ]. s
    3.这个方法是mdx解压得到txt,对txt的合并
    + p3 D8 I0 L% P4.存在问题
    $ M5 w% a9 n2 V$ |  @$ @    1.适合小型的词典
    ' S$ L# ^; ]% S$ H* b    2.没有复杂的css
    + I+ }+ C% e8 d/ Q5 U    3.没有或者很少的js. c1 T* ?9 D. I% E/ H
        4.没有跳转) w* i) p# ]5 H. O% R: q
        5.没有大量的图片
    , X/ W. Z% j7 h2 n& U  r, ~    6.没有语音的
    9 q* g" _! X8 e+ N9 I7 T
    " p& ?) `% q8 h

    1 i1 ~# z! C. {2 i7 m
    $ p4 |# E& {/ H1 F7 y/ |$ Y一 需要软件* Q; F+ N9 q* G$ q
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    , r$ b0 N/ A6 j" Yhttps://www.pdawiki.com/forum/thread-17709-1-1.html7 L) j, C) d- h5 S4 V' y3 Y+ l
    2.[MDXBuilder] MdxBuilder 3.0 Beta2
    " F, ~* r, u6 {1 D( r' t$ {4 Q* k1 w: Jhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    & I1 ]6 U* w. U# r5 D3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具+ U1 x% F/ b# X( G9 i3 }! t
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    3 C" y- `  U3 N) [7 I$ U5 o1 k- C, H% b- k
    第一步7 ?: W( g/ a, r) Q; Q
    使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式
    - X- Z4 B( ?* P% X) D. S" L) t7 Q% z$ L. j5 N3 }6 h+ _7 i4 R3 h
    同理,对lang5++转换,得到
    " X, P' k7 x8 ]9 _) Y1 c, u9 I9 Y% [- V( @3 c8 [7 N% u

    9 |0 H  M* o/ `$ z第二步
    , y" t1 c9 o, s; Z我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具# f- C4 o) ^3 Q
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37471 l3 t" P/ Z* C) g, m- f

    " ~) @* t. }2 e0 N注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    : A) W2 k$ c+ j0 h; \7 w但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹; u* ~' W) q0 x4 ]7 L/ C; b3 L1 p6 W9 }

    , p  h- I" e$ Y0 S7 U5 b6 _: u
    3 O" s% G" C0 F& S& D: G: I! d: p( @
    得到这个) t4 T) A& ]: x* ?1 X

    0 z# @- c2 h5 R! y. t2 N' w. ?3 P3 x2 _$ F# ~7 R
    不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹9 H: l+ U/ X$ [( @/ T2 k9 w

    ! @5 J! I) d' o. i: M/ @: y! R! n& Y/ o2 Z3 B: Y
    让我们来看看效果图
    ) `9 w& H4 M0 [5 R$ [. i4 G7 M- T6 W1.部分排版出现错误,js跳转没有问题,
    ' \9 [1 C+ S5 O% d2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位7 y* n" h. r  i9 Z7 {1 ]9 O2 e
    3.css可以修改

    0 i2 H3 h4 }2 r8 J" z% G# p$ }+ x* m8 B+ B
    3 o( g  ?$ l) R) {, f9 t+ [+ r' f, L
    : L3 L' V' {' [+ A& u1 c* s
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    8 H# h7 w% N) y9 Z) n) ^9 D5 v由于会出现加载问题,本词典必须放在第一位
    5 r, r: y3 t+ Y% w. U
    3 K! j2 m7 @, y8 ^
    那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开( d# t% u8 U, F- V
    % _: a8 m$ A, u' G  Z* a; t
    这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典) T/ a* f* T. D: C* O$ c
    ; `3 b  B. w9 M% i+ h
    需要的工具
    8 K5 I6 `- s% T2 w! `. z0 k2 o& K$ N) U0 I) f! Z6 a, @
    1..emeditor64 百度
    3 v1 j8 g/ U* @3 c4 [' w% K2.MDict- D+ g3 Y5 j; G
    http://www.mdict.cn/wp/?lang=zh5 h4 \, C; u8 E3 {+ p' [
    3.Google浏览器
    9 k! o% \9 q1 |+ A( x% L# H4 L) G
    我们来通过牛津搭配和牛津同义词字典来看看
    7 t. o( r1 A$ c7 R, v9 C+ B6 a我们还是老方法得到两个合并在一起的txt,实现替换
      f3 |, T+ g( }# r# B% V$ ^2 N9 L' T* t3 ?# D3 a% ^
    9 `) H" i7 ^5 f6 q
    得到mdx
    * G% c8 V4 u" G
    ; ^0 r0 w0 J. k. W' o( r" h我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤/ x! Z* s/ _% S4 N& \( n
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx; j( E+ n; w% k5 Z
    2.提取源1 z/ R- q( M" Y; Q9 ]
    3.使用Google打开  go.html4 D/ D9 ^' {, D1 J, O
    4.使用MdxExport.exe打开mdd得到之前他们两个的css# R& U' |/ Z; F4 B
    1 N9 f2 l& M1 ]
    我们查看测试文件牛津动词.mdx 排版一片混乱+ |' K. n! A2 N& j8 `

    , j. M8 ?) Y# Y3 Y! N2 H
    & J% F1 t3 i4 d' Y我们使用这个新的css导入看看是什么样
    9 j" Y  B5 i0 l4 z/ O2 g6 J' J/ X6 R! m0 i

      q9 |- e( u+ S: V- a' k$ |9 |我们导入之前原有的css) }1 `) s/ w6 N+ Q# L

    3 X$ X% W3 _" w  ^. W. J+ S" f
    / t9 n( y5 u1 F" m4 |9 k% s* i修改新的css来删除标题字样
    % g$ }1 y9 P4 ?+ F5 \5 r) ^* k) o7 C) `! O' n2 X

    ( E" D& D9 I6 d6 W" X) V# }, R& T. N! d% R
    我们开始合并,使用MdxBuilder
    4 p7 j' w& u) k- M% h: Q. {
    7 |( F& B% i7 D' y3 A! [2 `
    * W& p' I2 B. h$ _7 s4 s我们看看效果图
    ; A- ^% V, p: L. K# A
    * r0 t* @( L% l* K6 ?$ W9 h9 D' z" z
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~6 {- @: R9 I2 k( n' O9 i
    7 n6 I5 I) K' K3 f

    + \1 X. S) ]& F; V+ I0 Z. n" b3 o

    + P. w! J9 X; Y6 G# P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……( L1 ~% R: K6 G: x0 T# k
    我粗略的看了一下7 S  X" g/ j9 a" _4 _7 N
    似乎是比较简单粗暴的合并方式?
    . r3 v* }" ]  w: A我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57- R8 g; X8 O* i
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    1 x0 S" S+ u: C/ G6 n+ N
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55* L, k3 \! V' ^& d5 t
    ....额 请问为什么要清空 out 文件呢?
    4 r( P* n% V7 t$ q' S
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    6 K* J  b1 ^4 E) ^( a: i那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...
    2 p- `7 S9 e4 a( E; E% u
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04* C, Y5 P% S4 \  W  y+ V  M
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    1 M" G- m$ v7 Y, }! u+ s我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13
    4 B, U! ?' N+ e6 @: X, l1 l3 F我的也是,win7都不行,我有时间再试试看吧

    ; t) E/ R6 H1 F6 b/ I% |  f$ @嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23; D! m3 y; a" D! e
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    8 c% C" |$ M* O. g, o& U0 p8 l4 Q那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26) G4 c1 Y  M/ U& D5 w9 N' m3 l
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    : p$ ^9 H' n& |; i哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    : q' ^3 O( C- J( S+ M先码再看……2 h7 N+ i3 O' h0 i/ x2 s
    我粗略的看了一下
    . p( f+ C4 A! i4 R( y1 E4 f似乎是比较简单粗暴的合并方式?
    $ U$ H, k$ W: W% c
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    ( O& u+ i  F+ \; i5 Z& {
    Bouroz 发表于 2018-6-16 18:24# o8 `# ^& Z+ h0 P
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    ; T. c0 i0 ~8 C" X2 d$ \4 }4 e$ x4 U6 U) @& i( g0 s
    我也没系统化学过编程……4 ?. B6 m' n7 s, ^7 Y! U! p- Q
    先用论坛给的解压工具把mdx解开" D! h) M5 ^+ r% D
    使用EmEditor找到一个最具特征的单词(entry)$ ~* w8 p: _3 E( _9 F; s- s
    提取出单词对应的那部分
    $ h6 O! g5 E6 T) f为啥叫entry,因为不同entry有时候指向的是同一个单词1 B* A! h& R2 i- X
    只不过有时候为了单词的不同形式……比如单复数都能被搜索到。% n) a8 E$ E: w( N) K/ S! b
    然后使用notepad++的tidy2进行格式化排版
    ) j  @( e4 k+ v& A: [% Z- M当然你也可以选择不用。
    . D* W9 A2 H3 A& O3 D) Z  i主要是用来观察这个词典的格式化排版。
    , R5 a2 v. @% b词典的排版应该叫html的排版吧……
    & f' F$ B* d. n, `* o) z找到规律以后
    1 q( {2 @) q! N2 N9 L, N我是用Python使用正则表达式进行提取的
    ; f+ c+ k/ R# D比如论坛里比较著名的500万词的那个简明必应
    5 b8 X- H4 w" l  U8 W$ @他是把html展开了,一行一行的。# L6 [% e) }& h' f6 j3 X
    但是其他词典的经常都是所有内容压缩在一行里了。
    / q0 q1 J* \8 L( T- ], o提取的时候要找到标签内的关键词部分。
    & C3 H6 e/ Z( |0 D1 f2 D( t- c  f6 B$ E
    其实吧……不知道你信不信4 w- W3 Z. n2 [% T+ z! O% W' l- c, J
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了, `5 s# \$ M. t* P" s, ]
    COCA BNC ANC之类的也都提了……: a6 K2 P$ {% l
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq  E( R8 `: M7 P5 g
    1 t7 U7 G( T6 k# _3 }9 J
    我现在就是没时间把这些做成一个完整的查询系统
    . N4 n% t% h5 o, r$ r8 d7 I4 i1 S不过做好了一个词单的对比分析器。5 E; }# P; ]: X' N
    可以对比出两个词单之间的差距! E) A$ _4 i( O+ K" f
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……
    * ^4 r# P) r) D( D4 m( L7 ^% ^% R: j
    至于教程……
    9 o) t9 I5 r5 Z  P- s3 I4 ~最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 & f- R$ v" r- ]7 z4 @
    Bouroz 发表于 2018-6-16 18:24/ P# ~9 K. G- n. n* H
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    4 \$ k/ Y. V3 O

    ) I! F+ N9 U7 c- C# O# \这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild8 w+ {1 Q* b- B) B7 m* |
    的分享给你,7天有效期的链接
    6 P$ i3 K; Q6 v, X* i+ C, G5 @  Z2 [3 k+ |4 w& W; T* Y# @+ x, C4 P" g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    % Y; g' F5 p1 B' E提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    - k, H$ U2 t+ g- S; r% g  H/ x$ s% C
    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。+ V& {5 K$ t! ~/ H4 M; o
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu, w7 ]* @! @, E* a8 x' l+ R
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:288 d) T" Z( I8 X7 z, S8 O0 a
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
    + g% V; q- m3 \9 S; m
    您做的JavaScript的排版应该也属于编程部分吧# x& a. O: y. ?/ |1 B7 y
    而且也挺繁琐的。# u. I1 Y* D% d& v: p  d2 u
    其实提取词典不比您那个麻烦多少。
    9 y% z' p* f4 U- _& ~但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。# `# }7 [  R+ A; p  B7 l) |
    . V5 Z$ W" X4 P/ P7 R
    我看bt4baidu分享的抓取词典的开源代码部分。* W7 f8 S( \3 G* w1 |
    好像就包含了如何抓取并且生成各种节点……
    2 e# M4 H) G; o0 ^- D" [0 a$ @: B& H" y' h
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。2 `# z" U* v4 D3 N
    甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    3 ?" n8 f- y2 S" L- T, f当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的) G7 t6 U* o* e7 n, f
    我还没完全写好整合
    $ S1 q, E  e4 [+ r( P9 f- G0 x9 F  Y, u# w/ x2 K! u

    5 h$ E% e+ ?0 m% U# y1 F) s2 h5 \# u* C6 z  k6 h- A' y
    这个东西我就先不公布了,理由如上  {8 U' R$ @+ l- s; \
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
    * R6 [# q( y- ]% e! I& P; n8 _- B$ e) d& e1 B& s5 W" G' \9 _
    这里还得谢谢楼主提示了我用EmEditor这个软件
    5 a# L2 E: P5 q% ]9 [6 Y' g5 v不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    3 Z7 n9 b3 n$ Q+ i: a: p含PoS(Part of Speech)词性版的
    ( Q# r: `+ F2 ]我还没完全写好整合

    2 o* N( I  h& q& k: `4 n- B3 k$ ^非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-23 17:46 , Processed in 0.127921 second(s), 17 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表