掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2448|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑 $ B! S" k2 a+ W! U, J; g

    7 ]4 ~* B4 P( r1 p) _8 F( q; z% G
    ' p( v3 D4 j! p% i额...希望ff大 不要怪我。每一次都是用你的词典来举例子。6 f" j8 s( l, \, Y
    没有办法谁让你的词典那么具有代表性呢 ( v0 R/ h, G& f$ K
    % G% z1 g% t+ T( h1 B
    大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    2 m* {/ r. q6 J2 U$ U. x& {' t8 L, J2 \1 f
    1.这个按照软件作者来说,是可以无限的合成词典( M" ]: _1 T& \3 ^6 m% Z
    2.这个方法适合大量的词典7 g. x3 U2 k% t; h2 U6 X; C
    3.这个方法是mdx解压得到txt,对txt的合并
    6 m( K0 D* O$ P% g6 u# @' M- M4.存在问题  y' \- g+ w+ y8 u7 X
        1.适合小型的词典
    $ K% w" C1 o7 X3 `# P    2.没有复杂的css# @1 I$ ]8 x; }+ E# y2 X
        3.没有或者很少的js
    ( U/ E  P* x- z6 o. L, E    4.没有跳转
    6 e  Y( o, A4 I7 _9 P9 \    5.没有大量的图片4 T) B1 b+ E! ]  {6 T2 p) X
        6.没有语音的
    & H$ [; Y1 l7 r7 X: T$ N; J- p
    + f$ r7 j4 O/ I

    $ C1 ?$ c6 p# `4 Q  g" p3 f2 Q( D7 m. T( t+ X; u1 x$ T
    一 需要软件" y! X! k( u+ v6 @
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具& i2 F) ^0 D2 G6 _
    https://www.pdawiki.com/forum/thread-17709-1-1.html
    2 I& m/ j) }4 A1 M" n2 T2.[MDXBuilder] MdxBuilder 3.0 Beta2
    # q: D' ?. k$ ^' i/ T7 X6 E4 ?: Rhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    : t* d! U8 X) d1 {2 Q, f4 y3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    " Q. i5 \  p8 `* [3 Hhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37473 O% q; A3 E1 [) _
    ) X+ Y7 [! X+ {( I& o" ~- h5 E
    第一步
    * D! \* w% L; z使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式8 R; ^0 |3 s$ u" i. a( F7 k; ^
    ; O% `& w$ W) P
    同理,对lang5++转换,得到
    5 U9 t0 O  a$ M, q
    ' G- b# |, T9 e0 r7 }  t; o6 _* x' [, L5 s0 X
    第二步: ]  L0 o. X4 j8 w% g$ G% c
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    5 Y% E4 n" ^: ]# D$ thttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37473 N! N# b, u% a) f. S

    , P/ c& s  K8 }+ y1 G: B9 M注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    % Y) W! F5 ?8 {但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹3 n( Z' k7 {2 k1 Y

    : e3 \1 j8 u1 [* j7 U6 D5 @( P4 H
    ) ?% u; ~" x/ P4 h. K* t  J
    . H7 B  w# @9 ?' W, t得到这个% \/ p9 a8 N  C: O" l; X. ^

    & g$ `$ a, P7 r$ u* e* p
    # e" L, \# c% v/ x4 Y2 q不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹7 O, {3 X- U1 A. Y, T: B
      \3 g9 r3 |! o, E; T% r% Z
    ' S, Z, o. @: i# t/ p
    让我们来看看效果图
    ; r: U$ H; {9 ^. d5 v; H9 B1.部分排版出现错误,js跳转没有问题,
    4 }. m7 ^: _' \! M( j2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位2 M. n4 V- g' L4 ~" K
    3.css可以修改
    / L1 u' p9 S5 h$ c3 M+ |' |
    % g- ^. n# s- x; g, ^. T; \4 Z- N
    3 R% o* m9 e- S4 h9 ]+ S+ d" n
    $ u3 L  r, F, F0 o( f* W. ~4 L
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    ' K) R' J2 F# @, D) D5 g由于会出现加载问题,本词典必须放在第一位
    " a# U- Y7 x* m. L

    8 M  r+ p  d) z5 H那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开$ `, M, z& t  r& G9 ]6 d6 \/ B& L" {

    ! O" n# d( v9 p; P8 i  ~3 N这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    + v8 Q' D6 |' n. `
    1 V- B& F7 C# L0 _- I# I; |需要的工具
    & \8 y' y! s3 N8 c& ^' j/ l+ M4 V& o/ K: c# l
    1..emeditor64 百度) k! o+ ~/ k9 R0 Y9 k% s- D6 P
    2.MDict5 U8 H: t; t% ]1 u
    http://www.mdict.cn/wp/?lang=zh- c" ^/ X2 I% c2 u" t0 W
    3.Google浏览器
    8 E$ v+ b/ X# S& S* ~# A+ }. J
    ! [) R( y2 \' S+ n1 R* }0 }9 G我们来通过牛津搭配和牛津同义词字典来看看& ^. R% B9 v; v; D. I( i* b
    我们还是老方法得到两个合并在一起的txt,实现替换
    & ~' p  G$ K% m4 [7 ]2 M
    ; J$ B! \" U' x  d! O% o1 h0 D0 l+ d' g6 O( F; H% _$ A3 S( i( f; s
    得到mdx
    2 F6 B) g5 n/ L) _( g- V8 C
    $ s6 R( Y+ q: e, V: k( x) ?# E我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    $ l) w( s  R! T; u9 @1.使用mdict,打开我们得到的 测试文件牛津动词.mdx2 B  [7 J/ f% x" E2 h, z
    2.提取源
    2 f7 r( ^- m3 ^9 T+ ^/ X$ r' p, \8 `3.使用Google打开  go.html0 v6 \3 O. J  _% S  a" b; ^
    4.使用MdxExport.exe打开mdd得到之前他们两个的css; _  Z* H' Q0 R/ s9 z6 y

    / w, y2 z5 t4 T7 Q5 w我们查看测试文件牛津动词.mdx 排版一片混乱
    ! U, y' {6 G, Y, O
    8 G0 I7 e8 y* D! t+ s  [- z% K, O. _8 L
    我们使用这个新的css导入看看是什么样
    2 E5 B) J2 w$ P1 d& y0 X: B
    - `2 h" {* C3 ?4 n- A6 m" Z0 g. R# r2 H5 p
    我们导入之前原有的css; G% n% U( e- o1 g
      k! f9 U+ U% J2 ~! D1 [' p

    % |( G# Q/ |) v( M* o4 z- \修改新的css来删除标题字样) X3 V; l  j5 G% g* R' P9 e
    & l' \0 V3 L0 L+ V! W# _. p& p0 v# Y

    9 V  |/ Y8 ?, l" Q+ h( j1 [. m+ o4 [; j+ C5 [3 h
    我们开始合并,使用MdxBuilder) Z! B& M; y- P) @1 \8 a1 |
    # j% m$ Z) }% }& |

    4 n) M9 w7 Z+ ~# v我们看看效果图. X0 T6 G5 z) H# M* @3 Z

    ! r5 K2 n7 ~6 i4 v3 V3 e5 r9 ]) Q" t) S, b0 l5 ^
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~
    % |* q, G9 j5 d& D9 s8 @' D2 V8 q( m! c5 V4 Y& ^% d

    , A/ P! ~1 d9 ~

    4 C: D- P" ?4 X2 {5 K  B3 F

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……
    1 ?5 @# N( o, ~5 i0 u; m: T7 Q5 j" m我粗略的看了一下
    9 Z) K- q) C+ a: b; _$ P% s似乎是比较简单粗暴的合并方式?/ e% @8 g7 M! v! U
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    6 @: C  x9 C. q# n- o" V- O感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

    2 }7 }7 l3 O5 n0 _4 i, u....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    " z" T3 y5 g) G/ o2 {....额 请问为什么要清空 out 文件呢?

    , l5 @2 u8 X; H那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:022 \( M, E  e  _) V2 |( N1 q
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    & K# T! o7 j. |- T这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04/ x3 s, t- D5 q9 L
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
    % P& N7 X' Z; e3 h* h, M7 m- F
    我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:131 b' q3 `; ~& ]" L
    我的也是,win7都不行,我有时间再试试看吧

    + d) a$ s3 {* _* v- g! G( K8 c嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23) s  R8 {/ `% k# u/ Z6 v
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    + Y( p# k4 T6 m) L8 U6 `% `6 B  b那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:269 [# }' h( n- U, G9 k6 u
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    7 i" ?% f$ Z2 t; k( \哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    # o6 h- e3 h: ^先码再看……
    9 d6 {# v9 `7 y/ C% S. o! X我粗略的看了一下
    ' B6 M/ R& G" {4 h7 P+ n似乎是比较简单粗暴的合并方式?
    2 n/ N8 P: S' A
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑 1 ]* |8 h) x8 }+ b" q- O! ~
    Bouroz 发表于 2018-6-16 18:244 s& I5 b) ?1 {" k
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    ( T9 J; p5 ]1 B" L
    # }3 {  _1 ^4 S  ^: T我也没系统化学过编程……$ p( W6 H' j1 V( P# U
    先用论坛给的解压工具把mdx解开
    $ \. e! F$ t5 D" K& M使用EmEditor找到一个最具特征的单词(entry)
    5 B* j. {) Y( O提取出单词对应的那部分- l- @9 }+ x# B, x% {$ Z
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    ! |1 g% G- K! V+ f6 x" c8 N只不过有时候为了单词的不同形式……比如单复数都能被搜索到。  Y5 N, G0 ~$ W: Z
    然后使用notepad++的tidy2进行格式化排版* I& Q( O, R# L, ^4 F+ j0 m: M( G
    当然你也可以选择不用。
    ) o- |# o- Z. y. L: O5 @0 Z8 k主要是用来观察这个词典的格式化排版。' }" E, g+ B5 I7 u
    词典的排版应该叫html的排版吧……
    ; ~; ?9 M: w- N- B6 F找到规律以后
    , N4 ?1 W: L7 c7 X- q( C: c" I$ m我是用Python使用正则表达式进行提取的- P) U- p& T, T& |( w' T5 h
    比如论坛里比较著名的500万词的那个简明必应
    % @1 y4 a5 ~  P1 y! `, a他是把html展开了,一行一行的。0 ], f7 J, [$ i* u& D1 v
    但是其他词典的经常都是所有内容压缩在一行里了。! ]% p: X8 G7 z5 c3 e. ^# r3 Z5 G
    提取的时候要找到标签内的关键词部分。5 ]1 [0 s: z6 J6 o' D: \) U" T0 l

    - H7 ?9 Z) h* `其实吧……不知道你信不信) P+ G" W; \0 @6 i  e1 C8 a) c
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了) s2 x6 i9 }' W
    COCA BNC ANC之类的也都提了……7 K# R, m3 R7 [1 `1 l
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    " g: r8 Z$ \6 _. q5 @! Y2 R) U, d
    5 F% D) w* O, L. ]3 c我现在就是没时间把这些做成一个完整的查询系统+ b* O7 t: j8 F! b) M
    不过做好了一个词单的对比分析器。
    & K; `- }( J) F- L8 k可以对比出两个词单之间的差距6 {5 `7 ?0 z8 y. `; T
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……; z; r* p1 q! n% g2 p7 J" p  S" a

    7 ~+ v! f/ M, o% U  d9 P至于教程……1 p. o8 v0 Z. }: g* {' `
    最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 ' R/ e. k4 a. O7 K2 G9 h, G
    Bouroz 发表于 2018-6-16 18:249 f% I# T. h. r1 Q2 e0 o' K6 g! ^' v
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    + n$ `. n: b- k
    3 E: D# M- l- l5 d7 J9 W
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
    1 S' c" M6 w/ [* n. s* d0 k的分享给你,7天有效期的链接
    / x0 j' i+ {) A8 r; d& B/ n9 ^2 U# }. s, C' t& ]# p

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    2 U* M9 E2 V3 a4 _提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    # x6 A% t' K3 ?; p7 V; R7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。
    ; C1 W, v0 H, X链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    $ ?' b5 @' r( {- {2 P但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
    # ?2 x! ]. M( ]" }- a" B: C哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    3 r+ u+ ~3 O& a  m您做的JavaScript的排版应该也属于编程部分吧
    ( Z) t; o5 i: \$ l5 L4 v而且也挺繁琐的。
    : H7 r3 [2 N( ~其实提取词典不比您那个麻烦多少。
    : T# m" i  H7 Y0 T但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。+ M( U8 j8 F3 v, i
    : v' }  J! L8 E5 M6 V$ J
    我看bt4baidu分享的抓取词典的开源代码部分。
    # f. D0 X/ j( z& d7 S好像就包含了如何抓取并且生成各种节点……0 @% f8 w8 ~, S1 A8 \

    0 D# k: T8 ]2 V$ h6 Q$ r但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    1 v7 @! S4 Z6 d: T甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    ) B4 ]8 ?" k. x  l1 @$ P当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的0 q2 c; N( H% w( V3 x6 s
    我还没完全写好整合
    0 U4 P/ W4 k) R: P2 ]8 @: \3 l0 N' ^

    . O- w  m& [# }9 e9 x% b# b
    / Q3 Z3 h' Z( D; e这个东西我就先不公布了,理由如上" r% f$ h' Q) O" T1 t
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
    # }: z, J0 Y9 }% q5 G- H( C# Z' Y
    1 ~( {/ e. T0 I3 Y$ y# F# ~2 D这里还得谢谢楼主提示了我用EmEditor这个软件
    ' }* E! c1 l, Z不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    ' G# ?7 \' r: _. @2 X含PoS(Part of Speech)词性版的. k/ p3 j4 X# m4 J( L1 X9 q
    我还没完全写好整合
    ! N" @* x/ u/ `, m8 @- K! F
    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 10:58 , Processed in 0.071002 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表