掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2452|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    4 q+ o8 q- X1 Q, W7 w6 ]
    9 Q- n) m4 ]+ T% h( ~( `5 N  b) P, v" u& B! ~
    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。2 v. N. d/ p! U+ F: I! ]
    没有办法谁让你的词典那么具有代表性呢
    & Q+ N& ~( O+ `  Z$ V
    % Y, i1 d& p. D, p2 c0 k, [- R大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    5 l4 I5 a* G  |+ U% I0 E& G
    % v  ~* T; P, J1.这个按照软件作者来说,是可以无限的合成词典
    7 w. ?( q% Y4 z/ C2.这个方法适合大量的词典' i. ?/ F) u& O. y* c7 Q6 S2 ~$ k
    3.这个方法是mdx解压得到txt,对txt的合并- m  p1 z/ T/ _( L$ Y8 _
    4.存在问题4 a2 Y) f  B/ c/ i5 D6 u4 ?
        1.适合小型的词典) ~) A! l; j5 k) N/ h9 ~
        2.没有复杂的css
    0 M& i* i7 a; l    3.没有或者很少的js
    7 D7 I7 a, U1 H5 ^    4.没有跳转
    . x6 O, d8 e6 ?7 h, y" h8 m    5.没有大量的图片
    , f# q& a" _7 U& M    6.没有语音的( ]4 M4 t! }) U, p3 v$ U: p* n# i

    9 k/ O7 ^6 `; Z5 o6 d8 o' S6 M
    * c1 |! _$ z0 A: s: U) ?
    0 l) T5 \' ]- V, y: l& m
    一 需要软件3 n6 w: N) L  X" x0 |
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具- @0 M: ]. I: b( {
    https://www.pdawiki.com/forum/thread-17709-1-1.html0 a5 m5 ^; R) l/ {1 S$ A5 q% P
    2.[MDXBuilder] MdxBuilder 3.0 Beta2# s# @. P/ W. y" t( w5 W# Q. q. x1 Z1 Z
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37473 ?6 z& j/ o6 G: [) c
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    5 R! C, k" d# ]% S! a+ fhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    - c' [: F, }: d) L" [; h* e( s# U2 Z: q9 `2 S
    第一步
    5 p8 j0 z  x( @, t6 l9 U2 @使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式0 m* ]0 g; \" c+ w/ S: M

    8 b+ F1 h) f% P3 y) I* @, @同理,对lang5++转换,得到* d! A# Z: k7 |% B

    ; H2 v8 v. `/ G$ E
    3 V, {5 V' g  E7 z' S4 e第二步
    - N7 |8 s4 Y+ P. c) ]我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    3 F. b& E" H/ v, ~) whttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    7 }% E  X6 a* i3 d5 d0 A% f% [$ z5 e! r
    注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制  x% N& b2 d  [! r9 C( Z
    但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹+ L. J6 H3 K" D1 k# B

    " q- ]2 f9 |+ G3 Z
    $ m& f0 y; X) V% Z. I, U: x/ ^3 [/ N/ }7 N- O  L5 x
    得到这个& {" ], u4 n2 M0 e# @; `
    / q1 J' s$ m! C
    - P. b# v% ]1 w. H, Y' \3 m
    不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹6 `9 |* e# A$ ]. t
    ( ^6 V4 r/ n3 {- w& W8 e

    + C( @0 j- j) u5 {# X* J9 q7 t让我们来看看效果图! J( B' G5 u* W
    1.部分排版出现错误,js跳转没有问题,, T; p3 `3 I  H& \5 R
    2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位7 X  n! j$ l! N, G1 y
    3.css可以修改
    * F, B0 H* o; R- V3 W4 A

    6 T8 j! ?5 {! D0 z
    3 y: j/ u  Q2 ^& r0 i
    ! R# N7 u5 |( f/ U) W2 L由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    $ h+ o: O# i. H. S( l, N. J* h由于会出现加载问题,本词典必须放在第一位

    + d( T" @& L1 A1 W; @9 q6 L, E) }7 R0 o0 A* _5 l8 q
    那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开9 \! O0 v' F& I7 O  j) O. v

    * y2 I9 s7 N# S7 J$ h这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典) }5 K% d/ x: r8 l7 P' s! a
    : _: Y* H1 e3 f$ m! |$ c
    需要的工具
    2 Q/ J6 m. q7 d7 M+ C9 {/ V! g9 s/ F# O' c+ l
    1..emeditor64 百度' ^  h9 {* d; @% M9 P* R
    2.MDict
    ) ^2 _8 z8 v9 Mhttp://www.mdict.cn/wp/?lang=zh- k8 I8 h- ^. S( o# q7 U
    3.Google浏览器
      s8 ?! D+ P3 d1 k( x+ e: D3 ~3 R/ y- r- n
    我们来通过牛津搭配和牛津同义词字典来看看
    5 F# v& ?) m4 C. y  V& z我们还是老方法得到两个合并在一起的txt,实现替换* Y( O. ~* a6 p8 w& j
    1 p$ T: C4 }$ T

    * |. h. X: T& K+ P: h7 Y得到mdx( g, |( x) Q1 T/ I4 k% i7 O7 C- X

    : }; O7 \9 W$ w9 y- N1 I; y3 o我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤; I, Z3 S+ D( ]* O
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    & o' j1 i) x- \5 g8 c2.提取源
    3 |4 N' {( A, F& a: o, |3.使用Google打开  go.html  R# n8 f( E0 ?- L" W+ `
    4.使用MdxExport.exe打开mdd得到之前他们两个的css
    6 j" w% C$ `- i$ r4 q2 \/ _4 x
    % ?) c3 \7 U% i8 k: \8 b: l我们查看测试文件牛津动词.mdx 排版一片混乱3 G: a6 O8 U# H4 ~# P5 T+ J

    9 X; R: C4 L" u$ p; t) H: X
    2 n6 f$ r) d* A3 D8 _! d我们使用这个新的css导入看看是什么样
    ' W0 S2 S, i$ `; \5 x
      J) m% r/ V7 J  e3 f% X, R' ~3 I! h9 l! }+ @1 J
    我们导入之前原有的css  r3 `: C' B( X! R

    / n1 S: y1 Z! Y( v0 e! F5 b7 x4 P0 R6 W
    修改新的css来删除标题字样
    + C" T' t: A& h* D0 b! Q; f4 n, d; E- m3 w5 }4 D( }5 Y0 {

    ' f. S3 L/ b) B* A! \4 p2 N5 @4 w7 D$ w
    我们开始合并,使用MdxBuilder: u- e* I9 f4 G$ C' F. f( I

    " m" P& N8 a8 c$ S  Y9 S$ x  h/ j0 |8 m& E; a# D! y7 Q
    我们看看效果图
    4 |+ }. A2 }* L- ^  f5 J6 P0 y+ y( j
    # a" \) }: ~- d# [5 f
    ( p5 c" }/ |( q$ {8 Q* }8 M大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~
    7 c$ U/ ^7 {3 r3 u3 S4 ^& s. I4 i5 E

    - g" n. T# [, `/ G. m

    ' V. q' F$ L% }5 c3 b; C# a( }

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……
    2 W% a* ^$ d1 D# Y3 O3 R我粗略的看了一下
      O: L9 T$ ]3 I5 Y9 t- X似乎是比较简单粗暴的合并方式?
    ( T+ r4 ^; n) D* i  ^" U我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    ; k" p+ g2 ^/ k. \, V0 Q( l* E感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

    # d, G2 r+ F& U. z3 a: H: _# F/ Q....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    " v! ^9 i: r; @6 j  b3 }# e....额 请问为什么要清空 out 文件呢?

    2 n; E- P4 {) Y. E; P- X# g* q那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    : x  L4 J. k6 ?# G0 N- W5 U- {/ B那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...
    ! U" v8 u) W  Z
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04! a+ o: @; T9 p; _8 Y$ h
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    5 Z( h" \7 ]+ o- c- J" ?我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13. M* C8 z4 t8 j) ~7 {/ {/ G
    我的也是,win7都不行,我有时间再试试看吧
    , q# K; x# d) j4 y9 U2 A. g
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23
    + e2 p; [. j* {6 C' M嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...
    ; T/ }  C4 W# Y) [: h" f, D5 |! N
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26
    % t: F9 ?. B0 E% j* B那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...
    / V3 F- e2 ~6 v# W6 p( b
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38/ b' a" A) x, l' c
    先码再看……
      r- j- X% [: t4 z& E我粗略的看了一下3 B+ l! n/ Z4 [! m7 h
    似乎是比较简单粗暴的合并方式?
    ! e6 ^6 N" W# H8 g! h) E
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑 $ K) k& A/ y" D5 g: @# w
    Bouroz 发表于 2018-6-16 18:24
    9 R2 E- B; W% D! P: U$ k提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    / Z4 h) F* [3 h! ]9 c% \* |
    ' }! @+ l" I& w. n, N1 q
    我也没系统化学过编程……0 [1 X8 p! ]' p8 U( {
    先用论坛给的解压工具把mdx解开9 c  f& d; W5 D2 o
    使用EmEditor找到一个最具特征的单词(entry)' c3 F6 ?) V5 T3 ?6 Q
    提取出单词对应的那部分8 Y8 j# I% w+ D
    为啥叫entry,因为不同entry有时候指向的是同一个单词- L8 Z1 d2 i! m7 `3 d5 P2 i
    只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    % ^! B) Z! s+ d. Q8 `然后使用notepad++的tidy2进行格式化排版
    5 y' W) M( `4 r, Z当然你也可以选择不用。$ {  h7 [1 Q. p% l
    主要是用来观察这个词典的格式化排版。
    + \8 b( }8 m' Q' O" G( n词典的排版应该叫html的排版吧……' R5 T6 }9 U6 q0 I) q
    找到规律以后
    9 D1 N, ^; S2 E% J' g我是用Python使用正则表达式进行提取的, E5 v) Z+ F1 J/ A  I6 s
    比如论坛里比较著名的500万词的那个简明必应( i1 @; n0 _( x
    他是把html展开了,一行一行的。3 E  w8 A( s- }7 Q  j
    但是其他词典的经常都是所有内容压缩在一行里了。4 e( v+ P: d, O& i& w- F
    提取的时候要找到标签内的关键词部分。
    5 `: ^! P2 _: J* [! P& J: X! n; A0 x( E6 M' k, W
    其实吧……不知道你信不信8 \# q. L. x. C8 g- K; j) C4 y; f! w
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    % o6 y. O( C9 _/ V/ I+ N5 ]COCA BNC ANC之类的也都提了……
      f  @  _3 Q3 S; R+ {+ l但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    5 x8 n" D8 V' c5 \( k9 V, g) X( ^, I
    我现在就是没时间把这些做成一个完整的查询系统
    3 H6 o; }/ ]& K不过做好了一个词单的对比分析器。
    0 U3 K- |* D  }( a4 n; K* U可以对比出两个词单之间的差距' G5 @# @  E- {8 Q" B
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……# a9 Q( r& n/ b8 N: L/ U

    2 H: A+ P" c/ i至于教程……
    : i% k' c! t* ]) D" B& R- N' ^最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 ' w) ]: M; _1 G$ N4 {5 E
    Bouroz 发表于 2018-6-16 18:24' O& w* ]5 f. s/ o
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    ( F! \5 J. d$ m' V* J' Q6 E7 U; n

    : i, R, C' p& `这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild6 ?) N$ F# L3 x+ Y8 }- ~% i
    的分享给你,7天有效期的链接
    + A: ?: l; u( M! G
    $ x7 w% u9 j. @+ g. ?& U# _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24; w, F9 Q/ i6 y' {" U. l. m8 l4 \
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    ( z( Q- C0 [& t# e: L5 ?% D7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。
    / f8 ]( D/ L% o/ A链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu/ E, z# K+ Q% X( i: f
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
      ~5 y8 k) Y3 ?3 X& m- X' M+ ]哈哈哈 我也不太懂 可能需要编程啥的 太高深了
    5 z/ H% Y* o' Q7 [% c
    您做的JavaScript的排版应该也属于编程部分吧# d' [5 a/ N5 V& a# c: R
    而且也挺繁琐的。! p# d# l$ B- J- B
    其实提取词典不比您那个麻烦多少。. c8 |1 b# J6 E! n4 f
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。
    0 f4 l- {+ p! C9 F' d9 c8 y
    2 ]( O7 C- j, E4 T9 Q我看bt4baidu分享的抓取词典的开源代码部分。
    $ S; C, @' w! b! E好像就包含了如何抓取并且生成各种节点……
    2 r- L1 e  R  m& z/ [0 g7 r; G& {" T9 n" ]- u4 ?/ M- [
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    6 |: `( Q9 K& U0 b) ?甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    9 ?4 E0 z: B5 A, j当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的
    ( ^- |0 e: n2 M: n3 R. U我还没完全写好整合1 b* E: e  _% I( v4 h

    1 Q1 d/ T- v. t' q# \3 G6 W* {$ p7 t3 Z7 p' M! k

    6 _$ B8 _5 x/ n  a, D  u这个东西我就先不公布了,理由如上
    7 W8 T" X( S% ]6 l3 H( H就是先自己研究明白了,而且还不知道设计啥版权不呢……
    " K4 l" e+ T/ ~. T; f7 n3 B& ~/ n
    5 `& J. ~1 u9 \) e! C2 A# ^* `这里还得谢谢楼主提示了我用EmEditor这个软件
    , U* n5 h1 Z. `: Y9 q4 n( w9 \不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:373 O" J  ~2 e' I# ~8 R
    含PoS(Part of Speech)词性版的
    2 z4 Z! E- r0 Z我还没完全写好整合

    & w) d6 }0 B/ F  `1 o# K+ B非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 03:12 , Processed in 0.063114 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表