掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2917|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑 7 L8 l# r) M$ A; `/ r9 R

    $ J+ N: w+ n( y% A5 P% |  x
    4 U  B& Q  S8 _' p; }额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    & v4 K- v7 J& ~3 q- V没有办法谁让你的词典那么具有代表性呢
    , i6 l; _) \" d8 k' B; g, c6 |8 ^, S( |+ a9 R
    大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。, w  v4 I4 h: z9 N0 G8 P

    , ^% ^( @8 ?  H) j& A1.这个按照软件作者来说,是可以无限的合成词典
    - w- |/ {& p- S' c2.这个方法适合大量的词典
      ]/ l- G' f$ U( l3.这个方法是mdx解压得到txt,对txt的合并
    4 B' n) J' D! U1 V4.存在问题
    ( e2 P+ H7 _1 o% O% x    1.适合小型的词典* G& r1 `- y% L) |! E
        2.没有复杂的css- f9 m( r8 [8 S2 s/ ~- ~4 J
        3.没有或者很少的js
    % P  R3 p6 H7 Y6 d" F+ o    4.没有跳转5 L/ T- I/ q( i( n% \1 r/ A9 J
        5.没有大量的图片, n. z/ S/ Y) N; ]! b  ]
        6.没有语音的
    # p. F4 I8 N# Y( z1 t: o1 ?4 e6 U8 }) z

    " L- ]# E& z- i( W5 ?8 @
    $ j% x: n/ _2 F" X3 k& H一 需要软件$ M5 D; q, C7 M
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具% a4 K; Y, L( q) {/ a. E
    https://www.pdawiki.com/forum/thread-17709-1-1.html
    # O" l9 p- ~! j& }2 j/ i3 y2.[MDXBuilder] MdxBuilder 3.0 Beta2
    % B6 Q) o  l' Shttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37479 J; \3 G; M  M  J5 ?
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    + G4 v) x  ]/ r# yhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37479 m# C8 ~/ P" D  o; m8 ^! @

    ) q  N. I* |9 |; t* F第一步4 F2 P( j9 d! z* i8 X$ E$ e% v
    使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式. L3 U3 B4 X) F$ d

    8 J9 C7 s) W1 A  S4 w. d* V6 t, W1 q5 s同理,对lang5++转换,得到
    & k/ N8 C: T- e/ A, y( j) }6 m- z: _7 o1 b$ F1 z
    2 G1 ^3 k* |6 f. t
    第二步
    ; {* V- ]1 d7 e/ A3 }! B6 Q我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具5 f1 q* F. p* W' B; j
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37477 w, O9 J" Y+ ~! y5 s" h

    . n! h' {4 x6 B# d注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    / d9 n/ b* M9 y' p- P但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹- l# |# M" v' L
    6 v8 K2 K; X  ^9 e
    9 @# S8 z2 q, J8 A# Y9 a9 ^* x

    9 W  y5 g9 R% C4 x$ s得到这个
    $ ^% @1 H5 _4 o9 I7 z: U2 H! a+ [
    + n' W7 s( y. x, [& M
    , ]2 I  p- m0 c* S不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹/ ~1 _& ~2 r) I) V+ x7 t
    & \$ N- Z+ k$ A" i$ R) [, `9 V
    / ?% Q$ D8 X( {" d( D1 F
    让我们来看看效果图/ O4 z. i$ _3 l# I( }6 q4 {& {
    1.部分排版出现错误,js跳转没有问题,
    ( `) S  u# a4 w" V' P2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
      g6 x) m1 u# m) n. A3.css可以修改
    2 U" }* v% `$ [; U0 H* O3 O1 B2 T

    : I, i! z/ E6 [* _' ^0 \
    + n% ?& V( _5 H' ?  }/ O' a$ y& q) l
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    2 Z! U5 j+ U+ m" |6 K; f3 z, x5 j) i由于会出现加载问题,本词典必须放在第一位
    7 g! D" y3 c0 T4 f6 X* W8 p; h

    & ]$ [4 [7 P. L! T那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开3 q: b5 T3 ^- k! q  O

    6 O* O/ c! l7 i: }1 h  r这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    $ F7 @7 m! I  {# p: h
    ! \4 F5 Q4 U3 y4 x, I# g2 Q/ }7 s8 U; j需要的工具: ?7 q0 C' Q- ^: l1 P

    % A+ ^: Q+ |' O6 b( \7 \. r1..emeditor64 百度. D, I8 k4 [' N2 W- e5 E6 @( R
    2.MDict
    7 d  Y" s9 r5 k/ E% e0 Vhttp://www.mdict.cn/wp/?lang=zh
    4 G- x! N  M$ y! X0 x3.Google浏览器$ F# P1 a  L( H0 ]
    ( E9 T( |% N# F; A5 ]# [* ^( k
    我们来通过牛津搭配和牛津同义词字典来看看
    # z, M' m+ K  Q7 o& X. f% ~我们还是老方法得到两个合并在一起的txt,实现替换
    3 s2 t: F  ~; z3 }
    ; W! @' H, U( M1 X+ w  |
    + L( |# v3 \5 y: L0 {* K. A! Y3 u得到mdx7 x6 q# |! v6 v$ S

    - A5 y+ p- Q* J6 E我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤1 z* i9 [2 U" f0 d, `% k6 C1 U8 Z
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx2 y" N$ `; w) s5 K4 q
    2.提取源0 X  n1 `& @5 q2 [
    3.使用Google打开  go.html
    ( d' h/ D5 A, d4 s9 p4.使用MdxExport.exe打开mdd得到之前他们两个的css
    ) y( N: H2 {( K% R3 ]2 N0 D
    ( U+ w  w9 L7 L* _$ \6 B我们查看测试文件牛津动词.mdx 排版一片混乱
    ; J8 t: d& @$ S) V. b' J, u2 [: U  g# H5 J1 e2 s: Z
    8 J, o9 t3 h, X
    我们使用这个新的css导入看看是什么样
    & R8 w7 W8 D  _- D
    0 z. R. t( m( S$ m$ h4 Y4 a+ y& \/ y8 p+ X
    我们导入之前原有的css
    / o) \: Q) t$ j% n4 G0 N  k; m  s
    : H# G; k2 A+ L' ~: r0 x, j) \! ]3 e4 l( `% ]1 g' ]. x
    修改新的css来删除标题字样
    $ M. V% D. g% j" j9 Z- a& n* R- i2 n

    : E( Q% O& F7 m5 x; b$ X. W; K- ?
    ( G4 R2 D" u( Z* g2 c, |我们开始合并,使用MdxBuilder8 E; B7 ~* F; R

    ( Z* {. y. h, j" t% z- @: v3 X
    % p! w3 L, B3 s我们看看效果图
    * u1 z" ~, ^- N1 D' B& p1 P
    1 n' \2 @, q+ Q3 Q
    & @: D* _  k1 E, L0 b大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~1 }( ^* \2 F5 X5 ^1 S
    # R# I7 [0 D$ `9 w" a
    , S# U- f! o4 ]& ]! q" j9 {4 s

    ) c7 `! Q) ^. D8 P+ g/ f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……
    ( w: L8 Y2 R( }& e9 \$ y我粗略的看了一下8 @! s) h8 j, r% m% M2 @
    似乎是比较简单粗暴的合并方式?  [' D# T: |4 _
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57* {4 F. b  J1 m% R1 ?& J
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    ' }) O; ?4 \" ~  k" x. B2 C4 a! S
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    5 M+ B% X6 }8 w) s4 X8 k' r....额 请问为什么要清空 out 文件呢?
    % M/ X1 M2 N5 b  T. d
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    , ~2 y! V! m/ f1 r! x4 p+ H那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...
    + D0 f1 L/ a6 J5 n! O8 T8 J* Q
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    + ?) a+ n0 K% s; t  P& }) V+ d这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
    - M0 d0 }) C7 M2 Y# J. x1 j+ Q: Y
    我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13  U2 J8 }# D- w8 q
    我的也是,win7都不行,我有时间再试试看吧

    6 h0 y9 `% U) M4 @嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23
    - B+ b: D( l5 ]. H) ?$ P7 [3 T嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...
    9 F' ~6 u$ j9 J! o
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:269 x2 ?/ U* k7 d9 V( i, V* P
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    ; \# t; W6 `" }/ |3 o0 k) v哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    : V+ Q# m& D" ^先码再看……
    8 u; a' X$ y3 o我粗略的看了一下3 s% m1 E2 w4 F: w
    似乎是比较简单粗暴的合并方式?

    * |0 |  Z$ H) E. N/ ^, m. @- `提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑 " [# o; w  M8 @) a
    Bouroz 发表于 2018-6-16 18:24# W# U  E/ g9 `- K9 P
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    " v# P0 s2 b2 p1 b. _

    - ^0 L! r! C# X1 @3 v! ^9 c- K我也没系统化学过编程……/ t4 p) O* Z# Z: X  k
    先用论坛给的解压工具把mdx解开* _. N( O8 y3 F* Q+ G4 X
    使用EmEditor找到一个最具特征的单词(entry)6 L4 p2 O1 o1 F. N' a
    提取出单词对应的那部分  {! u2 y: M8 I$ U- Y
    为啥叫entry,因为不同entry有时候指向的是同一个单词7 @: Q# `! o1 @% x3 g# Q  T2 }8 W
    只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    9 D) u- Z$ X2 L然后使用notepad++的tidy2进行格式化排版
    & h7 e+ L$ _$ n. j- b; X; M- X当然你也可以选择不用。( E0 Z6 E4 Y' o  S  B
    主要是用来观察这个词典的格式化排版。) c6 n, L* J4 f: j
    词典的排版应该叫html的排版吧……
    : A, e4 }" A$ Q8 a: ^: M4 j" d找到规律以后
    + U/ P/ a$ X9 R' q我是用Python使用正则表达式进行提取的! i; x/ H4 a  G8 Z, W& ?
    比如论坛里比较著名的500万词的那个简明必应4 w) m6 I& {4 L5 H
    他是把html展开了,一行一行的。
    ' I7 _; e$ G# K2 H. L& l& u  n但是其他词典的经常都是所有内容压缩在一行里了。7 ]% ]  N3 u8 j# \! a- S
    提取的时候要找到标签内的关键词部分。
      @) x. U& L3 q# h- `. c" `0 P% J4 a! q1 R3 V2 c
    其实吧……不知道你信不信
    + Z3 |  |8 P- t我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    $ K) Z8 b/ d$ h- V% QCOCA BNC ANC之类的也都提了……
    ) j/ T  y  t' n  Y但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq; s$ |9 P4 z* E
    8 u& K9 M+ V: t& ]+ o* T! ^
    我现在就是没时间把这些做成一个完整的查询系统
    & ?, {' s$ b! Y* L% X2 Q不过做好了一个词单的对比分析器。
    ' A) t3 h+ y$ f9 \* b可以对比出两个词单之间的差距. `" |- F; ~$ i0 h0 c, ^* @
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……' _) S) c" m0 u9 Z0 M- ^
    % h; }; v- {  b% \; R
    至于教程……5 Y7 D7 l8 ]9 F/ ?; j
    最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑 , G1 {2 Q  L5 y& X
    Bouroz 发表于 2018-6-16 18:24
    0 K' A$ s5 I7 ^9 U7 J+ h提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    3 o% C+ n0 i3 M: [
    8 n1 C. D- h0 R! \* L
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild( o! i, ?7 W& _" H# k
    的分享给你,7天有效期的链接
    7 N: A9 X9 E* m4 N1 O$ E* b
    7 v5 Z8 _! H% c

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:241 W& ^% F; s$ e3 N* c! t) ]
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
      D( h$ T1 C5 I1 j) `
    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。* `$ a1 m# G. E7 f8 ^6 J
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    6 }: }0 Y5 E  `3 i但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
    3 Q9 j3 g9 a) A& A; w8 |哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    5 ?+ P! P; M: T/ Z) I2 e您做的JavaScript的排版应该也属于编程部分吧" k! G/ A9 O* b6 o. ^5 C7 G1 G
    而且也挺繁琐的。, Q1 ?0 y' s; l2 {# `; _0 E9 s# W
    其实提取词典不比您那个麻烦多少。4 J5 X8 M4 L3 Z* W  {7 i
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。( |1 Q& N: n8 `
    7 ~+ }2 t/ j4 f5 B8 @7 r0 E
    我看bt4baidu分享的抓取词典的开源代码部分。
    8 A  D; v. r3 V8 O9 L0 U/ }. V+ J8 H好像就包含了如何抓取并且生成各种节点……
    6 h( n9 g/ N) _2 q1 \. c% |& a+ P$ j1 o8 [# F0 ]# ~
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。& _* C6 @0 M! \4 w9 G5 Q
    甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    & }3 c: U7 x) f; _4 J. Q- t, [当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的& Q. |: L1 N8 V7 _
    我还没完全写好整合
    / v9 S: }. j- G! ?1 y  f
    ) b$ X  P; ], b+ q, M( I) g8 U1 `( o
    7 q4 ?: H5 q9 ~) m; B4 R: ^
    这个东西我就先不公布了,理由如上1 t4 ^- j8 @' c0 E
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
      t8 l) [" \3 s- p4 s2 ^5 e$ b! b# g0 g4 h$ H1 a- D9 E
    这里还得谢谢楼主提示了我用EmEditor这个软件* {: y1 W, \# W9 m2 Z) L
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    5 Q4 L7 X& `- h' k  s; W# }含PoS(Part of Speech)词性版的
    ; u; m: R- V1 I9 U( }+ R我还没完全写好整合

    9 S+ S* v4 p" M! `8 a4 J非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-22 01:22 , Processed in 0.027619 second(s), 30 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表