掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2420|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    " a7 Y* [6 J% ]* A1 c* C
    ; ~2 z2 }8 x2 R0 c. r0 V5 Q: V) @/ q% Z8 A, [; l; V# X
    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。3 M. T" K6 b" w, Z& K1 N+ T, R
    没有办法谁让你的词典那么具有代表性呢   g; s" m# H* A/ r2 y! _7 m

    , X, c) n3 S0 d- X4 u: e- K. i大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    2 N4 j3 u/ E/ W/ z3 G" h8 d8 Y# I5 V7 q3 y2 U
    1.这个按照软件作者来说,是可以无限的合成词典
    : i* l7 N3 M/ O5 _8 V4 N2.这个方法适合大量的词典
      Q! O! z: K; [3.这个方法是mdx解压得到txt,对txt的合并
    : N! d  Q& F  A& H4 c0 E) u* r4.存在问题
    : s5 b4 C+ d: s  r" M    1.适合小型的词典
    2 v* X  A; }4 t6 H3 G' x    2.没有复杂的css
    , r! E$ k3 g/ r1 `* I! v    3.没有或者很少的js% I3 d2 p' {) o+ `
        4.没有跳转+ }& k0 H$ s' Q  [( f! s2 d
        5.没有大量的图片6 G: V: Q: S9 N7 u- b6 n
        6.没有语音的1 d& \" _1 _& L, l* C

    / K& ]/ X3 _& E0 o0 {$ x" d# h
    * e1 u6 M! \0 j
    8 J' ~  t. r7 R* m' a5 d
    一 需要软件9 |* @/ Z2 H. d) e3 p( _
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具- J) B7 n6 X( G8 A% L1 s" p. B
    https://www.pdawiki.com/forum/thread-17709-1-1.html. b: X# @, E+ v$ W
    2.[MDXBuilder] MdxBuilder 3.0 Beta20 }( Y! X: X9 X
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37474 g- M! [. W0 n9 q3 [
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具! _: \! P% Q1 V9 F, r
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    % V# n+ ~) H5 M: d
    & h7 s( J7 S: d' P2 a, J第一步
    , ]0 V2 ~& r; n4 _* G! \使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式
    : ?3 @; c0 t1 M
    ' S1 E- i( @+ n同理,对lang5++转换,得到
    9 t% I7 H% G4 ~8 W5 g8 X4 u  t# s- [* y
    . I/ e) I; y+ C1 Y) N
    第二步
    * k. |8 a. g: ]我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具6 P6 c; z, ?6 g
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    4 l; V- R/ W1 v2 e& k4 L! Y+ O$ Z  K; a  z; V* b
    注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制1 m0 l, E4 W3 x# k) r+ t0 Y
    但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹1 a1 _+ @+ ~1 G' ^
    3 l7 z8 `# z& ?  Y; ]# @

    5 J3 g4 O/ s& j0 h' R  c. _2 P6 J& D7 g/ C4 ^
    得到这个2 w2 g0 Q' h  x( |3 q9 ~  Q

    + h4 X4 e+ E: N5 N4 L$ ?% W" y5 L# ?2 R) h
    不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹8 \( v! x$ F- X0 z) |+ Y# |

    0 |! p9 C3 s- T
    & d4 V4 n" m) W, |' v让我们来看看效果图
    ! w, H$ k: V+ }! T% v# s1.部分排版出现错误,js跳转没有问题,
    1 f) B" M. X1 X2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位) k( j* W1 _) w& q% m
    3.css可以修改

    : v2 n5 }$ [0 l; N0 s) a  p/ P; E  {6 A' g4 x

    % d( F. d9 Q1 _# h9 h( J+ \7 w: l: z' H$ _
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转( u# s, v2 D1 J9 B& F; z( s/ R; \
    由于会出现加载问题,本词典必须放在第一位

    ( P5 k/ f, X9 |* N: a* T9 q
    + n8 s# t' P1 \3 ~, e* k9 u那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开
    7 l; ?) C& p4 r( j5 C) a, c7 W& B- t! s$ Y) i0 D
    这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    / S. }( v6 }4 F7 {1 A8 l% A
    3 b) k; o5 C( S) `& C/ c3 h需要的工具
    1 Q$ R+ g- U! z' c' J! b9 n9 H0 w% I0 U
    1..emeditor64 百度6 j; h; B, w' {: a' g( }, W0 r
    2.MDict
    : d/ l$ |  Y1 Q7 L# [+ T4 ^http://www.mdict.cn/wp/?lang=zh! V& g) F- V, ]6 t
    3.Google浏览器
    ! }/ m+ @7 ]( v' @( }1 k% J$ e2 m/ J: Q# c+ |3 v
    我们来通过牛津搭配和牛津同义词字典来看看
    & r) X4 G" w) i( P0 O3 I& S- F' E7 t我们还是老方法得到两个合并在一起的txt,实现替换
    4 j5 o2 Z) e- R; }, r, T. t# t/ K# r4 M
    / B. f. G1 L! q8 ^7 _3 u( @
    得到mdx- A' T+ u9 [4 ^* J- N
    5 _' ?9 r8 U) U5 c5 O* W6 A
    我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤9 h6 m% }/ V: i. r; @
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    : F# c+ O" X" c& d1 U9 y2.提取源
    , Y5 C2 w$ N  @& B$ [3.使用Google打开  go.html/ u  K' k! I* Q! Y
    4.使用MdxExport.exe打开mdd得到之前他们两个的css
    : U. `. a  j1 h, h  j6 S& f7 S
    0 a9 v: l: n8 i我们查看测试文件牛津动词.mdx 排版一片混乱! c4 P" t9 v. N; `  z2 A, ?
    ( E0 O8 }$ `- U$ L

    / Z5 b0 z; {8 s我们使用这个新的css导入看看是什么样" V  G/ j/ F) y2 L3 F& @

    / y1 h% r- l5 b
    ! o; u+ h/ w5 K$ a0 _我们导入之前原有的css
    - ]9 u9 }6 u6 [  h! J9 A: O+ p' u* ^3 w' d1 j  s9 }7 i

    7 g& w, q, w' j修改新的css来删除标题字样5 B5 R! _$ I& {2 u7 D
    ; C  G& q6 ?  |) x( S) O5 w$ N

    ) b, }2 U# B+ ^) ^" W$ j$ q# X7 W/ K0 L
    + ]% n9 c4 j1 j- E) ~! D我们开始合并,使用MdxBuilder
    & _1 U3 k  C9 ?( h' {* ^) z& t. d# o0 z5 S  f# v8 o' S0 K. h) Z
    ' R" X  _. A: t1 _) {1 a& f0 O; o
    我们看看效果图9 }9 F  U) Q( g+ [' f( t

    3 y6 n* B+ G$ {/ X" x
    2 Q+ P# ^# r) f( x/ H大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~) G% O% K* v' K3 [5 q7 q0 Z$ d; P4 d
    " \" O+ q3 \$ _% w6 H
    7 ^% W) p3 O' a& U" j. z9 J

    + I; _" A6 A) G

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……5 A6 n/ R" K0 A0 ~2 V6 ?) j
    我粗略的看了一下
    ( x5 u2 h7 X9 n7 D似乎是比较简单粗暴的合并方式?
    + D( T( \6 G& F9 h+ f+ y我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57% s) ^0 b, x! \1 \9 m5 L
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

      r& O$ G6 F1 e# u' s....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    ' s) y  ?, @) n6 d4 _( g....额 请问为什么要清空 out 文件呢?
    : t+ q' U  D& b! l
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    . m- M$ k9 C2 I8 U那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...
    3 i0 ^: {( ]0 T# a# n* K+ v- A
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    7 K1 Q7 I7 U; D  ~* U- Q这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    8 s: {& X! a. X我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13
    ! u- v  M8 k# u* f  L我的也是,win7都不行,我有时间再试试看吧
    1 l+ H" H; E" T$ Q& X
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23( |& q  n$ V* ]% K- J
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    0 T; D" T" |- r( c6 c那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26- g$ p# t- X; H/ X3 A! [
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...
    , E+ V& j) }1 g7 g- L) j* F
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
    ! d" U0 j: L5 h/ H/ a9 {) s  r先码再看……
    " C$ ^5 ?0 t8 T; S, {( d我粗略的看了一下" K4 q6 @) M: C1 j9 A( Y) E' i. u
    似乎是比较简单粗暴的合并方式?

    ! P0 ?3 q2 r. l提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑 ( m5 X, ~  ]5 Q3 x( s( r1 L- I7 F( R
    Bouroz 发表于 2018-6-16 18:24
    ! l: K- T* A. o( m9 e. f提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    ( {4 _9 D, N7 V& a0 |2 D/ ?8 ^* n1 R1 c& N8 d$ b7 P3 E$ s3 t
    我也没系统化学过编程……
    ! q+ E( S5 ?1 U( S- r9 c先用论坛给的解压工具把mdx解开
    / c/ Q$ r5 W! M' ]使用EmEditor找到一个最具特征的单词(entry)
    5 \3 L' l$ d+ J1 U- i; k提取出单词对应的那部分4 [5 y+ ^- }6 U/ a9 Z
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    6 E: J9 w, Y+ ~. j只不过有时候为了单词的不同形式……比如单复数都能被搜索到。7 ~3 J0 i5 Z  [$ e6 Z
    然后使用notepad++的tidy2进行格式化排版
    - C9 O1 z2 A6 ^% e6 ]% M当然你也可以选择不用。
    0 ~& o1 h: m6 u( b' E主要是用来观察这个词典的格式化排版。
    : K: U+ r5 r6 F- ]词典的排版应该叫html的排版吧……
    5 x) ?: V$ ^6 r1 r找到规律以后
    8 K% Y$ V: |8 b8 x. }5 x我是用Python使用正则表达式进行提取的; o3 M4 j& n2 @. W7 s5 R
    比如论坛里比较著名的500万词的那个简明必应
    ( g4 ^% B* @! r. \1 n4 ^9 x/ g0 E+ J% M他是把html展开了,一行一行的。0 z0 d3 r& U5 r6 x
    但是其他词典的经常都是所有内容压缩在一行里了。& U1 J, w& ~) ?. w. i
    提取的时候要找到标签内的关键词部分。
    3 v( ^4 j, s4 d- n, h0 r$ ^( Q2 @" V; Y; b  Q
    其实吧……不知道你信不信
      P" x6 v( Z: M  Y! w我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    ; \4 S1 |2 Y* o6 h$ hCOCA BNC ANC之类的也都提了……1 ~2 {  i6 `6 B+ Z. P$ _2 h0 |) c
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    3 a# t/ L/ E; Z/ d( X8 h: i, a/ w& e8 u8 b: t
    我现在就是没时间把这些做成一个完整的查询系统9 p1 H: y7 G/ N2 W' v- n
    不过做好了一个词单的对比分析器。
    ' W. C+ a" Q7 H1 i% ~可以对比出两个词单之间的差距. D' F. m7 Y, U3 o
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……) s! p( M% s( W$ o1 v& n# {

    / K9 I5 J& |; e7 e4 C+ O* B至于教程……
    $ J, m3 L3 w  S: \9 k最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑
    / r3 ~& }6 d! B& d
    Bouroz 发表于 2018-6-16 18:24! K% M1 [  W/ b& A
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    8 t3 p% R" `# q, y# t, Q/ s  O8 o3 [6 ^4 T$ N% B5 B5 P4 t& @9 {! q
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild, p$ j  e# F( S! \* ]
    的分享给你,7天有效期的链接
    9 x3 z( S$ a2 t8 z6 w7 k8 x# G0 T# [7 r1 ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24
    $ C0 C+ L, c  K, t* `提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    8 G. z, ^$ S: {) d4 X3 m4 v
    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。! t& U1 c4 W5 c1 S& ?
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    0 b& e1 m, }0 A7 R& I% M但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28
      t0 p; Z% j* m& y& f. \! F, x哈哈哈 我也不太懂 可能需要编程啥的 太高深了
    6 k# R5 h8 D2 t5 S: G7 |
    您做的JavaScript的排版应该也属于编程部分吧* W1 z8 B! P) j& M2 G6 s: r
    而且也挺繁琐的。
    & d; j5 G1 R% i7 l+ I5 _其实提取词典不比您那个麻烦多少。; I9 U  R9 D, q! F' s1 }
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。
    8 L' {. A* m. D. T9 ]) {+ k$ V5 I6 M+ [1 t0 w3 _
    我看bt4baidu分享的抓取词典的开源代码部分。& g) _* |( S* l& ]" t8 J6 D
    好像就包含了如何抓取并且生成各种节点……% S2 s4 F) e& d, b, N

    5 C; t7 ~% b! w  c+ O6 U5 T9 w但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。  h6 h& Z4 p3 I/ s
    甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    " o! L% O$ ~( i+ _) ~当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的
    * T; A4 D$ a. V5 w; d1 w2 }我还没完全写好整合
    % O5 K  k% N. F6 m" Q' e4 R1 S
    8 ~' t# [& }6 s2 ~9 a
    $ v3 f" f" n, e8 [: b8 A- y
    ! |: D' A) A& Z; t# `2 ]这个东西我就先不公布了,理由如上
    ) Z( D. k5 {7 ], u8 r( E& S. _就是先自己研究明白了,而且还不知道设计啥版权不呢……8 v/ W+ C0 C1 X6 C: S

    1 J4 b7 x2 }: ?& o. x$ E- P这里还得谢谢楼主提示了我用EmEditor这个软件5 M# [# K2 W5 y/ b/ c, h2 w/ J
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    " Y7 a& z3 x7 K! S, Q含PoS(Part of Speech)词性版的
    5 y( L9 W" _7 t% h8 x我还没完全写好整合
    , E. @$ g3 E4 [" [- i8 C) O
    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 22:52 , Processed in 0.049643 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表