掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1802|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    1 B: u+ w0 S( ~3 \) ~4 n; r8 U
    & F3 \. M6 M7 M' u0 ~% j  r4 p. i. N已在 Github 上发布1 o, ?; X" e7 M/ L* P6 ^1 a. {
    https://github.com/Snowdax/customiseMdxFromList/ x& d$ f( k; V5 H0 }

    7 i  u8 d5 w$ Y+ y# i9 Greadme 链接复制到论坛已失效,烦请移步 Github 阅读。
    ; J, u1 I7 p2 I3 o5 ]) w$ D/ _) z. m; o& C
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    3 X4 A& r6 n& t1 s7 Q" i# W& _. O7 V. @/ v! z* k: x, p
    customiseMdxFromList7 o) G( n2 P% D; K) N
    COCA5000.txt
    6 ^) T  v3 P" c$ Y, g" YCOCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    - n7 G4 O9 x& J- n
    + D7 P5 C- J' Q1 b" d) XCOCA5000_list.py
    5 f: J. k% t: c0 `  [, u0 vCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    ( q6 R3 F  I. Y* \( e  [2 N; A- r0 t6 U
    line2list.py% c" q; n2 M/ c3 B( t9 L" B. }
    输入:文件名.txt7 R" o0 M7 U. T6 ]  M# j* ^
    输出:文件名_list.txt: E$ a4 d* V! @9 w; j$ u* r
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    - k* P( y9 n& O; ^6 `9 H$ [5 {* t1 U4 p2 Q0 P5 U& M
    customiseMdxFromList.py
    . [* M  Z: E' e2 \* `; [- U首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    5 C1 D+ [0 p: g8 s, w5 n8 D& x7 _# Z) Q. {9 y' `; d: @& o

    9 f* Q- Q" k3 q5 J" N生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    - u; k7 I- s, E6 z8 F2 Y3 {
    9 R0 A6 e+ z  _% @3 K- r3 x/ `  ?& V, Q1 A: ?
    接下来,就可以使用 customiseMdxFromList.py 了!
    - f5 \7 z* w6 z1 Z) i. O" Q) Y输入:刚刚生成的 .txt 文件(文件名.txt)
    6 y; C' i; D7 p! U* U2 w1 H输出:文件名_customised.txt
    - e& `5 b. D& M' I0 b6 d# @功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块1 U; n; ]7 J# g7 g) L
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时- N3 d' a% O3 Z$ l! _" e3 q
    0 I0 ]1 D  k/ t% w
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件9 j$ k8 x0 z$ |- {' B& {) S

    # f4 x# w1 b* ?customiseMdxFromList.exe
    $ q5 M* k: \+ L4 j' q7 C3 X/ s4 [由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou 3 b3 E$ \+ K/ C$ v1 s7 Y
    求助,如何把词典中不要的单词删除?
    ! ]/ [, K5 H6 qhttps://www.pdawiki.com/forum/fo ... &fromuid=176529
    8 F; {7 n  p5 N6 B7 Y$ A(出处: 掌上百科)$ h! r/ l/ Q9 R% K% M6 z5 W
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    ) I, o) D1 b7 X输入:刚刚生成的 .txt 文件(文件名.txt):
    & ~0 m( p! D8 b6 N4 X0 ^输出:文件名_customised.txt0 u: ~0 d' E, D! L- z( a

    4 o+ w, [; S5 b0 G! y' W8 k" {我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    ! j3 D4 X; [! [, K: J
    ) I4 X1 ~  w: N. L" D4 k点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    / p, F3 R" s, B
    nidetou 发表于 2018-4-8 15:02
    ; d" C8 A+ p7 N: p$ _1 \点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    7 z8 t+ |* i, r6 N& d
    ; m" `' N# e" M& k9 C; t
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。- q. _0 b$ y7 ?2 `+ u% r: S
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
      f0 ?7 g7 v! J" t' Z点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    0 X( H" K& c3 x/ ]
    我在 Windows 7 上没有测试。: a+ \1 c% u! y' P0 ~' o4 a
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    ! v* ~" `0 d' q神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    5 }$ T8 p$ I: S: U- P; n这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    ' s1 ~. }5 P9 [+ c7 \0 M& o可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:230 t0 S2 e* e6 |1 D$ B0 A7 S
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。" a6 S! w3 u4 `- p% @$ w5 `
    可以用 8 楼说的那个程序,那个很快 ...

    4 l8 y/ w" s* c- V, i多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    * @( E, I; H: H2 w& R: ~多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    4 X- R+ D& m! p/ [1 c
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45: I; h. F1 {5 O& N7 G
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    4 P4 \7 u% ~: q  Q) A我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 22:54 , Processed in 0.087156 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表