掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 842|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 ! f! n! l2 |! O! Q/ K
    + [9 E. k- n0 G# N, H. |$ v
    已在 Github 上发布2 a9 c6 V* b: j4 A) l. q# r' B
    https://github.com/Snowdax/customiseMdxFromList- F3 s" h. }8 R8 L9 w: i
    # M8 D- {' m! W2 B/ u7 T
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。; B$ [, X, |7 R3 A* S; u

    . d  J9 S- H& b2 U欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/4 `, q  w2 X  C0 W: Z. a6 e1 a

    # a! z+ n2 d" NcustomiseMdxFromList" u& {5 K7 [( f0 r1 v
    COCA5000.txt/ m& I1 V; a( v5 S/ {
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行, l: `( Y& m' ?8 o% q
    7 S2 q- w8 N0 M) u4 _
    COCA5000_list.py" Z2 J; U: L& ~5 c1 Z) t: p- J9 B
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。: Z, O" b- o6 U+ b1 K

    : ?0 Q. l% ?0 u- dline2list.py4 h1 y& N; Q: y" r
    输入:文件名.txt! Y2 l4 U7 S! t: A5 c
    输出:文件名_list.txt
      n3 f0 K9 C4 F" J) P功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。2 j! `) y! f1 E
    % ]3 K8 ~9 G$ b) o( O! A' x' g/ y+ S" q
    customiseMdxFromList.py
    6 H4 Y6 g5 n* K3 ^' S3 h首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:3 b- @, u# M4 ]: @* p
    & n; W4 `; N* x$ M0 u  b
    , R% b  q4 U/ |! a7 s
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:  j+ w( L  q$ h- `9 p5 \# z$ F6 W! ]
    + i1 x+ B3 ^6 i( I- k

    6 h9 r: p. R" [/ ~& B, C0 D接下来,就可以使用 customiseMdxFromList.py 了!
    + R+ H) Q% O9 L输入:刚刚生成的 .txt 文件(文件名.txt)
    : t  z; r9 t1 I  \1 z8 @: p输出:文件名_customised.txt
    , t' f3 O, R9 B  g7 I功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    + `) {+ g- o# C/ H7 |/ h性能:约 2.5 秒/词,5000 词合共约 3.5 小时9 t* g+ ~- t. m2 q; `4 ~
    . v! O2 @' i7 Y2 T% A; R% B
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件( v% S8 e+ V' J# B1 H6 {6 o

    # d. J& F' h' e8 U( YcustomiseMdxFromList.exe' P# ]0 Z0 ^4 a( V
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    2 w. b, I& X+ A9 J- Z! R求助,如何把词典中不要的单词删除?
    - Q1 c# u2 C; {) Khttps://www.pdawiki.com/forum/fo ... &fromuid=176529; S1 B. I- w* K- s2 ]  _+ k
    (出处: 掌上百科)% {* u- O* W4 h9 ]8 i; s
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!  S; n* R* \' E! N* ?
    输入:刚刚生成的 .txt 文件(文件名.txt):
    * Y1 N' n1 C$ d; q输出:文件名_customised.txt4 s- w" m! e6 j# ^2 `/ s

    / Y. U  f) d8 J* o- g( G( y我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 . T2 [! b. O2 g- r6 D3 k2 X: ~: c% [

    3 q* ^' S6 ~( z  H1 o3 i点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 2 M6 f0 @* N6 d, q5 [& |
    nidetou 发表于 2018-4-8 15:02- u# n: D# Z) S) C" J( Q4 Q
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    - U  W) R) k: n: r# T8 P- Z
    ' M( }3 K' Y! R$ n: F
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。# U' V4 F+ H% V$ }+ U, W0 g
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02/ O# G$ @6 j3 L3 A5 i% H1 G
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    5 m' `) ], C/ j- Q) ?我在 Windows 7 上没有测试。# `' B- R5 o5 H9 u  D2 p; k9 h! r
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08/ N% N9 F$ _# T# i+ {9 |
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    8 G6 z# t8 a& W- ]2 c1 N2 L这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    0 l( C& v4 @+ [9 F1 N/ J6 d可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23% r% v% C" @' t5 ]* y8 \- W% j* C$ I
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。9 e, r* D$ n  O/ u% l  _+ k' X8 E( N8 }
    可以用 8 楼说的那个程序,那个很快 ...

    1 W) s6 u. {( v, s$ L+ C) U+ C* h! D多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46- \$ P  B- D! c
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    5 }  ]0 _- w2 m( ?5 ^这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45' [8 y3 k! o$ ~! q9 }  s2 ?, }% E
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    . ^5 f) x7 x$ [8 l. {6 D; `  r我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI ( 美ICP 0000000字 )|网站地图

    GMT+8, 2021-10-16 16:47 , Processed in 0.037051 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表