掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3477|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    & F9 Q$ v! T+ V8 b) p1 m+ ]4 y3 S3 Z2 F5 q
    已在 Github 上发布/ u. V1 U3 G0 Q! k6 H/ ]% i6 Q+ B, ~
    https://github.com/Snowdax/customiseMdxFromList' h1 T6 M0 v8 ~9 f- G, b

    4 u( i& x7 U4 V# e3 r. ^+ kreadme 链接复制到论坛已失效,烦请移步 Github 阅读。! `- R6 ^" \  }
    & O& \% N# d1 W' V: i
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    9 p; m" i6 t+ u# D6 {5 K  i; c$ ^, C1 m$ I3 z
    customiseMdxFromList
    8 k9 r6 }3 Z, X4 YCOCA5000.txt* i; T. {# d2 ~
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行' L- o7 b4 S, K, B* r
    ( E# f" J  S0 u" m' S- t
    COCA5000_list.py
    ' I" ~  S2 B# n; _- ?; y3 _COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。" Q9 T* _( l. }/ ^+ |
      \5 Z0 p7 ]) h; \4 K' i
    line2list.py0 z/ z& n1 W, q( w5 V9 t
    输入:文件名.txt, M4 f" y4 M2 @8 ~
    输出:文件名_list.txt* T& n! f* L. O# T, s; V$ T
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。$ z2 H7 e+ @' y

    & E4 W. `0 r) x3 n" Q  G% C  q9 AcustomiseMdxFromList.py* H3 F. O; C) X" e8 V0 G, U
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    . m0 k( \( k2 r' ?+ x# W
    ' y4 }% V0 P- t, l6 t" Y& k3 x$ R7 x, n
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    0 S6 x3 B9 f' B/ p: j
    1 a( y( D9 M' I& N$ _) A
    ' x3 K: f5 y, P5 f1 |5 B接下来,就可以使用 customiseMdxFromList.py 了!
    5 C. I" r% P; r$ T+ E输入:刚刚生成的 .txt 文件(文件名.txt)
    5 U8 O1 J/ ?: [5 T7 M输出:文件名_customised.txt
    : ~2 v% g- g. }! m( e# X功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    : y5 E! C2 T$ K' i' d6 [性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    $ H/ o6 P) u5 V2 N, Z1 K. \, h- {3 `' w9 o+ R, }2 ~
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件$ B2 S5 G3 v) `) _) Z2 Z( ~% [1 p$ j

    2 J! ^4 t9 y% NcustomiseMdxFromList.exe: [* \7 U$ M' {
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    - W1 l' X0 j. B( F4 T求助,如何把词典中不要的单词删除?0 h% T/ D: _0 h$ T' @+ p, ~
    https://www.pdawiki.com/forum/fo ... &fromuid=1765293 K  _8 f2 N) P9 @, A$ n7 P; h% I
    (出处: 掌上百科)
    6 n- T& K) @0 {  [& O水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!0 r* G( {* j, a
    输入:刚刚生成的 .txt 文件(文件名.txt):
    $ V" R2 D5 H! z) s# C$ r输出:文件名_customised.txt, i# a) o6 y* b8 n: o
    1 m/ c1 j% z9 k
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    4 y7 c: \$ @( D$ z. o9 A$ c0 t* x  V- s2 U( f
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    2 K  D$ w2 k% E& D
    nidetou 发表于 2018-4-8 15:02
    % R9 S' o2 A. [) K' R% B6 B点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    . Q# S6 H. i$ N4 q$ `  |( L- U% d1 _

    ' a5 b  M6 e4 X虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    . k' I, l: J% r' u, G而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02% y- Z+ C9 Q- }# x. q' }7 z. @3 `
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    8 `8 k2 l. `; Y我在 Windows 7 上没有测试。2 A6 m& |: ~3 s7 r+ I1 G
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08- B4 Q( O; B0 w0 j" H: n
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    ! J' |7 ]8 _9 c# Y
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    7 [( y* G' U. L9 L6 z+ d1 ^- \8 G可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    # b, p1 O8 s5 a3 W1 ^! A$ C  }这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    . k  ?$ ~! [5 K. }* f可以用 8 楼说的那个程序,那个很快 ...

    : w, R/ Z  m1 ^. A/ ]多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46) ]- t9 m# r$ J4 ?
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    * S+ c6 e6 @8 ^' j
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    ( Q7 L& j& Y) P; c. t5 r. K这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    ; ^0 Q* k( U; l( l
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-20 11:17 , Processed in 0.025227 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表