掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2553|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑   Q! \' O+ t3 j! S# c6 @
    0 c" D& }' Z" k5 z
    已在 Github 上发布
    & U0 t+ i# I" V/ V$ T0 uhttps://github.com/Snowdax/customiseMdxFromList$ K% T9 b% h5 [5 j; M/ Y  q

    ' t; n& C6 D) D, R. e; m$ t: Q" K" ereadme 链接复制到论坛已失效,烦请移步 Github 阅读。
    - K' M  }; u1 k8 E8 D1 K
    9 F% A4 U) N6 k欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/% P1 f! `9 s9 P# y0 y" k3 ^' i

    * J3 o5 r5 Q9 ~" lcustomiseMdxFromList
    0 |) Z, s# G% O' M  T3 Z" PCOCA5000.txt$ z! N: x, t( b& N5 j- T  v
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行) i) ^  m1 F7 |5 Y/ o

    9 v! `, L% W# Z4 y: FCOCA5000_list.py+ H  o5 y; ]4 C
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    * c; n1 \5 h# G( a& j. D
    6 Y" u4 @. m- p. s- j: Iline2list.py) Q/ ]. B$ s& f' c; K/ o' ~7 N
    输入:文件名.txt7 \9 m$ s0 k% W- J
    输出:文件名_list.txt, Y' r" n) u2 ?) ?8 T
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。2 e9 a6 |0 f; C2 p2 |; k
    " W( }: j0 J# ?% _" A
    customiseMdxFromList.py1 J, S2 S! t7 `, [$ M
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:; l8 W+ l1 R, s: i. n7 l; X
    - b. Q/ x0 K( E* s* X
    / S+ x& j0 ?% h( y9 {( l, x' t
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:8 L" @$ m" D% `! v, Z

    2 ~# y  o$ w; F, v9 N1 h% l+ _# {! ]
    接下来,就可以使用 customiseMdxFromList.py 了!
    2 k4 p1 X. {$ g2 q* J. w& ^3 F& `输入:刚刚生成的 .txt 文件(文件名.txt)
    - S3 |# k) @1 d3 d输出:文件名_customised.txt
    $ V. T! @) P) i7 N9 W" R: g7 ]功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块5 Y3 U+ j3 G2 J! P7 |
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    / ^' Z& i# B4 @3 M7 B% a( [2 Q; q; M9 @& M, t$ [
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    * b. b; Q3 t! C
    ! N2 Y0 n9 ~. Q4 I8 KcustomiseMdxFromList.exe5 G' @7 q; D# T4 s: a, P7 ]
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou . ^9 ]+ Y0 s( x1 ~; k- J3 r
    求助,如何把词典中不要的单词删除?
    % x9 |2 F$ \% M8 b+ zhttps://www.pdawiki.com/forum/fo ... &fromuid=176529
    6 u/ a$ b% v- K2 p9 G# _(出处: 掌上百科)5 k$ ?: ]& Y7 k( ]; k8 y* J
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    3 J( }1 {2 m# U2 C/ c1 D$ r输入:刚刚生成的 .txt 文件(文件名.txt):
    . |' e7 X* j: T( [2 O- K/ s输出:文件名_customised.txt
    9 a  Z6 T, r* `/ y
    ) `: H0 P% w, F5 I3 r8 |) h6 G% w我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 . i) M) m4 m- w: z

    / g( E+ u) k. f  n+ d% Y点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 $ `  S) N( l. x: W
    nidetou 发表于 2018-4-8 15:02
    7 R# ?6 X+ j) J6 T' T点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    , E" r" `. s: ^. T1 r  N
    / E5 `7 v$ U& U/ I9 V% z+ Z
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    4 ~' M+ ~4 P1 b6 q+ {/ \* a而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    0 j" h2 _6 |4 y5 b! _5 X0 g- n+ [点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    8 a* T! I' {& N# _我在 Windows 7 上没有测试。
    4 ?5 Q0 A8 D. ~如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:088 s9 h2 L) g7 T% [0 E6 j
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    8 {. W+ N' Z% {: K  o这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    - w9 k7 j( p; E# P& Y% h2 H6 i可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    4 z) l2 L: e2 y+ R  u这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。, t4 h: x7 E3 k! y+ e3 y1 h
    可以用 8 楼说的那个程序,那个很快 ...
    - c( p8 z2 L  x3 l
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46* ^0 }% F5 H9 z6 g
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    ; A$ `- N/ H, p- h$ N6 D2 ^这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:451 f  T1 P( }0 n8 m. r
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    % m& G( p5 O& O; A- T我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-12 20:45 , Processed in 0.022408 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表