掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1784|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 7 i- n3 ]0 b; m& D; M5 M6 q5 u
    3 F8 `% e' A. [; o* `4 P* s( O: m
    已在 Github 上发布! B5 m5 {( C9 h- `, ]2 }
    https://github.com/Snowdax/customiseMdxFromList
    , F. E, C/ x6 l; r" S/ K# W8 J0 H! V  V: e" z9 I8 Y
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    " @: O$ b+ W. k1 V+ P% @' b4 ]/ O6 D; ~$ P
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/# {. l: \% d+ m' c
    1 Y8 v% `# Y; s+ O" F# [
    customiseMdxFromList& R$ `& I* g! Y% }) g; X1 a9 ?
    COCA5000.txt
    ( h$ f- T) k/ D) gCOCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    " M8 G" X6 C9 t1 s4 {0 q6 H( ~1 A9 m& N* ?6 y6 }6 V# E7 j
    COCA5000_list.py! N. G, R2 g* U4 ]5 m
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。8 w% o+ S6 f% e/ X' Y- V

    : l1 j6 W9 y7 `& p+ K4 Mline2list.py* Y+ o) q, X) }4 @' h
    输入:文件名.txt" d: I; d- J1 i; e
    输出:文件名_list.txt/ W0 P- i& R' h" f
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。; G3 _/ w# ]6 X6 h% B8 `

    . w1 y( M: e4 i0 u( l4 dcustomiseMdxFromList.py8 _9 c$ l0 |2 S
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:1 F+ {& ?# G' ~
    6 E2 l1 \" h/ x5 B% N) R8 K3 {

    4 K& H# o) W( i' d/ A$ M, I: H生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
      F" O/ P, ^9 [$ q8 ^" H( q8 v6 c! R6 d: _1 C
    - C! p% m+ `1 K, H' |' `$ @& ~
    接下来,就可以使用 customiseMdxFromList.py 了!$ y4 C3 \2 s8 G
    输入:刚刚生成的 .txt 文件(文件名.txt)9 ^* S* b1 C1 e5 u, Y5 n8 s
    输出:文件名_customised.txt( b2 K- e0 V6 {  O- I0 _4 g6 R
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    ) g/ E' n, n5 x2 Q6 E" X性能:约 2.5 秒/词,5000 词合共约 3.5 小时) U7 Q, w+ q* g- G+ p, ?( Q
    9 K% J1 B; ?8 S5 P* y3 Q& \, Q
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件6 W, T% P" ]8 {% ~3 w) ^. h
    ; w& P. y  r. a7 Y! F# C1 i
    customiseMdxFromList.exe
    , x- D/ d1 |& R3 d* f3 V由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    : \9 B* q% z3 r# W0 K- p/ F5 {5 f求助,如何把词典中不要的单词删除?
    3 V' l: `+ L+ W6 hhttps://www.pdawiki.com/forum/fo ... &fromuid=176529  E6 T- A  y+ x4 o" _
    (出处: 掌上百科)
    & s+ \" s% e7 ]  p: f水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!6 g. y) w. J$ Z! F9 y: d1 }
    输入:刚刚生成的 .txt 文件(文件名.txt):" i  }( b. X1 Y- N& c& W
    输出:文件名_customised.txt4 f* m+ {  R' l2 |
    + u* E3 t' \1 C  a/ B8 c& C6 |
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 - X3 E% A7 f5 ]% h/ J
    + T; l' H& X7 a" h
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    & ?. L8 ~) d3 x5 r- J
    nidetou 发表于 2018-4-8 15:02
    3 r+ O/ ?( R1 o# n9 i7 ], J点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    , U% {  o) P- j
    ; ?- a, y6 d, ~1 Z$ w* y/ ?! T: p虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    . [: l& w4 O( u4 f. b+ Q而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02% H, A- T2 [& a& g& j5 e
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    - z$ C$ I, {2 j4 T( H2 i我在 Windows 7 上没有测试。
    ) L$ g4 q2 v: b5 `5 s7 Q如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    0 |4 j/ }# p; j4 F" y8 g# P0 b& X神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    $ ?) ~8 W% c, S8 r) I' j, G$ T
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。# Q+ l2 o' Z+ |. m
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    5 Q- |4 X. m; L7 J; l" D  i1 `1 D  Z这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。" v. H( j0 Y8 U# D4 j
    可以用 8 楼说的那个程序,那个很快 ...

    9 |1 T  ]; B0 F" Z多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    , R# K& a6 R3 X! Q3 @* n多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    8 s3 J4 k$ {) a0 m# t& F  O+ [, _
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    1 k- B/ Y" ~2 w3 H# p: t6 V9 b3 Q这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    5 h/ A4 A' z/ _& X) j; o
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-18 11:35 , Processed in 0.065730 second(s), 18 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表