掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1756|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    : g# }; G. Q% X: S% L( W0 l4 C2 z. I6 ~
    已在 Github 上发布
    * r8 X; b/ k' c0 Qhttps://github.com/Snowdax/customiseMdxFromList
    ! t0 b' [+ ^$ }7 _0 g2 {3 ]% P
      r) ^7 @  s8 C0 xreadme 链接复制到论坛已失效,烦请移步 Github 阅读。+ Q+ M2 K2 @* j  V+ s
    8 d7 ?0 ~4 C4 e
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    % o/ D* F- q  h6 _( C/ F5 R6 R9 E: `& i: k) {
    customiseMdxFromList- X4 e7 D/ G: s$ s9 P- }# p) c
    COCA5000.txt' d; m* r/ {2 J" p
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行( D0 i8 ?$ L" G, t

    6 H* w& ^% v3 ?COCA5000_list.py
    : ~0 I! }; [/ D. hCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    ) }% g0 A  @6 ~( n) E; ^" g: ]1 K# f8 i9 h. L& [+ w
    line2list.py) [5 G3 G. J9 D
    输入:文件名.txt( k* Q9 E# i9 H2 `: N# R
    输出:文件名_list.txt# x0 p/ C9 S/ D
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    ) F7 j+ ~' ~& P( F7 s7 o5 @, i. s' n
    customiseMdxFromList.py: s4 i$ z- D& R0 L# y
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:/ ^# i! |' X6 z, Y# A' I# i; R
    6 P+ K/ A2 o8 \+ Y' w
    * z% J4 A% o! u; k
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    , J  O2 H2 m5 j1 S# _3 U# u
    $ W9 i3 Q7 ~# M; X5 y
    # i# B0 [5 {/ z. M$ p" t$ ~+ \接下来,就可以使用 customiseMdxFromList.py 了!
    6 N& h. m5 z. |& p. p- W输入:刚刚生成的 .txt 文件(文件名.txt)
    5 w- I, h' ?/ y/ K输出:文件名_customised.txt
    " Z# F' G$ E! P) v功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
      b; V/ ^4 {: m8 u4 p* a' R性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    % [6 q% s, F1 [: K  o( X  x, m7 D* h) e( A) n
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件$ H0 d2 ^* t% D- B

    # H9 v1 P6 _3 v0 @7 g6 G4 jcustomiseMdxFromList.exe
    : R# S/ h( U7 ^2 I6 H0 D5 q$ Q由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou 2 f4 [/ E/ m- P0 r+ e, K8 _$ T. N
    求助,如何把词典中不要的单词删除?$ Y3 O  q0 p/ p) `! q
    https://www.pdawiki.com/forum/fo ... &fromuid=176529
    & S- q6 A' m7 f9 e- N: W(出处: 掌上百科)
    " d( l3 ]2 ~7 V  x$ q6 f水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    : s/ d  t; e1 v" x  j输入:刚刚生成的 .txt 文件(文件名.txt):
    8 k) c  Y* x' A0 z) e输出:文件名_customised.txt
    5 E9 t. }  `& r
    & r' `2 P- V0 e+ h" c我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    / V/ [  q; q, p: `7 b8 x* y8 C+ S+ r8 j6 m9 i- T
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 % p5 @3 A8 [& k. D. z
    nidetou 发表于 2018-4-8 15:02
    5 s7 }- T6 M* X  s点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    . s6 G) g( ~- ~6 E& s0 J8 G/ H, Z# T0 l* d& H
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。2 w) z, P% x  W8 p$ L$ g
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02# N% F* V; s. K, ^
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    3 p) d" [! T4 x8 U我在 Windows 7 上没有测试。
    0 \& b0 e- @; Q9 Z如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    $ k9 B9 B2 Z% U$ C/ `2 H5 A神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    / y6 B8 N. @. \& [- f& j
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    . y/ _5 O* \, o1 H9 _可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    6 {$ p' s+ S6 Y8 W$ h这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。, C+ B+ h1 Q- e  D
    可以用 8 楼说的那个程序,那个很快 ...

    $ g4 z, a: q5 u' J+ I2 p3 ~多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    ; L7 ]# Y7 K3 Y多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    ; x; q1 G1 T# b3 }0 q* p4 g
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45' n' w( N9 c+ d' B9 q% P
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    & \4 B0 n2 A7 X/ Y5 m8 f我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 15:40 , Processed in 0.037873 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表