掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2544|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 % p# t3 Q8 ]; |; R3 o
    5 q3 }* r* V/ i) u
    已在 Github 上发布
    7 I( A. {2 n8 o" Fhttps://github.com/Snowdax/customiseMdxFromList
    " N7 L6 B0 S. r3 l7 o
    ! {: w% M) S+ \2 {( W' breadme 链接复制到论坛已失效,烦请移步 Github 阅读。1 c8 w" ]: }# _$ c* w8 [: W% u, t
    1 z2 t9 U% ]8 a1 t  E2 @& l
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    + b, ]8 w+ ?: ]* b: d1 v0 z) f+ G
    customiseMdxFromList
    ; d2 h. E9 w- g8 f) s. \, dCOCA5000.txt$ c+ P0 p) L$ y2 |. C5 V- I
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行; I: c* o( n. P0 r( v
    ) V1 r0 ~5 F2 ~( S9 V8 g$ T# d
    COCA5000_list.py
    ! [8 l! z& R) Y7 HCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。. i# c8 K$ a0 N  d4 ?# Z
    * A5 [' S9 ]" p) K3 U& s( e
    line2list.py
    & }; b) R2 |  B2 {% C) ^输入:文件名.txt
    # ~( I0 b! ~  Y4 d  k9 E8 m输出:文件名_list.txt
    4 K1 U; V- T+ g: m5 l5 A功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    ) n- A# V' A/ c7 w: }' b% j$ _: ?1 K: K+ r
    customiseMdxFromList.py
    . _( k* w6 H3 z首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    9 A* t3 e+ c: C; q- @! n6 J8 Q6 _6 O! S; t/ s

    4 g* n+ m4 a, L9 H7 ~. x( c生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    0 A2 x$ S' s2 T1 V+ D3 h7 b- [
    2 T6 `8 q' Q+ }* p* t* [0 S; L: R* {& T( w* p5 k
    接下来,就可以使用 customiseMdxFromList.py 了!
    4 z& j) c9 o6 K6 R+ Q  w7 s) q输入:刚刚生成的 .txt 文件(文件名.txt)
    & j3 _* H6 S; g) u8 g2 c输出:文件名_customised.txt
    ' y8 J# f. }# z! [( f' R功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    / _# h1 v0 a: s9 m+ y1 {  r性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    : }0 [; I& t9 k
    - W4 w! P- b& L3 C7 l( K/ d% c最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件' j+ h" c+ `4 U
    * d: h) S2 x5 v/ [: F
    customiseMdxFromList.exe+ C) R$ Z- y, Q+ X0 ^
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou 1 A+ A" _( r) N6 b
    求助,如何把词典中不要的单词删除?" Z/ l  w/ Q: `3 k
    https://www.pdawiki.com/forum/fo ... &fromuid=176529; e/ t0 U3 Z  X( e
    (出处: 掌上百科)/ p7 t( ^$ e# v7 W! F' P
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    ' l( `5 E! T0 ~3 p  r- P5 M输入:刚刚生成的 .txt 文件(文件名.txt):
    ( [3 ^* g' ]/ H- i# o" M输出:文件名_customised.txt# k9 W, j+ Q$ K* ~

    6 n) n8 `( S- k( v7 u2 @" O我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 6 U# A0 n  E, b) W$ \
    & S3 U9 U7 e; z
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    ) y% R* E4 Q  V, @8 u- u
    nidetou 发表于 2018-4-8 15:02
    ! |9 m  T7 C: q! n: F- r点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    8 x, {- a3 _& K( g
    ' K( v( O# }$ {5 _$ N/ R
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。; f% B7 U8 W/ F1 q+ e. Y" H+ p! r
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    ; \: K* w7 Y/ D! U0 ?- C点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    ' W# a1 u+ U2 j3 l' n3 r# B
    我在 Windows 7 上没有测试。. U! U4 G, b8 }
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08/ R: ~. y5 V+ O- K) o6 x8 B
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    % p; E& h. h0 i! s/ A/ L9 t8 ]% F
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。5 U1 Q& r) Q# `$ h$ x& u
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    " p- i0 c+ @6 e+ D1 h/ K7 r这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。; ~( Q5 Z, @0 O0 v# Y0 |
    可以用 8 楼说的那个程序,那个很快 ...

    6 T$ L- u+ B; n: V" M. ^4 O多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    ' r) d3 M  R* |9 q& l# }; u2 O4 m多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    ; ]. C2 [) ?) C# k9 u; P* r
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    ! Y( m! ~( o( ?' H0 p; Q" ^6 L这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    & s5 \+ K2 e1 s2 Q$ ?3 |
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 04:09 , Processed in 0.023781 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表