掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1754|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 ' W- l6 {8 O/ R+ a4 S+ _

    8 t- u" m! P- @' P5 Q; O) _- m已在 Github 上发布1 B) t$ L/ u2 p
    https://github.com/Snowdax/customiseMdxFromList
    1 S: R# I. ]& n( g* u: J1 ]: `8 @8 x: X; _, D; Q
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。5 n# e$ E4 \4 q% t
    5 [: `+ {/ [+ {
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/! ]7 f* D% S3 M8 O: q
    1 P) c6 D2 B" I* F
    customiseMdxFromList, c7 `9 r8 j+ D5 U' g9 t9 Q
    COCA5000.txt
    9 i4 Z) W( n& b) |# c+ }COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    & W# l# N" E/ R* E2 k/ E& K# w3 W2 A% r$ v
    COCA5000_list.py
    - H  x/ u( ^- {! GCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    7 Y7 g& \$ A7 @7 y& w) _3 A& y3 y, [5 \1 e5 d* J# b
    line2list.py
    2 ~" J, y% }- U8 p- L! V* [) k输入:文件名.txt1 T, ^9 F2 P, l2 N% X1 Y, `$ s
    输出:文件名_list.txt0 m0 |0 ~: P5 p" J+ t5 O
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    " [4 t/ N- b. L- q) w/ g# O( f4 X1 g1 `. b4 L0 P# ~+ ~
    customiseMdxFromList.py
    ; ]2 d* f) _) F+ q0 T2 f$ f首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
      K! s4 J% V4 {- B+ g8 H8 C
    9 T2 ~8 C3 s% C3 e, Q4 ]# ^7 f) \1 B* T
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:- g2 {$ p& J' z% H
    # y9 r7 @2 y: u% ]. |6 u1 v

    + `% N! f' H2 ]6 b接下来,就可以使用 customiseMdxFromList.py 了!8 F+ b5 L+ m' b! @+ ?8 X6 T& {
    输入:刚刚生成的 .txt 文件(文件名.txt)  l6 ]8 {. K4 j% }
    输出:文件名_customised.txt* Y2 @) T5 c0 ~6 I9 {
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块8 [) M  G) ~+ S4 U
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时1 r# J+ v! @, d, ^$ W0 ^& x! q

    ( C5 U5 b5 f2 D最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件3 F- o/ {  H+ D. u
    . v+ S6 D# X7 a$ O) H
    customiseMdxFromList.exe8 Y& G; Z5 S6 J% f7 t
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    ; G) }5 `1 w5 w; f7 i, d求助,如何把词典中不要的单词删除?
    - h3 s5 m& X1 Ahttps://www.pdawiki.com/forum/fo ... &fromuid=176529
    & k; I5 y% w# z/ }% @+ k(出处: 掌上百科)& j  X% \7 S$ P) C
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!- R1 B' M' U. E( \' Z; X
    输入:刚刚生成的 .txt 文件(文件名.txt):
    5 c8 ]) v# i/ r7 j$ e+ }输出:文件名_customised.txt
    ( a& A( k3 J$ V6 x: @( H- ]
    ( b0 h* L1 H* v0 y; O* I我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    1 s8 g' E3 N7 ^
    + Y0 O/ s  g/ J点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 % o7 @( R7 u: H" g7 c
    nidetou 发表于 2018-4-8 15:02
    ; {7 n. e( j1 s, G3 Y0 S; h点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    ( V" E7 O! T/ Z7 O' U' _) T* u
    0 z9 q% n0 r2 P) b+ H& T* b: i/ r
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    ( i7 c3 k5 L. e$ V3 q而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02- A) M# j5 ^  b* ]( E" x9 l( u
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    & ?- z; ]* `6 T, P- d. s, |我在 Windows 7 上没有测试。' O. ~1 `- p# }8 h+ g3 Y& S4 n
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08/ ?* c3 T8 c, }" U1 b+ H
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    4 s' s8 s, ^/ a3 B/ g, d9 T4 ~这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。" }7 Q; r1 ~4 {% [
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    3 K" w  i4 n; z这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    ! o: q6 t+ f  U$ z8 S* J可以用 8 楼说的那个程序,那个很快 ...
    - Q7 }. P, `; `$ `; Y2 o7 O
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46, t$ t# V. S, d# q' y2 g
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    / C0 u9 k+ c9 o- k' M- K  |
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    5 s" V6 V' A* O8 o这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    0 h* q8 t2 O7 d我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 04:17 , Processed in 0.048437 second(s), 18 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表