掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1757|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    & o0 d1 q% p$ D, g7 A# `2 R
    6 q- |; y! p; o% {已在 Github 上发布. ~% k+ a4 ~! h$ q
    https://github.com/Snowdax/customiseMdxFromList! ?0 u2 \$ n3 A( h% g$ I- n0 _
    7 X6 g( E' |9 k7 F# X) ^: C8 h
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    6 L; u8 m$ G$ M# I
    ' j+ L1 p; \9 }" ~: r  A欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    6 @( d) F! X" e- ?3 i6 m; i7 q6 H2 x
    customiseMdxFromList
    ( k1 y  p; Q$ L* ^/ ^' OCOCA5000.txt
    0 y$ x1 t- J2 \& K+ pCOCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    ! X/ X5 Y' j, N8 u9 j: g) ], c9 g
    + `6 x2 r3 e* {& [! j' x1 FCOCA5000_list.py2 p& i% z) \$ H" @
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。; }& P# K  v7 f% H
    + [9 ^* u9 H  D! L& i0 N0 \: s! v
    line2list.py# ]& }/ c' I" A' }! c
    输入:文件名.txt5 K0 S; v9 X/ P+ y
    输出:文件名_list.txt
    8 F, {7 H" K# u9 b, W) A功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    , B4 M/ J. F" \. M0 F6 g$ u( U+ B1 i8 ?( `) ~% ]5 z
    customiseMdxFromList.py, f+ v0 b9 U, l& p' _5 Z5 e( b' O
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    ) H5 |8 K$ n5 }9 J6 l$ n* ~& [! W: \5 T& ^6 x8 R) m
    0 K( j$ v; ^% b+ I, C! s& f
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:6 k7 O, \# O6 O3 \

    1 \- O# c7 d% Q/ X
    5 x( U/ Y: l0 K) Y2 ^# K接下来,就可以使用 customiseMdxFromList.py 了!
    9 y! r& u' _/ G输入:刚刚生成的 .txt 文件(文件名.txt)0 R  `4 w( S& k7 `: q" |
    输出:文件名_customised.txt
    & b; H  q$ f0 e+ m3 y功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    3 ?, B+ Y6 [" G, j6 ]* F性能:约 2.5 秒/词,5000 词合共约 3.5 小时3 Y6 ^4 |. h" B; v* D) D% `
    2 K7 Q9 r" ^. `% Z8 t& m/ D2 \+ X
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件  ]* s- N" z. V, k' V) a5 o# m* O8 ~, h# A
    * u. y' q/ x/ p% U  y, ]
    customiseMdxFromList.exe
    : N6 p1 Q8 k+ V由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou , L  Q: V" _# z/ l
    求助,如何把词典中不要的单词删除?
      i7 a( j/ C+ t# n6 J$ Shttps://www.pdawiki.com/forum/fo ... &fromuid=176529; X, y# p9 m  L6 N
    (出处: 掌上百科)* P$ u& J0 s( s7 Z# F7 X7 `
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!1 T0 V& w- z; A
    输入:刚刚生成的 .txt 文件(文件名.txt):
    - F" z2 I. {9 f/ a  n  a4 d输出:文件名_customised.txt
    , h4 L" M- x6 t; K3 m
    5 h# b1 b& d+ O8 @' Q% C我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 3 j7 k! s/ |" w2 Z, \# E/ Y
    7 p* w9 O, n$ K% {2 R9 B8 f& ^
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 ! P* P$ h" Z+ j8 g
    nidetou 发表于 2018-4-8 15:02
    " G# J, |7 g/ ^/ S) ?8 o点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    ! x! L- T2 |% c  j- @8 a, s$ W# B: Q& E: p
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    4 X0 I1 Z, K* Y, g而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    1 _5 k' C# n7 D6 x. N5 n8 }* o点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    * E0 ~. K1 u; ~3 x我在 Windows 7 上没有测试。1 a: C! ~# ~5 q5 H5 h
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:089 A1 N7 V; u( C" ^  M0 `
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    0 ^& W' c; R* Z- v1 b, k
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。7 f3 Q1 J/ Y& `5 ?1 O7 O! L
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    * N: k5 J: x7 w. p  C) W这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    : [) l5 ]2 W! o. F; w# T2 }2 X可以用 8 楼说的那个程序,那个很快 ...
    6 T8 \! \! Y& f8 x5 ?% m# N
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    , L  Y  {" i/ g/ A; B多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    & Q0 Y* c6 E7 \. Q$ L9 D
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    2 x! ^7 B6 u! C: i8 P( K2 A这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    ' u3 a$ D, L8 O1 L5 r+ b
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 21:46 , Processed in 0.037351 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表