掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1803|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    2 z/ k. ^5 s; S! n; B; B- _
    5 {) p  g$ I6 a- y6 j已在 Github 上发布  A; |" S6 E& T$ j* p
    https://github.com/Snowdax/customiseMdxFromList  e- k1 Z9 Y6 x
    & _8 [+ y8 B, `
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    7 f& W& V; z0 K* z$ I
    & A1 [3 l* E  N1 O. x欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    8 Y- |  w5 @% z5 ^7 J) c
    " ~9 K7 V4 K1 d' y: l: y% fcustomiseMdxFromList
    2 H: `0 U" e# o$ h5 z5 T" LCOCA5000.txt
    0 A6 q# _0 @5 J& l2 _6 p% BCOCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行# A0 g) r- D2 f. y% q  l, b
    9 j7 r  V# f+ e0 w( o
    COCA5000_list.py
    + p; ^, d0 ~- o; ACOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    ; z5 N8 Y0 m# ^
      u! u3 G  {2 {' `line2list.py1 B; k, `  P2 \6 s1 m  ~9 X' k+ F
    输入:文件名.txt& g: s/ }) ^- a9 S
    输出:文件名_list.txt
    # [: [& Q# T9 R+ ~功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    " I5 R4 i  v4 _. m/ \# J* B  i, ?9 V9 _0 _7 y8 C
    customiseMdxFromList.py
    ' t9 C; V0 f4 ]9 A( P首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:3 @  B* o8 n! N* w
    6 e0 J& h. z0 U& z% w# M+ k

      M  `9 J+ V$ x1 {; i生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:+ [+ h. K* a  L% j. B) N

    - t5 O) v8 e" l2 J, O  K% ~+ X9 V& h0 o# p
    接下来,就可以使用 customiseMdxFromList.py 了!
    8 [* x' B0 \0 m$ Y' S0 _输入:刚刚生成的 .txt 文件(文件名.txt)
    : u& v( b3 ]  u$ G' Q' T输出:文件名_customised.txt; \- Z8 T5 T* }: {( j
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    - A+ r5 U( F: \性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    , a+ ~) {& v; D* [% H+ t  Q, u5 e9 ~/ {. L
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    + m$ K# Y  G' q" U' ]5 L$ v4 W5 ]( I$ v2 I7 I
    customiseMdxFromList.exe& o0 g  ?8 q. _7 Z, u  X- A- m
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    9 {+ s+ x+ H4 ?, J6 r求助,如何把词典中不要的单词删除?" V$ ?" a( e" D9 y& Y3 ^
    https://www.pdawiki.com/forum/fo ... &fromuid=176529
    6 r! x7 R3 j, F% N& X(出处: 掌上百科)
    ' s0 `* c& ?' n% Y' t, Y水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!- ]! P1 `+ H; J6 A4 \7 W3 }1 f
    输入:刚刚生成的 .txt 文件(文件名.txt):1 X+ b: U( z  `8 C- L
    输出:文件名_customised.txt- E. C3 D& W, v

    0 M9 Q$ R3 D0 P. u( \' H/ I0 l我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    8 }2 S( v2 j3 t3 Y  q5 `
    $ @& W4 O( g2 q+ Q1 I) o点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 ( u( ?4 f% G# Z6 _
    nidetou 发表于 2018-4-8 15:02
    + v6 U; ^; x& ~点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    3 h+ O) b  v8 L* N. S: V2 P: W
    : ~# j* n5 h/ M$ d$ @. j  L
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    - `  w" D( v. p1 n- n而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02! V' D* \/ {) O5 d5 ]; d2 P
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    * R# L1 E. G. B5 ]' n  P
    我在 Windows 7 上没有测试。- U1 t4 N4 E5 M/ j3 ]8 f. z$ h
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    ! f! [5 `% ^6 e% T/ x3 A神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    % X+ L+ z3 b/ v4 U2 v5 G这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    ' k0 U! r* C/ B, N可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23$ L* z9 k& B5 B1 V% c9 M
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。5 R: {+ L4 F: i
    可以用 8 楼说的那个程序,那个很快 ...

    ; w* `' P5 [/ W. C2 w4 P多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:464 Z- Y1 X* P. O' Z
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
      e1 Q3 i% {( I+ s2 F
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:454 v6 p6 M3 m) [+ A- J, G$ t
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    : p9 m5 x9 t  y
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 01:54 , Processed in 0.072245 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表