掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 39052|回复: 413

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

    发表于 2019-10-9 03:46:36 | 显示全部楼层 |阅读模式
    本帖最后由 lgmcw 于 2020-11-19 22:31 编辑 ! L7 h/ d  B$ `# c- K
    & W4 f  {+ R6 f/ l: Y8 j
    这帖target的是硬核玩家,希望对有需要的人有所帮助。代码比较乱,拖了好久都懒得整理,正好朋友又找我需要,趁着一鼓作气整理出来就正好也贴在论坛里吧。我这里不跟进你那边的环境调试了,如果有运行错误自己修一下(python3可参考楼下的修改经验);不过还是鼓励回帖反馈。对我以后做新人友好版有帮助。2 d; m" B1 H& S6 k  Y6 J) Z
    以后我会做一款带GUI的,针对小白玩家。5 P# T0 G: C$ M4 G4 W) I( `

    ; m7 M: E- `8 ?' o! t) J  b" o; N# L入口文件,运行genMDX_ox4.py即可开始打包,附了一个牛津4的txt源码,我已经调试好,确保在我这里能工作,下载后可以直接运行用来测试程序。我的所有字典都是用这个程序打包,暂时没什么大问题。词条数最多我试过的简明英汉400多万词头;体积最大的OED,txt源码就有2.4G;这些打包都毫无压力。不过我这边还在用老古董python2.7;python3应该也能用,如果报错,可能需要自己debug一下。/ r' Q% v. I4 n3 N( W. C5 A3 v
    genMDX_ox4.py is the entrance file you want to use in CMD/terminal. I've also enlcosed a OALD4_azure.txt for testing purpose.
    & C$ l5 i+ q) K3 _0 ~+ B, I5 Q% A$ F( c6 n1 r( m5 L- {8 ^

    0 d& R) S; {4 m. c9 l6 o
    6 Q8 P0 J9 ?, r$ \" V7 B8 X$ hWindows下运行举例(需安装python):
    , B, ?  \$ b" t1 o( ]  R! R  z$ A7 H
    + T9 ^$ I7 b5 ~2 m2 [% _4 {
    相较于原版我主要改了两个地方:
    " _6 O4 R3 `1 h9 ^% z8 k1. 在代码里,以前一个字典的key只能对应唯一个value。而MDict完全支持多个相同词头对应多个意思。所以我改了代码,让一个字典的key可以对应多个value" p4 D+ q5 j6 @! {3 C
    2. 修改排序算法,原版是用的默认python排序,输出的文件在MDict简直不能查。GD勉强能查。
    " [! x6 B/ F" b% J+ C: q5 N7 @; b" c) R$ U1 H; E

    , m# }2 n: J+ D1 Q. e! q, L' N/ Q9 Q2 m( {
    Python实现的txt转MDX代码:5 A$ ?2 M! T5 Z* T

    + F* g; Z& f+ O' a" ]
    游客,如果您要查看本帖隐藏内容请回复
    欢迎提建议
    / q: Y; o) ^5 J  f" ]* K5 |5 q⚜ 感兴趣可以看看我的其他字典,绝大部分都公开分享。8 u: l. [* {- _( F. ]/ g# ?
    - c- F; {( c& E0 ~1 H
    / |9 w; Y( l  |, S
    # J' t% f4 B& w" D
    " _. I$ l8 o4 h: z& E  H5 i4 Q

    0 N( A7 m0 ]0 p0 y1 W# L+ G0 U: g: i/ O

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2021-7-23 14:38:37 | 显示全部楼层
    python3.8.9调试成功!# `# J. ~% l: x- j8 x) ^+ k/ A
    3 l/ J3 U& e7 U: Q) t- v
    做了如下修改:
    ) \' h. z2 z5 `
    # `# N$ b8 d$ \/ c4 n1.genMDX_ox4.py
    3 U, Q$ g0 }9 o( O0 E. m; G8 \; [" g2 D8 g  T; p
    (1)注释掉前三行# -*- coding: GBK -*-  # coding: utf-8  # encoding=utf8,解决SyntaxError: encoding problem: GBK
    6 ~" ]9 }6 s( c# D6 }" U, n9 Q& r" t0 k  ]5 l0 R* \8 l
    (2)注释掉import sys  reload(sys)  sys.setdefaultencoding('utf-8'),python3不需要了# o+ n2 ?5 `2 p! z( {  d

    2 O- J1 E1 v* [1 S# ?  i(3)打开、写入的文件加上当前路径(import os;current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt",),解决No such file or directory:
    " t% y. m) r" |2 T- M* A
    3 M) Y* y. C- o/ k2 L(4)大神提示OALD4_azure.txt、about_OX4.txt使用utf-8格式。我试了下,两个文件转换为gb2312,代码修改为encoding='ANSI',也可以成功。另外,goldendict可以打开这两种编码的mdx,mdictpc版只能打开ANSI编码的mdx文件。- H% p/ y+ ~  c; @
      ]/ D/ n6 v1 |3 b7 |
    2.writemdict.py
    : ~  M& \6 r. p1 f  l5 v& ?% f. F7 I4 B, p* \2 d" }
    修改 from cgi import escape为 from html import escape,解决cannot import name 'escape' from 'cgi' ,因为python3 cgi.py里面已经没有escape了。换成html,可以用,暂未发现问题。

    评分

    1

    查看全部评分

  • TA的每日心情
    无聊
    2023-12-27 22:43
  • 签到天数: 500 天

    [LV.9]以坛为家II

    发表于 2019-12-6 14:19:04 | 显示全部楼层
    我的是Python3.7的,genMDX_ox4.py文件里面的* Y. L# q3 W% \8 ]
    imp.reload(sys)改为:
    ; d5 A: e4 q- p/ O6 Z, u+ Qimport importlib
    0 M, u1 \2 e  ?importlib.reload(sys)
    ; ~, j0 Y5 Z2 E; ~然后删掉:sys.setdefaultencoding("utf-8")
    & N3 Y- t/ ~6 R5 P8 e测试通过。
    + I) ~. S" Z# D! z; y- B5 W; e- a+ q
    ' _( W" }) w: z$ f  D但是生成的词典,用SourceEditor打不开,PC版GoldenDict,安卓版欧路可以打开。汇报完毕。

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2023-3-9 22:28:50 | 显示全部楼层
    好的,感谢老铁啊

    该用户从未签到

    发表于 2023-3-8 14:04:03 | 显示全部楼层
    感谢大神分享
  • TA的每日心情
    慵懒
    2023-10-11 10:27
  • 签到天数: 198 天

    [LV.7]常住居民III

    发表于 2023-2-14 11:51:09 | 显示全部楼层
    感谢楼主分享

    该用户从未签到

    发表于 2022-12-30 17:34:07 | 显示全部楼层
    谢谢高手无私分享这么好的教程
  • TA的每日心情
    开心
    2021-11-18 11:26
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2022-12-28 10:39:48 | 显示全部楼层
    试试看,谢谢大佬
  • TA的每日心情

    2022-5-16 09:51
  • 签到天数: 208 天

    [LV.7]常住居民III

    发表于 2019-12-9 09:53:05 | 显示全部楼层
    反馈个问题,直接跑大佬的源码,在mac上会报如下错误:  J* z/ N. e4 p/ q0 G+ P1 u
    Traceback (most recent call last):
    2 ^) O8 n6 y  C3 w5 F" f" |" L2 [  File "genMDX_ox4.py", line 14, in <module>7 w0 @) z( U! j( A1 X
        reload(sys)
    . Y$ X$ B# s  s8 v* t. J1 f+ z) N9 dNameError: name 'reload' is not defined- {1 a- ~/ X! U* _" A$ W6 V

    # S4 ], }( c4 g( v8 p  q2 q" z9 p; h6 _解决:
    / ~0 n! G" z2 g  H% r注释掉文件line14和line15,即可

    点评

    应该是python3和python2.7的区别  发表于 2019-12-9 10:15

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2023-1-18 13:13
  • 签到天数: 539 天

    [LV.9]以坛为家II

    发表于 2019-10-9 08:44:33 | 显示全部楼层
    谢谢L大,等了1年了。
  • TA的每日心情
    无聊
    2023-6-6 10:30
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2023-3-29 17:40:05 | 显示全部楼层
    谢谢大佬 都是好东西来晚了 就看到要关站
  • TA的每日心情
    开心
    2023-2-21 17:06
  • 签到天数: 227 天

    [LV.7]常住居民III

    发表于 2019-10-9 06:37:56 | 显示全部楼层
    先收藏再研究,谢谢分享
  • TA的每日心情
    无聊
    2021-8-13 07:38
  • 签到天数: 195 天

    [LV.7]常住居民III

    发表于 2019-10-9 07:00:20 | 显示全部楼层
    thanks a lot
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-10-9 07:09:48 | 显示全部楼层
    感謝 lgmcw 兄:
    * ~! l; M- G. Y" P" [" E" T! |2 E分享
    【支持超大文件】Python打包MDX词典工具
    0 Y; m* n$ [7 W0 O* z
    非常需要此超大文件打包, 有的文件再合併後再用 mdxbuilder 打包MDX弄不出來( q1 R3 \# f4 t( Q5 {& ]$ R, L
    謝謝仁兄分享此重量級工具
    - U5 r( R" s. x/ l+ n
  • TA的每日心情
    擦汗
    2022-5-20 11:41
  • 签到天数: 222 天

    [LV.7]常住居民III

    发表于 2019-10-9 07:54:53 | 显示全部楼层
    謝謝分享資源
  • TA的每日心情
    开心
    昨天 07:46
  • 签到天数: 2675 天

    [LV.Master]伴坛终老

    发表于 2019-10-9 08:05:03 | 显示全部楼层
    好东西,学习学习,谢谢楼主分享技术
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2019-10-9 08:19:19 | 显示全部楼层
    謝謝分享此重量級工具,感谢 !

    点评

    如果是古籍文献,有可能需要用UTF-16。要自己摸索一下修改入口文件。  发表于 2019-10-10 01:04
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-10-9 08:28:06 | 显示全部楼层
    学习,谢谢楼主分享技术,争取以后逐步从小白玩家进化到硬核玩家。
  • TA的每日心情
    无聊
    2020-12-19 21:10
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2019-10-9 09:06:01 | 显示全部楼层
    谢谢l大,准备考研结束后就折腾折腾
  • TA的每日心情
    奋斗
    2021-3-15 08:06
  • 签到天数: 585 天

    [LV.9]以坛为家II

    发表于 2019-10-9 09:07:57 | 显示全部楼层
    非常感谢你的分享。
  • TA的每日心情
    奋斗
    2023-2-19 20:22
  • 签到天数: 682 天

    [LV.9]以坛为家II

    发表于 2019-10-9 09:21:53 | 显示全部楼层
    好东西 谢谢分享
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-10-9 09:30:46 | 显示全部楼层
    請問 mdxbuilder 目前能處理的文檔大概是多大?
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2019-10-9 10:06:07 | 显示全部楼层
    还是可以指定输入文件的命令行方式不较好1 Y) o7 K* R) S( J# o: r
    比如 python genMDX.py source.txt about.txt
  • TA的每日心情
    擦汗
    2025-3-22 20:43
  • 签到天数: 314 天

    [LV.8]以坛为家I

    发表于 2019-10-9 10:14:53 | 显示全部楼层
    emmm论坛有个excel转mdx的工具很不好用。。。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

    发表于 2019-10-9 16:54:33 | 显示全部楼层
    感谢分享,看看,学习一下
  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

     楼主| 发表于 2019-10-10 01:02:33 | 显示全部楼层
    HMPT 发表于 2019-10-9 10:06
    0 w$ M% r0 P0 j1 |9 M# U$ b8 W还是可以指定输入文件的命令行方式不较好
    6 U8 h7 A8 }1 G5 Z比如 python genMDX.py source.txt about.txt ...

    6 B5 Y* p/ _1 Q8 j$ |! `3 C, T6 W这个其实改一下入口文件就能实现,应该不难的。
  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

     楼主| 发表于 2019-10-10 01:03:25 | 显示全部楼层
    本帖最后由 lgmcw 于 2019-10-10 01:58 编辑
    3 _! \9 l$ d& {' C  |' ?1 k. c2 H
    oversky 发表于 2019-10-9 09:302 M2 e7 Y5 b. x+ Z* `$ J4 C8 ?
    請問 mdxbuilder 目前能處理的文檔大概是多大?

    ! v8 X2 |4 _6 V* O你可以咨询一下@喬治兄 ,他可是屡屡遇到上限。
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-10-10 07:27:37 | 显示全部楼层
    lgmcw 发表于 2019-10-10 01:03
    / ~9 G2 k4 Y1 a) W& A6 K% _' y你可以咨询一下@喬治兄 ,他可是屡屡遇到上限。
    5 h6 ^" J- v( X5 c% d$ f, z
    谢谢您的指引。

    该用户从未签到

    发表于 2019-10-10 11:24:07 | 显示全部楼层
    很有用的工具
  • TA的每日心情
    开心
    2021-4-24 17:14
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-10-10 11:45:08 | 显示全部楼层
    非常感谢分享!
  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

     楼主| 发表于 2019-10-12 12:38:31 | 显示全部楼层
    喬治兄 发表于 2019-10-9 07:09  I+ Y7 n/ z. H( v
    感謝 lgmcw 兄:9 X1 y4 S" k9 j  `( V( W- }2 k7 o
    分享  0 Y* \5 E$ C: m( D' x
    非常需要此超大文件打包, 有的文件再合併後再用 mdxbuilder 打包MDX弄不出來

    7 i  ]) i& Z. l6 f. |2 D+ B兄弟可测试通过,此工具可还好用?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-10-12 12:48:11 | 显示全部楼层
    lgmcw 发表于 2019-10-12 12:38
    6 ?6 j. |& v& ~4 w  \# n8 i: l6 b; U兄弟可测试通过,此工具可还好用?

    6 H5 \& h5 W" P" D9 g謝謝 lgmcw 兄關心,小弟還未試呀,小弟會盡快試試,若有困難再向仁兄請益,謝謝啦!
  • TA的每日心情
    开心
    2019-3-26 21:36
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2019-10-12 15:33:11 | 显示全部楼层
    本帖最后由 流星冲击 于 2019-10-12 15:37 编辑 8 O! o5 J3 F4 P- G9 e2 f! R
    9 r* h7 ]6 u; D5 R
    1. 在代码里,以前一个字典的key只能对应唯一个value。而MDict完全支持多个相同词头对应多个意思。所以我改了代码,让一个字典的key可以对应多个value。( i! n9 o. v  [8 H% r& I5 L
    - e) F( w+ ]/ ~$ i3 k, Y" O- o
    之前我和zzzz_sleep讨论过“以前一个字典的key只能对应唯一个value”的问题,他给出的方法是让类Mdict套壳的软件/app的作者去解决,例如用@@@link和a href=词头#锚跳相混合实现查询多个value的方式(具体zzzz_sleep给出的代码的用法我也忘记了,不过印象中还是基于一个key对应一个value的用法),现在楼主这个工具直接从代码层修改一个key对应多个value,这个要给个赞!2 h3 {1 @" O, T7 q! N5 k" `5 s* A

    % }; L) Z  L! F/ ~( k2. 修改排序算法,原版是用的默认python排序,输出的文件在MDict简直不能查。GD勉强能查。
    0 p; H; X) L$ u- z) W+ a
    " o  H& e) B3 ]/ S: M我没用Mdict_PC来查询生成的mdx,对于GoldenDict,我看了某些帖子的说法,GD是全部提取mdx的headwords为一个缓存文件而不依赖原生的mdx算法的排序的,相同词头(例如a和A)是以类似多本词典联合查询单词的方式在一个页面内列出所有a和A词头的内容的,如果GD不依赖原生的mdx算法排序,楼主说“GD勉强能查”是单词基本能查询,不过不按照Azure排序(dot,doT,dOt...)这样排列下来?% D0 T& \1 [: k0 A4 n
    手机端的app,以Azure排序,单本词典查询的模式下,安卓mdcit和平典app(平典app可能有些带符号的单词查不到什么的,平典以前的国庆版本就查不到楼主你用python生成的新牛津v2.3.0 beta的单词词头)查询是完美支持这种排序的,而不是原生A再到a这样下来。深蓝dict不能单本词典模式查词,所以不能看到多个a和A,a和A的内容会挤在一个界面,由于不能单本查词,ff大的朗文5++ v1.3.5的气球在滑动单词页面时不能固定在右下角(直接在单词页面最右下角,对于长内容,需要滑动到页面最底部)。欧路app未测试。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-3 04:59 , Processed in 0.028364 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表