掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6937|回复: 21

[讨论] MDX转MOBI过程及相关思考(附COED11th.mobi)

[复制链接]
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

    发表于 2019-9-16 17:58:18 | 显示全部楼层 |阅读模式
    本帖最后由 nullname 于 2019-10-12 08:47 编辑
    6 m" X. r% N# q" d, ^3 Z0 M! G( z3 V
      B# D* G5 Y3 |5 I, o00
    6 R0 |5 \2 g. _4 T相较于MDX词典的百花齐放、门类齐全(从学习型再到母语型再到俗语习语俚语等,不一而足。) Kindle用的MOBI词典就显得冷落多了,有意义的词典非常有限,也许是因为Kindle的使用人数很少吧.... 基本就是官方的英英、英汉和 skywind3000 大神的这本 简明英汉必应版 了。
    3 }  `$ D( J  ?其他的像书伴上的那些都很难用,主要问题就在于不具备 词形变化 的查询能力。比如书中出现了 looked, raised 这种单词,它们基本都不能直接查询到 look, raise。- e8 M+ S) v0 n3 l
    $ v* w. c, t9 q9 U* s, k) q
    之前在知乎上看见孙缓之的一篇帖子(见此 Kindle OALD9 民间发布(仅限交流使用)),可以用 dsl2mobi 这个工具来将 dsl 词典转化为 mobi,且具备词形变化的查询能力。但貌似 dsl 词典不是太好找。) [  B( C$ Q4 b0 L! ^

    & ~8 `1 P! k0 M因此,想试试能否将 MDX 转为 MOBI。教程不多,仅在书伴上找到了这几篇文章。(请见 《如何把 MDX 格式词典转换成 Kindle 字典》《自制 Kindle 字典简明教程(入门篇)》《自制 Kindle 字典简明教程(进阶篇)》
    8 f4 }4 t; f/ g; b% Z
    ; s6 l8 R# w( y" F6 M7 x根据  《如何把 MDX 格式词典转换成 Kindle 字典》 这篇教程,转化出来的词典不具备查询 词形变化 的单词的能力。主要原因在于没有添加变化后的单词,如图红色矩形区域(更详细的请见 《自制 Kindle 字典简明教程(进阶篇)》)。
    ' }' A  C: b, R$ E1 l/ V, P2 P" R
    8 V( L! l9 [3 u1 C2 Q$ E
    以 COED11 举例,这是转换后的 HTML 中的词头部分:
      r4 x* Z% F/ t% A) S5 y' g# q
    : v1 n; q3 s, S2 }$ U3 ~) D$ Z若要具备 词形变化 能力,需要的区块(红色矩形部分):
    + }1 _0 f2 V- Z8 ]$ Q
    7 u! v% h( B% B1 X" h- S  I$ ]5 f% f

    , ~2 J* i! p3 @4 s, Z( E+ @. j5 f5 _( x. u
    我抓破脑袋都想不出怎么样才能自动添加这些进去,后来想起 dsl2mobi 有这个功能,就下载下来研究了一下。该工具是 ruby 写的,基本看不大懂,不过我在其目录下发现了包含十几万英文单词词形变化的 TXT:
    & e1 T' F* J( |/ m0 J
    7 x1 @+ U2 X" H( Q6 V
    5 h/ j+ b' R3 Q3 k2 }/ E7 |
    ( D/ l2 _' e* N2 I. j0 R: Y
    排列比较有规律,格式为  单词原型:变化1,变化2,变化3......  因此用 python 写了正则批量查询添加:, S2 W" S% e7 v3 o* R

    $ o+ O7 A) x: x0 y5 Q  R  q) k5 {  V7 C' `3 N( X

    . }8 `2 s  [1 U+ I$ I跑完之后:5 W* c" x) _5 `( r+ `6 k
    2 ~4 u6 g% r0 O. W; ]- @% v- u$ j

    ' s; A& Q3 f& B; D* u/ S* c0 S6 C8 U3 h0 s$ _
    基本原理大概就是从词典中取出主词条单词后再在 forms-EN.txt 中查询匹配,若成功则返回所有的变化形式并添加区块代码。然后重新生成 mobi 。
    3 v! L$ A( R6 g  C# e2 i* y* n4 R" F! H0 M; g5 I; w( b
    兴冲冲的试了试,1 @1 ]" z/ n) g6 d. \
    + p/ Z7 f& C! m6 f. }
                              两个看起来都没什么问题,和我们想想中一样。
    6 x' Y, K0 K9 e% N% O( @7 O, N1 d  n& L( m
    再试试,
    $ @9 d% |2 O" Z1 n1 n: F0 Y

    7 [, J+ U4 \8 a6 {7 m* I     查询dealt的时候,按设想,应该是查询deal才对,结果并不是。
    $ _" L2 E* s  N8 N: _# w/ L& q) d) V8 D; `( f
    用官方的词典试试2 V- J  U: H. Y* Q7 `. V

    5 o6 ^; D, t9 ^) F7 Z5 a同样如此。/ O* U# ?% \' {" _
    , k- _/ G8 x/ }. @' Y; |# [) X

    % {' [2 r' c" O" S. z$ m9 @, Q) J$ \/ p8 N* J& F, g8 ^  l
    012 m" o; ~" J  h
    * Z) R; P' t, T- P6 _: V3 h, k
    后来经过反复试验,发现了 Kindle 的查词逻辑:选中单词后,查询主词条是否匹配成功,成功则返回对应的条目,同时不再继续查询变形词条。没有主词条的话则查询词形变化区块是否有匹配,若有则返回变化词条的原型主词条。
    + b5 H) P3 B$ Q' U6 ^" N3 c& J+ k1 x, l
    deal 的词条部分已经添加了 dealt 作为变形词条,然而我手中的这版 COED11.mdx 和官方的Oxford Dictionary of English 都有了 dealt 这个主词条,词条内容如上图。因此不会返回 deal 词条的内容。
    6 {$ _5 d3 t1 u8 q" {& [# o' y7 i# I# f+ ~7 |
    知道问题所在后,如何解决呢?想了想,很难,因为英语词义太丰富(Rich)了。比如flame,它的词形变化理应有flaming对吧。但是flaming本身可能自成一义(火爆的,讨厌的,该死的),如果查询flaming的时候跳转到了flame,从flame很难猜到flaming的一些专有词义。除非亚马逊更新固件,修改上述的查词逻辑,即不论查不查的到主词条,变形词条所在的原型主词条一并显示。不过目前看来希望渺茫。- v: v+ u2 z2 j; C* V( Q
    2 `$ s  B1 u( e" H3 x6 [7 }  J

    ) |7 w5 P0 h5 Y& Z+ `$ E' @02+ {* L' z# d! r0 A- _+ h1 ~& R
    即使如此,还是有许多优秀的 MDX 词典值得页应该被转化为 mobi 以供大家使用的。个人认为kindle上不适合使用学习型词典这类词义较少的词典。比如你在看书的时候看到了square这个单词,假如你用牛津高阶,你翻到底都翻不到“步兵方阵”这个释义,最后陷入深深的自我怀疑...然后又去提问“为什么我每个单词的意思都看得懂但是就是读不懂句子的意思...”。; H% v, w( N, D/ t, v: G2 b& k

    , @( G4 u+ N: [9 U9 _( o6 h经过一段时间的试验,我发现 The World Book Dictionary 和 Microsoft Encarta Dictionary 这两本词典非常适合“高阶有余,母语不足”的英语水平者的使用,但把它们转成mobi难度略大......由于水墨屏的特性,kindle 上词典个人以为只需要1.粗体 2. 斜体 3.浅色 这几种样式即可,不要图片、音频。同时要求css内置在mdx中,不能外挂。在此也向各位请教如何将外挂的css内置进mdx中的方法,我尝试了在html中添加style标签然后将css全部复制进去,但似乎并没有效果?各位如果有较好的适合在kindle上使用的词典也可以发出来大家尝试转换。
    / G# _+ D* E7 V' `  R
    & z* A" ]2 E9 o' F& a2 n写的比较乱,抱歉。也欢迎大家交流讨论和指点。
    * A! [- S2 o* D1 ^6 Q* r- v8 U

    6 G) b: k% o0 d

    9 N, D, q* L9 H) z. n3 |: E0 X最后附上制作完成的COED11th.mobi6 A, Y! n8 w' b, b, s. @, l
    * T+ e7 W+ o7 f8 e8 }: \

    ) F; R2 ~$ X, c5 l; s' ~. L链接: https://pan.baidu.com/s/1TyMK4P1A6ltCEDr2Bt_rNg 提取码: zp3b 0 B  ^6 r) r# u3 m6 F# b3 x
    $ [" Z) u+ Y! l; }* ~( G
    ----------------------2019.10.12补链----------------------- h8 R- [$ b3 V# Y7 B- q
    链接: https://pan.baidu.com/s/1bSRfcScur482utaLmsxOgg 提取码: 4b5h
    " Q9 Z% ^+ l$ u( n" R
    " j/ e/ X' R' X' o. j
    ! g) p2 D+ X% |& q/ E5 |

    $ q" z( j! a1 u" N9 o3 j6 R. ~% h" d1 w3 ^3 f# t8 z$ I$ H

    : X# x8 y3 h8 {3 V
    / Z  R1 u4 |/ b7 A' M& m* _
    8 Z: y6 z  [/ `: ]/ u. U: b
    ( W" r! p( q! S! I

      c+ o+ H3 j  I& z' ~3 B
    ; O# T. L1 K0 T  \4 [0 n% E, C0 ~- f* o5 Z
    " g, E7 s; ~9 r: ?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    3

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2019-9-16 18:36:15 | 显示全部楼层
    按浏览器加载css文件的逻辑(不包括css外挂,css外挂是MDict和Eudic默认允许的非通行标准做法,国际软件一般还未支持)的三种:
    2 L5 {1 F# [7 u9 r" e3 u7 Y3 z5 ~) j1. html tag 上的style, inline,如 <div style="font-size:14px">
    : O- ^7 n! }! G7 R/ d. v2. <style>div {font-size:14px;}</style>3 m* m2 r3 ^4 ]
    3. <link href="styles.css">
    : ^& j% S( ^" _9 `1 d7 R6 ?/ g* n+ u
    第三种,根据mdict的设计逻辑,可以放到mdd文件中;前两种,直接在mdx文件中。
    + `2 r5 m6 E- A( N$ I8 D
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-9-16 19:24:53 | 显示全部楼层
    00开头,程序员无疑了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-9-16 19:25:15 | 显示全部楼层
    看了下这个源码跟mac词典源码有点像
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-16 19:39:05 | 显示全部楼层
    johannhuang 发表于 2019-9-16 18:36
    4 m4 p& n% [/ j按浏览器加载css文件的逻辑(不包括css外挂,css外挂是MDict和Eudic默认允许的非通行标准做法,国际软件一 ...
    , n5 q# c% _2 p4 B: y$ I# V  s" C
    学习了,不过我想的是是否有什么方法能将现成的外挂css中的样式还原进mdx中呢?因为mdx差不多本身就是多个html
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-16 19:39:57 | 显示全部楼层
    jonah_w 发表于 2019-9-16 19:25
    ( o" z* K$ Y3 k! [4 Z看了下这个源码跟mac词典源码有点像
    - M9 Q3 c4 }4 q1 d0 S# w3 w7 L' B
    可惜只是像...若是一样的那大神就很多了..
  • TA的每日心情
    擦汗
    2024-2-8 08:54
  • 签到天数: 902 天

    [LV.10]以坛为家III

    发表于 2019-9-16 20:12:37 | 显示全部楼层
    Great you are! thanks for sharing
  • TA的每日心情
    开心
    2018-7-30 20:23
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-9-16 20:26:44 | 显示全部楼层
    希望像楼主这样的热心肠同时技术又高超的人越来越多,Kindle词典的资源确实很少,而且官网的都很陈旧了,thesaurus 就相当于没有,作为用Kindle学习英语的人来讲,还是有小小的失望
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2019-9-16 21:46:58 | 显示全部楼层
    nullname 发表于 2019-9-16 19:39
    ! m( k* A4 _4 {9 _' o学习了,不过我想的是是否有什么方法能将现成的外挂css中的样式还原进mdx中呢?因为mdx差不多本身就是多 ...
    4 _1 T- G6 j7 J3 q
    1. 解包mdd,加入css再打包,同时修改mdx里面得css引用
    7 o2 h9 ~1 I6 E9 I" i2. 在mdx中按照前述方法2进行加style (但你似乎说了不行,不知道你为什么不行,可能有局部出错了)
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-17 08:29:36 | 显示全部楼层
    johannhuang 发表于 2019-9-16 21:463 G7 [2 P* P' ^" [
    1. 解包mdd,加入css再打包,同时修改mdx里面得css引用) m7 x2 C+ c1 ]! c4 l; \1 p
    2. 在mdx中按照前述方法2进行加style (但你似乎 ...
    ! o1 Z( c* X/ L  Y; v
    我再试了下,这次删掉了一些比较高级的样式,有效果,一些颜色斜体之类的能显示,这样看来,应该是kindle的mobi不支持太多高级CSS,只支持简单的
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-17 16:39:05 | 显示全部楼层
    试了一下午,崩溃了。可以插入外置CSS,在此篇文章《如何把 MDX 格式词典转换成 Kindle 字典》第三步之后生成的html文件<body>标签之前可插入<head><link rel.xxxxxxxx></head>来引用外部CSS,但是不知为何生成的margin和padding等在html中显示正常生成mobi后怎么页不正常。

    该用户从未签到

    发表于 2019-9-23 16:28:01 | 显示全部楼层
    楼主,很巧,我这两天也是在忙着转一部词根词缀的词典为mobi,按照书伴的方法做出来了,只是不支持模糊搜索,遂觉得很难受,查了一番后,刚巧也看到了知乎专栏上的dsl教程,只是我这本词典并无dsl格式,网上遍寻又是找不到mdx转dlc的方法,看到楼主的方法,我也想批量增加变形,只是Python还没入门,不知楼主能否分享一下Python代码,我自己试一试,恳求

    点评

    我正在制作一部Kindle词典,为解决一些问题写了两个工具,其中一个就是这个。等我近期整理  发表于 2019-9-23 18:12

    该用户从未签到

    发表于 2019-9-24 08:13:11 | 显示全部楼层
    天赋的太阳 发表于 2019-9-23 16:28
    , i$ v: Y9 W% O9 t; q楼主,很巧,我这两天也是在忙着转一部词根词缀的词典为mobi,按照书伴的方法做出来了,只是不支持模糊搜索 ...

    * o2 ?. I; r6 v9 _% D: o好,支持,感谢
  • TA的每日心情

    2023-12-13 15:25
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2019-10-11 20:24:57 | 显示全部楼层
    不好意思打扰了,楼主,链接挂了... :-P
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-12 08:48:08 | 显示全部楼层
    vicizero 发表于 2019-10-11 20:24$ |, ?+ I2 E0 S
    不好意思打扰了,楼主,链接挂了... :-P
    ' }$ X* g- ]& @2 b- u. J
    分享链接已补
  • TA的每日心情

    2023-12-13 15:25
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2019-10-12 23:05:58 | 显示全部楼层
    nullname 发表于 2019-10-12 08:48: l6 f) d+ ]6 ?8 N* Q1 D% x: l
    分享链接已补

      F2 f) B! R- K9 l" t9 ^* e) p好的,已收到,正尝试使用
  • TA的每日心情
    开心
    2019-3-26 21:36
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2019-10-13 01:24:40 | 显示全部楼层
    本帖最后由 流星冲击 于 2019-10-13 01:28 编辑
    " @! t* h/ z! z2 R8 L% i* h, F8 V4 n  T% V
    转macos词典和kindle词典最好的源文本格式是stardict格式,而不是mdict(mdx)和lingvo(dsl)格式,stardict可以通过词头添加|来实现查询词条变形,例如walk|walks|walked|walking(mdict需要用@@@link来实现),用pyglossry转成macos词典源码就自动转成相应的词性变化的词条索引,查walked会自动跳转到walk。. A7 e- p( m! i5 i8 p
    epub dict文档的格式、kindle词典、macos词典、epwing词典的源码在处理词性变化索引都是一致的,源码也类似。kindle词典还停留在xhtml时代,不支持音视频,支持css元素少,不开源,可能受限于机器性能,所以一直没有kindle fire8制式(类似epub3)的开发文档。6 |9 v3 i4 ?$ n2 D/ Y' D7 }8 H3 F
    epub dict有开发文档了,但没有编译器和相关阅读器来支持,用epub3制式来开发一款词典,可用的css元素相当多,之前想用encarta dictionary研究如何转成epub,发现只能作阅读使用,不能用来查询单词,就放弃了。epwing的词头索引适合做日本语的词条索引,当然也适用于印欧语的词性变化词典的索引,但不支持css。macos词典自从2011年以来,苹果就没对其格式进行大的修改,可能js方面兼容性有问题,css应该没问题,用三指查询macos词典可是会上瘾的(即点生词即弹出解释界面,非常方便)。
    0 o/ U( y+ u  r( X: S/ J8 f所以我的思路是,dsl,mdx等格式,先转成stardict,由于stardict开源,工具多,转换成mobi的源码可能会自带词性变形。# k, [. K: {8 b3 q- r+ G
    还有mdx内嵌style标签,需要每个词头content都要包含,你是想让mobi每个词条都实现某些css效果吧,mobi7不是可以内嵌css吗?为什么还要内嵌style标签?当然,我没有转过mobi词典,只是提出疑问,没有打击楼主制作mobi词典的热情。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-13 09:11:32 | 显示全部楼层
    本帖最后由 nullname 于 2019-10-13 09:12 编辑 , h- J5 H- ]3 k( A/ U
    流星冲击 发表于 2019-10-13 01:24/ Q# ^2 V2 A0 h- W- ?
    转macos词典和kindle词典最好的源文本格式是stardict格式,而不是mdict(mdx)和lingvo(dsl)格式,stardict可 ...

    ' [: u" z" B9 d9 x$ n- p9 A是的,书伴上的教程也是这个原理,即MDX转StarDict再转tab文件再转OPF最后转MOBI。因为tab2opf这个工具比较方便,且tab文件的格式也比较友好(每个词条由词头tab空格意向这三个部分组成),所以只要能转成tab即可,后来我也发现了pyglossary这个工具,但是该工具有个缺点就是转一些词典(尤其是一些汉语辞典)的时候,tab文件中意项部分全部都是数字形式的CSS,可能是该辞典在用MDXBuilder生成的时候添加了style资源。' d" U1 O& D% Q3 F) b

    & u, P$ e1 d& {4 H# N2 odsl2mobi这个工具可以直接为dsl词典生成带有词性变化的mobi,但是考虑到词典内本身存在的大量@LINK跳转,最好还是解包后进一步处理较好。
    2 V. i7 }- ^: h1 m# f
    . i9 N7 b# d+ Q8 G5 r1 J关于内嵌CSS,此篇帖子发出后我又经过试验搜索,最终得出的结论是,可以支持外挂CSS,在每个HTML文件的头部添加LINK即可。层主可以看看这篇:https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=36130
  • TA的每日心情
    慵懒
    2024-1-31 14:20
  • 签到天数: 121 天

    [LV.7]常住居民III

    发表于 2019-10-22 18:28:39 | 显示全部楼层
    楼主,在下学习心切,也向你恳求相关Python代码,anyway,我已不胜感激。。。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-22 19:18:37 | 显示全部楼层
    vpda2016 发表于 2019-10-22 18:28
    ( ]- f9 L, P7 _) l0 j楼主,在下学习心切,也向你恳求相关Python代码,anyway,我已不胜感激。。。 ...

    $ E/ J7 D& M+ `8 G代码已经发了,在这个帖子里面
    3 c' c/ u+ C, ]1 W9 B
    / v- n" O* W5 O- _5 ]. @+ j4 L" Q9 z7 nPython辅助MDX转MOBI(以AHD5th为例)
    5 t# p# @) I, z. Shttps://www.pdawiki.com/forum/fo ... hread&tid=36130$ I9 R8 H. L7 [. i  J: t) z
    (出处: 掌上百科 - PDAWIKI). k, ?3 W/ y( I7 e% U
  • TA的每日心情
    慵懒
    2024-1-31 14:20
  • 签到天数: 121 天

    [LV.7]常住居民III

    发表于 2019-10-22 19:32:25 | 显示全部楼层
    nullname 发表于 2019-10-22 19:184 e- E" y  {; ?9 x4 Q6 E0 g
    代码已经发了,在这个帖子里面
    6 q; q0 ]2 R: E* f, y) F3 C. l/ h0 x, {( E; v9 T
    Python辅助MDX转MOBI(以AHD5th为例)
    , v2 ]$ Q. U# l2 e
    正在看,谢谢亲。大神。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 08:19 , Processed in 0.077215 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表