掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 13263|回复: 40

[教程] MDX 懒人切图版 朗氏德汉双解大词典

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-1-1 01:31:12 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-7-15 16:10 编辑
    8 P2 n  Q0 [! e: y6 b0 a# {& p* {
    有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
    & G+ k0 B) L) F+ T' f) z预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)
    , `: W8 I) K& m+ N8 X2 \, h: @  g# k
    记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf
    0 l% U) M- b4 Z2 \' H" V8 w- S
    • 抽取书签信息:pdftk file.pdf dump_data output file_info.txt
      - |) v' Y, E0 M  Q处理 file_info.txt 得到词头和页码的对应关系信息。( k' {! {/ J, \) I7 y  f
      没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
    • 分解 file.pdf:  pdftk file.pdf burst output p%04d.pdf& \7 ^. P' c+ s4 U# t. D+ v
      得到 p0001.pdf, p0002.pdf ... p2236.pdf
    • ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png2 A5 [$ _7 @' n/ k" y: W! j* y' d) K
      或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!& y5 G2 t# L: Y
      V4 v3 l+ k* b" b+ \0 w- _7 k
    然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。
    5 B! _9 S/ e! D7 @
    7 |) X$ X, p' o可以在html码的最后(</>前面)加 % N0 {! Z0 {$ D. s* S- r- c
    1. <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
    复制代码
    点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。5 J! }  J& ~% p9 @# `

    : A1 i4 f  P* u! N- f加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
    4 Y/ l& g% l) e5 p
    3 I' S$ M+ W9 E# U7 B' i7 V6 B0 O至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能  ?; z% N" c- i* X* D* J
    2 i) Q* l% _! |  W  i4 v% D
    补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
    : V3 m) v# J: C* @' ?
    ( ~$ L; [" q, y, G$ |
    4 o0 g. u$ C% u! ^* G/ d朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮); ~/ I. \2 E$ t$ ~* \
    朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n, l  a  h( w' M& L2 p' W
    更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。% i& H( u7 ~2 K% k# U& T

    ( K7 ^3 |: L3 o2 u4 _更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。
    ; B/ o2 i$ p9 D/ R: A" V/ p
    更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4 $ S) O) }; V: D# r- u6 J
    0 O8 I& O+ S- z  ], s$ Y( r
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
    $ x" V' q% J2 i7 G- Q- o拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
    ) E6 T- Q- j: {) x) a' Q& x$ X% ^更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。
    & N/ }! z5 X$ O/ V3 W, [+ v7 R  M; l5 G
    " M! G# e0 T2 K

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-1-1 12:21:52 | 显示全部楼层
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版
    8 [9 O% Z# I0 P! X5 N4 @1 ]4 ~https://www.pdawiki.com/forum/fo ... hread&tid=32202- }' p5 {5 q0 h, s% M9 H
    (出处: 掌上百科 - PDAWIKI)
    ; o4 Z, b6 G! ^9 j0 |- g
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-7-15 01:06:20 | 显示全部楼层
    独上高楼 发表于 2019-7-8 09:54
    # {+ D$ x; V1 o0 O# T; L感谢楼主。本人用的是0.7.0,但是用了之后,
    $ K  @) f0 k+ W5 {+ i) l. x【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。
      \6 v% O4 L+ M# t6 X) ]【 ...
    9 ?* t5 V) m! ^8 e7 o+ n: r
    有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-3 17:23:45 | 显示全部楼层
    xliley01 发表于 2019-1-3 13:494 R" ^# Y/ M" V$ Q
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

    # {0 I7 M( h+ A' p3 X! l$ V7 O2 q是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-1 20:52:39 | 显示全部楼层
    这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:22:14 | 显示全部楼层
    chigre3 发表于 2019-1-1 12:21
    3 B6 [* o1 f. C9 w+ t& n5 L[20181221完成][德语]朗氏德汉双解大词典 全索引切图版
    * u, b. _5 L0 h# c" Mhttps://www.pdawiki.com/forum/forum.php?mod=view ...

    3 m# p4 \1 R& f5 B' |谢谢分享
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:29:15 | 显示全部楼层
    功德无量的大好事。谢谢您的付出。

    该用户从未签到

    发表于 2019-1-1 22:07:13 | 显示全部楼层
    对于没有全索引的  我就制作页末单词索引  在电脑端Goldendict加载python代码查询定位到页  随便几千页的词典都能很快完成  
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:14 | 显示全部楼层
    楼主厉害!感谢分享!% |# V. Y3 }! v. ?, U
    & B5 U, K; H0 j7 d) A2 b
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:20 | 显示全部楼层
    楼主厉害!感谢分享!
    " j3 G3 _' Q- ?/ M5 V- _" g' g) b6 j! q$ R3 r
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 07:45:30 | 显示全部楼层
    很好。帮我们弄个法汉的吧。谢谢。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 10:08:26 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 10:11 编辑
    7 R/ s# m8 p1 J) K" O
    xliley01 发表于 2019-1-2 07:455 I3 e/ O: L0 I
    很好。帮我们弄个法汉的吧。谢谢。
    / p5 O6 b7 q# k# M4 Y
    你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:19:15 | 显示全部楼层
    链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦
    : P$ [, j  }: p. p* A: S
    8 j6 S* g# F& ?8 A  E2 H有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:27:01 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 12:28 编辑 ) T, o; C" q1 O

    ( w4 ^; b- p" u% b5 `还需要什么的话,请告诉我。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 14:44:47 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 14:58 编辑 * m2 T6 [* l, R5 J( @
    xliley01 发表于 2019-1-2 12:27
    $ g/ o( E, _' Z" ?还需要什么的话,请告诉我。
    ( |9 ]/ I" K0 Y; l+ ]. [5 v
    做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?
    7 h6 ^8 q: s, r( ~. O+ ^& G" v, K$ L( }$ c6 f! P; K
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 19:14:56 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 19:21 编辑
    7 t& s$ M8 ~8 ~  ]2 k/ [) m! z4 u
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9 " O5 B# X4 [2 p* f* w
    复制这段内容后打开百度网盘手机App,操作更方便哦
    6 O/ S! H! S" e试过了,看过翻页蛮方便的,就是具体单词怎么查?5 x: d' z2 S2 ~/ A
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 21:00:45 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 21:14 编辑 + B0 x: R( l- Y) I
    xliley01 发表于 2019-1-2 19:14
    & d/ A. |9 U, ~' l% \有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...
    这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:0 g( b) W$ u: W$ n% G
    abc abz 123
    6 |" }2 j; a% a3 i# W...
    + P5 V/ D/ n9 c& h1 c" nzab aac 2220* d) E3 J" c. L: d, F3 x. I
    我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以% w9 v: v6 `8 e) ~& _  o) _8 g
    ( `# b+ ~# D7 f& R+ o5 j- ]
    你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。
    ( p2 N8 _9 R0 v3 U1 O0 R. Y6 y4 o8 u, M# k
    另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。
    ( t( k7 l+ y' r8 M
    ! D: f3 P& P* x! i* K3 o+ Q% Y% p你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。0 g. u# s) B; i  {, P
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:03:35 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 22:22 编辑
    0 g1 L: v3 p% f0 r( i* I* q3 ]9 ~' B) F3 t2 w' P5 C
    @xliley01
    1 A. b! h7 P# k# khttps://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。
    # U8 `, M* T) h3 }1 L2 l
    2 H* L$ d' H% l$ Y5 P: J链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx
    / Z1 E4 l- Y# ~* U4 V( X
    , x. m" G  M9 J0 [  X7 Y1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
    1 c; ]1 y( _2 R9 y9 h7 n全本版做好了,见一楼末尾……。2 n; s7 T# W! R

    该用户从未签到

    发表于 2019-1-2 22:05:12 | 显示全部楼层
    这样子的叫做整页版 - -  
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:25:33 | 显示全部楼层
    chigre3 发表于 2019-1-2 22:05
    $ J2 Q/ Y# _+ I: [这样子的叫做整页版 - -

    6 a0 a8 T  g4 _是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-3 13:49:14 | 显示全部楼层
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-20 20:36:24 | 显示全部楼层
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-21 00:08:28 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-21 00:09 编辑 ! ~# l8 M" Q: b# V
    潇潇天 发表于 2019-1-20 20:36. t+ [9 a: B2 Q5 Q2 \7 m8 K
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费

    : c  _. C" a- `: f* i你如果能提供词头信息,如:0 x9 R* a3 b5 u* K$ V' y) X
    A 1
      W! P; L/ i- u/ la- 1
    . L: H, Z2 |0 `! [Aa 1
    % E( C3 W4 Z7 p" l+ v! sAal 1
    * u. s+ \! ?  _( W1 |5 M: Iaalen 1+ r' g$ U. f5 C2 S( [
    aalglatt 1
    / V7 Z! y4 [1 {0 `6 G' A# C……/ A# }" O1 t! D" u# n# E& |) _

    1 Q1 H* O4 X- T$ [# G以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。: z! H$ s/ x  v
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-21 12:59:49 来自手机 | 显示全部楼层
    mikeee 发表于 2019-1-21 00:08
    ; A. F: d; y" e. ]你如果能提供词头信息,如:
    # X# _+ J# q5 v8 ]: s0 d" `5 k  |- tA 1
    7 H3 I+ f$ v( V8 Ra- 11 C, z) O5 c7 A  ?+ U* b
    ' _0 e6 u& m( `' q( U4 \0 o' s$ ?
    发了私信。是可以在gd中使用的吗
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:21:57 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:53 编辑
    # l! x) ^$ ?" e( u
    $ O+ l$ J* ~/ ]感谢楼主分享!非常感谢!
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:22:10 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:54 编辑 1 {% {& l4 l1 n/ g6 m+ L
    1 o- k1 M7 r* ^, D9 O3 L
    感谢楼主。已经下载,在使用之中了。, ~8 y$ _2 \" ~/ ~# P* j  }
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-30 01:44 , Processed in 0.117830 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表