掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 13130|回复: 40

[教程] MDX 懒人切图版 朗氏德汉双解大词典

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-1-1 01:31:12 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-7-15 16:10 编辑
    , b; ^! G+ V0 Q1 g# Z& V# e* `; P. d5 M9 J! U! a' o
    有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。" L* y2 F" J6 B4 ^: H" x
    预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)
    # E7 p5 J: B  x1 p8 u8 v) B& t5 r4 |: S9 Z% \
    记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf1 F6 E0 e) V. s2 Y* [4 F+ _) w
    • 抽取书签信息:pdftk file.pdf dump_data output file_info.txt' u3 v* d% g: B) Y4 G/ Z
      处理 file_info.txt 得到词头和页码的对应关系信息。# |% U. z$ a; P3 i- O2 H
      没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
    • 分解 file.pdf:  pdftk file.pdf burst output p%04d.pdf! y. M3 c4 a* R2 z7 Z
      得到 p0001.pdf, p0002.pdf ... p2236.pdf
    • ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png
      " i( P. {6 [% n5 B5 B或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!
      2 d; A; O/ x- q) g! s

    , ?0 O3 C* ]9 }" w4 F; V$ \  Z$ a然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。0 w; K1 @4 o$ N

    . k3 F2 u& `8 v可以在html码的最后(</>前面)加
    . N6 S" w, W; G6 G2 X1 i
    1. <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
    复制代码
    点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。
    5 r$ A8 O3 y, J! f
    . ^* s& L9 H* Y6 }+ V0 L/ d加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
    ! N; Q; n  @% ]
    + \) q; A9 T+ z; D至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能
    : B7 U4 h0 P) Z* D1 w
    5 X' u. a% a" ]$ {6 W补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。- j% f7 a" d0 M5 S& c+ X( D

    . r; E6 p" C  s9 V  I: n/ d% c0 E" C& [2 o* r6 |
    朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)9 N  q. L( k) H
    朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n
    ; m3 O! K& \0 x/ O$ W更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。$ J. z- x! Q2 Y6 T

    , z7 N1 h$ e" n% Z' x( o2 e/ B( V) S更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。
    . |' D* e$ R* }( A' C. W
    更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4
    $ c/ y& e- s& l9 P: U& Z% i3 B* u6 }, `6 W' {0 I( |2 K; z
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w8 s% G/ U9 I4 |& m7 s$ [
    拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji- r  B' `7 u2 l8 ?+ g" N6 J
    更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。

    7 v, T8 R' _, B6 k/ Z
    3 L, ~/ i5 M# @* Z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-1-1 12:21:52 | 显示全部楼层
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版
    0 Q! |! q9 r# {. F& C4 S* v- K( w  ~https://www.pdawiki.com/forum/fo ... hread&tid=32202
    ) r0 }- M$ |# K(出处: 掌上百科 - PDAWIKI)
    " a1 r! B/ H+ k% g3 x4 ?+ }
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-7-15 01:06:20 | 显示全部楼层
    独上高楼 发表于 2019-7-8 09:54- f8 T& I6 x8 G7 w
    感谢楼主。本人用的是0.7.0,但是用了之后,
    # ?8 e, u, G. T, b0 `+ j0 R! S& k" @【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。& c2 E6 }" \8 y* a; N. C
    【 ...

    9 r( f9 m$ M1 Y, @1 w有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-3 17:23:45 | 显示全部楼层
    xliley01 发表于 2019-1-3 13:49
    , G1 J6 G% X, Z& M0 e& O1 N等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

    2 K6 W9 E# ?) F. @( M是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-1 20:52:39 | 显示全部楼层
    这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:22:14 | 显示全部楼层
    chigre3 发表于 2019-1-1 12:21
    2 e* Z: O* B% C6 t& T- I' K5 X[20181221完成][德语]朗氏德汉双解大词典 全索引切图版
    - I% f2 {' A8 y9 Khttps://www.pdawiki.com/forum/forum.php?mod=view ...

    ) j& g. U5 b0 f! B8 O谢谢分享
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:29:15 | 显示全部楼层
    功德无量的大好事。谢谢您的付出。

    该用户从未签到

    发表于 2019-1-1 22:07:13 | 显示全部楼层
    对于没有全索引的  我就制作页末单词索引  在电脑端Goldendict加载python代码查询定位到页  随便几千页的词典都能很快完成  
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:14 | 显示全部楼层
    楼主厉害!感谢分享!4 D# E" c- e5 o6 _8 j. J

    % p) W$ \; y2 C7 F: S2 L9 v' _7 E祝楼主新年快乐,万事如意!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:20 | 显示全部楼层
    楼主厉害!感谢分享!4 R1 ~4 d' n" k& Q$ A
    % K* o# [$ O" f$ k7 V
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 07:45:30 | 显示全部楼层
    很好。帮我们弄个法汉的吧。谢谢。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 10:08:26 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 10:11 编辑 ; H' ~2 {- |, \* S7 }# C# A' B( s. y
    xliley01 发表于 2019-1-2 07:45  h7 o3 U  V1 ]. G5 c; [
    很好。帮我们弄个法汉的吧。谢谢。
    6 `& M- [7 P9 s2 k  J& i, l
    你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:19:15 | 显示全部楼层
    链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦, ?) z6 q! _+ s8 b/ c$ G4 j7 x% T

    % i: \1 P: w1 x) j0 H有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:27:01 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 12:28 编辑
    4 f: b& j- f$ T: Y: [. d5 ~, d3 ?* K2 i4 c0 V9 e
    还需要什么的话,请告诉我。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 14:44:47 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 14:58 编辑
    9 x% A. v; |# F
    xliley01 发表于 2019-1-2 12:27, W5 Z& Y1 M* `+ w4 ~8 g
    还需要什么的话,请告诉我。

    ; f) d# r0 Y5 E& G0 |4 n做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?
    0 B$ D/ [) l: [+ k. z5 N  a/ L2 v& z* \; D: y
    拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 19:14:56 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 19:21 编辑
    , z1 m& R4 M# }% {. W5 B- C3 Q0 v8 R
    2 w2 C* R" y( o1 i有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9 , ]* t5 h) `8 ?( e# _
    复制这段内容后打开百度网盘手机App,操作更方便哦0 ]# ?3 ?7 f; J8 H, K
    试过了,看过翻页蛮方便的,就是具体单词怎么查?
    * y  E# }, n" n) N9 g1 R# _( u
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 21:00:45 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 21:14 编辑
    + T0 `- D" Y' j+ d; z
    xliley01 发表于 2019-1-2 19:14  L' \1 A- s7 X& }0 a
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...
    这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:
    : N% f6 S3 J. ?2 ], m. Qabc abz 123
    1 y7 }- T0 C$ A* M! n$ g...' c+ _% D# a3 [( [: L6 Q) t
    zab aac 2220# |- g+ ^* W, w# i
    我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以
    , }0 n3 }2 W; K" \; K& R
    ' V- X* x) s7 ]2 P* w, B6 v你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。
    : n+ E( G! E8 G6 w/ U; n) X) e: {; j, V2 z3 N' T
    另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。
    ) m, D7 ^8 ~+ G+ ?; o2 o2 t
    6 f; U# c, f# i- M* b5 G% d: O你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。! R7 v. }* S2 D& `
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:03:35 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 22:22 编辑 ) d! F# R$ \+ ?1 L) R" U8 q+ j
      }4 ~& B5 {/ Z* o& @% D6 h7 R* q) A
    @xliley01
    ! e5 q# L4 L9 X4 u- Z: ?/ G7 fhttps://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。7 R1 ^' s$ }  t" Q4 t# ^! a7 g
    ( I) |! W5 G1 f+ G: d. l3 V
    链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx, j7 L# b# e- z, G3 k: a8 u
    ( i. ?# P$ g  z. F' A
    1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
    * d8 J. g- {8 M+ K全本版做好了,见一楼末尾……。' @% D% I6 A- X8 ?- {, R

    该用户从未签到

    发表于 2019-1-2 22:05:12 | 显示全部楼层
    这样子的叫做整页版 - -  
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:25:33 | 显示全部楼层
    chigre3 发表于 2019-1-2 22:05" j0 Q1 X/ w1 k, Q6 H( }$ E9 Z
    这样子的叫做整页版 - -

    : E9 S6 [1 t# V5 M6 F3 z是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-3 13:49:14 | 显示全部楼层
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-20 20:36:24 | 显示全部楼层
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-21 00:08:28 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-21 00:09 编辑
    ! z& z! Z& V- s! U$ b3 e
    潇潇天 发表于 2019-1-20 20:361 ^4 G" }5 x  h/ B
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费

    ! `; n. ^  @: Z9 r( m5 U* _你如果能提供词头信息,如:
    - |8 F' {2 ^- H; A# P& LA 1
    , u$ z. ^; n9 R5 X# a* Na- 1+ ^; Z0 B) g; O
    Aa 1! f/ {6 [6 c$ P3 p
    Aal 1
    " I6 l- _0 D& b) J; Taalen 1
    . N' k5 `8 W% R& \' z4 faalglatt 17 A8 M/ K9 ]' E! j
    ……
    + P* Z% G4 F! T; ~% l3 D
    * u1 ?5 u3 |8 g; b以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。
    - G8 ~* v6 u" A% x( g
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-21 12:59:49 来自手机 | 显示全部楼层
    mikeee 发表于 2019-1-21 00:08
    - s! h& X% U/ o你如果能提供词头信息,如:) f- ^- W! t4 o5 V0 L2 }1 V$ Y
    A 1
    3 S. S$ q3 ]/ X  U. r6 W9 Na- 1
    " d& T# _$ h" ~% g

    ; u2 J. n: L- X8 r发了私信。是可以在gd中使用的吗
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:21:57 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:53 编辑 # @4 Q3 a! c2 f8 L% E+ p

    : F: D) A. [. X$ x- {- R, h; `) v( i感谢楼主分享!非常感谢!
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:22:10 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:54 编辑
    , [6 x  h$ l/ A
    / v7 g' r0 K5 b) K% b7 I7 w! }感谢楼主。已经下载,在使用之中了。4 U* N; S9 z% X4 q7 M5 o# S
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-16 21:48 , Processed in 0.091179 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表