掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 16734|回复: 41

[教程] MDX 懒人切图版 朗氏德汉双解大词典

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-1-1 01:31:12 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-7-15 16:10 编辑 - ^5 b, o5 x) Z
    # L( O+ F2 h8 N5 i, l
    有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
    8 e1 G7 {5 Y" e% I" b7 A预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)3 _+ z3 r# D  x9 i

    6 H. J4 S9 E/ X" c% q( j记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf
    - S+ K3 r2 q7 N1 h1 d* |4 c
    • 抽取书签信息:pdftk file.pdf dump_data output file_info.txt& X" J( {/ ^# u8 y/ H' F1 _. ^
      处理 file_info.txt 得到词头和页码的对应关系信息。
      * K# u9 t( n8 `" r& ]$ G0 ]. N没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
    • 分解 file.pdf:  pdftk file.pdf burst output p%04d.pdf
      4 h& L3 W) q" u9 {2 c, N2 y+ r得到 p0001.pdf, p0002.pdf ... p2236.pdf
    • ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png
      % A- D& {" H' B! h或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!
      $ K9 L9 l6 a9 A" r9 ]0 k

    6 A9 A  Y+ O) T0 ~% ]. o" _然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。/ F+ B& z/ T$ y9 b* s: m2 m

    * A; Y! L$ [( `  q0 m. E/ |可以在html码的最后(</>前面)加
    : Z: n% |7 J' ~" ]8 U0 a0 B/ ~5 y5 ]
    1. <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
    复制代码
    点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。
    $ K" d% p2 Y( t4 F* M8 d) X( }7 b0 ^# f/ D1 `5 f7 q, Q9 {
    加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:; U  ~3 S5 R) c0 F
    ' O1 O6 o' w) \8 X
    至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能8 ]/ }9 d% @9 D$ a# X9 o

    % b, T# p# g* N0 L2 {/ X( |补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。6 x, n; i9 [9 |
    1 d# r# w0 v4 a& \4 h' E4 W- a
    # q8 k" f  w! I: [1 M' F( o
    朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)
    5 I+ a" {/ E! X% ?朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n! P0 ^/ x  j: Y" F) R5 Q% I
    更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。
    / r3 {+ }8 v4 P& V
    $ X5 f9 T& U8 m更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。

    $ k7 ?1 H2 d$ b! b, X更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4
    5 ]9 E& E9 k) g( }/ n
    " W+ E% \) ^9 i( f$ h" s- {拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w4 h' Y; r' P: r
    拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
    / n8 z' D# q8 m更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。

    ) w2 f5 W( ^: X2 E8 Z1 T8 Z2 n+ D% W" F5 R1 D( D5 V6 l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-1-1 12:21:52 | 显示全部楼层
    [20181221完成][德语]朗氏德汉双解大词典 全索引切图版9 q4 W* K) ?3 \& s1 z, O9 T
    https://www.pdawiki.com/forum/fo ... hread&tid=322023 g$ `% ^: t: w! s5 \* T
    (出处: 掌上百科 - PDAWIKI)( b5 c  {9 B/ `0 Z2 j1 C
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-7-15 01:06:20 | 显示全部楼层
    独上高楼 发表于 2019-7-8 09:54+ c1 u( {4 X7 i3 {6 x: K  Y; u
    感谢楼主。本人用的是0.7.0,但是用了之后,9 q6 ?6 s! R1 M- l; R5 x. T& k
    【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。
    1 W% [: M/ Z/ m9 L" K& A( u2 Y【 ...

    ' J; N. M& j2 d6 A* g有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-3 17:23:45 | 显示全部楼层
    xliley01 发表于 2019-1-3 13:49
    & I: U: e+ e1 q3 q& M; P等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

    8 [, y  Y0 W; n" \1 ^# C  k# ?是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:19:15 | 显示全部楼层
    链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦$ d4 |& V+ }$ u) T  X+ w
    % X! V4 y7 `: f# f0 e
    有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-1 20:52:39 | 显示全部楼层
    这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:22:14 | 显示全部楼层
    chigre3 发表于 2019-1-1 12:21
    : E0 N9 J+ Y$ X  d[20181221完成][德语]朗氏德汉双解大词典 全索引切图版
    . m+ J) g2 {5 g% X6 s( J& Z* ghttps://www.pdawiki.com/forum/forum.php?mod=view ...

    ' ~4 j7 b4 R3 |谢谢分享
  • TA的每日心情
    开心
    2019-6-2 14:49
  • 签到天数: 140 天

    [LV.7]常住居民III

    发表于 2019-1-1 14:29:15 | 显示全部楼层
    功德无量的大好事。谢谢您的付出。

    该用户从未签到

    发表于 2019-1-1 22:07:13 | 显示全部楼层
    对于没有全索引的  我就制作页末单词索引  在电脑端Goldendict加载python代码查询定位到页  随便几千页的词典都能很快完成  
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:14 | 显示全部楼层
    楼主厉害!感谢分享!
    $ @5 X0 d( K6 I, }) v' o0 E' z+ O! T1 E9 v9 h
    祝楼主新年快乐,万事如意!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-1 23:54:20 | 显示全部楼层
    楼主厉害!感谢分享!8 u+ c3 Z+ f4 H

    # O) R. E6 V0 o" X# F4 V祝楼主新年快乐,万事如意!
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 07:45:30 | 显示全部楼层
    很好。帮我们弄个法汉的吧。谢谢。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 10:08:26 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 10:11 编辑 9 v  u$ }: W2 c' x; n0 b
    xliley01 发表于 2019-1-2 07:45/ T) w; j6 U$ N) V: s1 ]7 b
    很好。帮我们弄个法汉的吧。谢谢。

    , R. C7 F9 q7 Z9 d9 E  [你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 12:27:01 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 12:28 编辑
    9 G4 R4 f6 _  |' C9 g$ A5 J
      H9 E8 @0 u" N* j! H还需要什么的话,请告诉我。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 14:44:47 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 14:58 编辑
    ! }2 G4 `2 }# A
    xliley01 发表于 2019-1-2 12:27
    ! D: t: G5 T% m( i% B1 V还需要什么的话,请告诉我。
    1 O/ h: h) B, w/ t
    做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?& q0 a5 }3 `$ }9 o

    ) S; ^: v6 z, W! Q% b拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A  qk5w
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-2 19:14:56 | 显示全部楼层
    本帖最后由 xliley01 于 2019-1-2 19:21 编辑 3 _' n2 M8 {! p! T) o. X& E
    . u) y+ U, a% k# M6 d2 j
    有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9 $ c5 _/ K6 z9 V' S# ?! I: R0 {- I
    复制这段内容后打开百度网盘手机App,操作更方便哦0 u5 |; G4 h! N5 ?
    试过了,看过翻页蛮方便的,就是具体单词怎么查?0 ~# b% v4 \8 h/ j' J
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 21:00:45 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 21:14 编辑 2 Z. Y, c3 B; s* G  j
    xliley01 发表于 2019-1-2 19:14
    0 `* E; Y% F9 x: [9 k有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...
    这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:
    4 B0 g- j5 b' b4 A% ^abc abz 123
    : J" V6 T2 B( ?2 c! _3 p" ]..., m% b3 D7 X% \, p" T# `0 t
    zab aac 2220/ h3 N0 b5 y+ N. h$ r
    我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以& Q/ {6 w1 }/ C- M# ?4 g3 G5 _

    1 }/ ^4 s2 l. D1 j; t/ ?你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。7 a3 Q$ m, i8 @
    1 Y% @2 D" X- l
    另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。* ^" H) {- v: `0 X' y9 Z2 p. p
    , w' H7 q  Q6 ?2 ]6 Z2 c9 m
    你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。
    9 l8 P& @+ ?2 x4 n/ L
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:03:35 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-2 22:22 编辑
    4 }2 J9 F1 k! V: ?9 N' u* v3 R$ y) }. t8 j$ J9 D9 K  L
    @xliley01
    " O7 U7 c% S9 o* T8 ^https://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。
    6 \+ B% n* p/ N$ O' t2 H* d8 P5 i# ~0 q  {& z" i
    链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx
    * V0 E" k9 [$ U" I9 Z3 ?  U7 B; ~% m
    1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
      o! t. z; U7 U8 `  w0 j. p全本版做好了,见一楼末尾……。  c, R# E! O+ L- S' c$ i& u

    该用户从未签到

    发表于 2019-1-2 22:05:12 | 显示全部楼层
    这样子的叫做整页版 - -  
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-2 22:25:33 | 显示全部楼层
    chigre3 发表于 2019-1-2 22:05' I& n5 [" v& s! ~# l9 u
    这样子的叫做整页版 - -

    * I7 S, C7 {, M9 E& n是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2019-1-3 13:49:14 | 显示全部楼层
    等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-20 20:36:24 | 显示全部楼层
    能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-21 00:08:28 | 显示全部楼层
    本帖最后由 mikeee 于 2019-1-21 00:09 编辑 4 F0 a0 ~* s( N# t# a
    潇潇天 发表于 2019-1-20 20:36
    9 F7 _7 U" z) ~1 d能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
    & Q  O+ x5 ~' K0 S$ c  l
    你如果能提供词头信息,如:
    6 ~# |2 i. V" ~A 1
    , h# E  R9 b6 E7 E# S* @8 wa- 1
    * D5 T1 J- c5 c9 i- q& A" G6 b' AAa 17 ]% @& \4 B9 t% D
    Aal 13 U* ?& F8 A+ E6 p# X2 f
    aalen 17 t+ z1 {  x* A$ \+ B+ ^
    aalglatt 13 r: ]5 p. y& P( m" C( d7 e7 c
    ……
    % s  J- ]* h. Y
    $ O; R; Z1 k( o+ `- Y. Z; }以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。. \1 q5 g5 L) ~+ f- R
  • TA的每日心情
    开心
    2023-3-10 21:17
  • 签到天数: 85 天

    [LV.6]常住居民II

    发表于 2019-1-21 12:59:49 来自手机 | 显示全部楼层
    mikeee 发表于 2019-1-21 00:08
    $ b* B: _4 k2 @4 Z1 c/ x8 M你如果能提供词头信息,如:5 ~' f' h4 Z5 s1 n; M. {
    A 18 K3 f8 {: @) @, z0 r
    a- 1) _5 H% R4 S* {4 t
    & I  {/ O1 L! a' Y/ R
    发了私信。是可以在gd中使用的吗
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:21:57 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:53 编辑 . R- e$ G. G( e
    4 T6 r0 s* b4 j3 F( ?
    感谢楼主分享!非常感谢!
  • TA的每日心情
    奋斗
    2023-6-16 17:52
  • 签到天数: 330 天

    [LV.8]以坛为家I

    发表于 2019-5-28 03:22:10 | 显示全部楼层
    本帖最后由 独上高楼 于 2019-7-8 09:54 编辑 * u( d# H! u/ u+ [3 t

    - i# G! u7 s8 ]% \& O感谢楼主。已经下载,在使用之中了。; {$ q# G8 q! j' o- }2 ^: q
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-2 08:52 , Processed in 0.026703 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表