mikeee 发表于 2019-1-1 01:31:12

MDX 懒人切图版 朗氏德汉双解大词典

本帖最后由 mikeee 于 2019-7-15 16:10 编辑

有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)

记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf

[*]抽取书签信息:pdftk file.pdf dump_data output file_info.txt
处理 file_info.txt 得到词头和页码的对应关系信息。
没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。
[*]分解 file.pdf:pdftk file.pdf burst output p%04d.pdf
得到 p0001.pdf, p0002.pdf ... p2236.pdf
[*]ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png
或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!

然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。

可以在html码的最后(</>前面)加
<script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。

加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:

至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能{:4_95:}。

补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
static/image/hrline/line1.png

朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)
朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n
更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。
static/image/hrline/line1.png
更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。
更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4

拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8Aqk5w
拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。

chigre3 发表于 2019-1-1 12:21:52

[德语]朗氏德汉双解大词典 全索引切图版
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=32202
(出处: 掌上百科 - PDAWIKI)

mikeee 发表于 2019-7-15 01:06:20

独上高楼 发表于 2019-7-8 09:54
感谢楼主。本人用的是0.7.0,但是用了之后,
【1】词典经常有查不到词的情形出现,是不是索引有缺失呀。
【 ...

有个0.8.0 版,修好了索引错误,我找时间整个百度下载。

mikeee 发表于 2019-1-3 17:23:45

xliley01 发表于 2019-1-3 13:49
等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

是的。任何附加信息都有用。比如朗氏德汉双解大词典隔7、8页有一个两三个字母词头(并不一定是单词)。拉鲁斯法汉双解词典现在是只有A、B... Z二十六个词头。追加词头的话,可以隔几页一个词头(可能找有些词时要翻几页), 可以每页一个词头(可以在找某些词时要前后翻一页),也可以列出一页里所有的词头(就可以直接搜词头了)。

Charlieqiu 发表于 2019-1-1 20:52:39

这是个很好的思路。我觉得可以把图片版分两个类,1、有大致索引,但索引不是完整的,起到在词典中分割的作用。就像这pdf的书签,是把词典内容人为分割成若干部分。但楼主这样转换,把人为规定的书签直接当成mdx中的词头,还是不利于查询。我之前制作的杜登德汉大词典也是差不多思路,把每页页首词作分割用,为了方便查询,mdx词头只能取其他词典的混合来用,也是权宜之计。2、有精确索引。获取精确的词头制作出整页版和切图版。耗时费力,但的确是一一对应的查询,很方便。

laowangma 发表于 2019-1-1 14:22:14

chigre3 发表于 2019-1-1 12:21
[德语]朗氏德汉双解大词典 全索引切图版
https://www.pdawiki.com/forum/forum.php?mod=view ...

谢谢分享

laowangma 发表于 2019-1-1 14:29:15

功德无量的大好事。谢谢您的付出。

chigre3 发表于 2019-1-1 22:07:13

对于没有全索引的我就制作页末单词索引在电脑端Goldendict加载python代码查询定位到页随便几千页的词典都能很快完成

liuyunrushui 发表于 2019-1-1 23:54:14

楼主厉害!感谢分享!

祝楼主新年快乐,万事如意!

liuyunrushui 发表于 2019-1-1 23:54:20

楼主厉害!感谢分享!

祝楼主新年快乐,万事如意!

xliley01 发表于 2019-1-2 07:45:30

很好。帮我们弄个法汉的吧。谢谢。

mikeee 发表于 2019-1-2 10:08:26

本帖最后由 mikeee 于 2019-1-2 10:11 编辑

xliley01 发表于 2019-1-2 07:45
很好。帮我们弄个法汉的吧。谢谢。
你提供资料(pdf文件百度盘链接或无需注册可以下载的链接)的话我可以试试…… 都是些脚本,运行起来也不太费事。

xliley01 发表于 2019-1-2 12:19:15

链接: https://pan.baidu.com/s/1Qze2p2oL0fe8FZpWRlTb8g 提取码: stut 复制这段内容后打开百度网盘手机App,操作更方便哦

有4个法汉的pdf。其中法汉和新世纪法汉比较清楚,新法汉和拉鲁斯比较模糊,最想要的还是拉鲁斯。看看能不能搞定,谢谢。

xliley01 发表于 2019-1-2 12:27:01

本帖最后由 xliley01 于 2019-1-2 12:28 编辑

还需要什么的话,请告诉我。

mikeee 发表于 2019-1-2 14:44:47

本帖最后由 mikeee 于 2019-1-2 14:58 编辑

xliley01 发表于 2019-1-2 12:27
还需要什么的话,请告诉我。
做好了60页的拉鲁斯法汉双解词典测试版。pdf转png需时特别长,不知道什么原因。一般一页7、8秒,可这本书的pdf每页需一分钟!你看看能不能用,可以用的话,我再转余下的2000多页!我搜了一下论坛,拉鲁斯好像已经有切图版?

拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8Aqk5w

xliley01 发表于 2019-1-2 19:14:56

本帖最后由 xliley01 于 2019-1-2 19:21 编辑

有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码:t4u9
复制这段内容后打开百度网盘手机App,操作更方便哦
试过了,看过翻页蛮方便的,就是具体单词怎么查?

mikeee 发表于 2019-1-2 21:00:45

本帖最后由 mikeee 于 2019-1-2 21:14 编辑

xliley01 发表于 2019-1-2 19:14
有直接的djvu,用老马的软件转图片很快,链接:https://pan.baidu.com/s/1g8ZH6IgJf1Wz-5JThBk8rg 提取码: ...这个懒人切图版是查不了单词,书签里没单词信息。但可以查页,例如 p88。不过你可以提供下列格式的信息:
abc abz 123
...
zab aac 2220
我就可以生成对应的查单词版。用其他方法生成词头信息就不是一个中午可以做得出来的了。至少目前不行,等人工智能再发展20年的样子或许可以{:4_95:}。

你说的djvu是和 pdf 一样的吗?因为 pdf 版里含 A, B, …… Z 的书签,这些已经整合到 mdx 字典里。如果djvu是和 pdf 不一样,就会有问题。

另外也不知道djvu转png质量如何,如果失真太大也就不能用。不如你提供 png 文件给我?其实你已经可以自己用 MdxExport (https://www.pdawiki.com/forum/fo ... highlight=mdxexport)导出 拉鲁斯法汉双解词典测试版(60页)的mdx和mdd, 然后自己将缺的 png 拷到 对应的目录里,再用 MDXBuilder 重新生成 mdx、mdd就可以了。

你如果觉得测试版这个样子可以用,就请告诉我一声,我慢慢用我的方法生成 png 文件好了。如果觉得不能用,就暂时放弃了,等等人工智能。

mikeee 发表于 2019-1-2 22:03:35

本帖最后由 mikeee 于 2019-1-2 22:22 编辑

@xliley01
用 https://sourceforge.net/projects/djvu/ 的 ddjvu从djvu生成tiff, 文件倒是很小,也很快。

链接: https://pan.baidu.com/s/1KY4QHPHn1IlHADbShcVpNg 提取码: mpdx

1-64页,pdf到png, 65-100页是 tiff。你看看有没有区别。要是凑合可用,我就生成一个全版了。
全本版做好了,见一楼末尾……。

chigre3 发表于 2019-1-2 22:05:12

这样子的叫做整页版 - -

mikeee 发表于 2019-1-2 22:25:33

chigre3 发表于 2019-1-2 22:05
这样子的叫做整页版 - -
是的,比整页版还次一等——整页版还可以含每页详细词头信息…… 所以叫懒人版,就是完全不想动手{:4_106:}。其实懒人版也可以做成含每页词头的详细信息,前提是有人不那么懒。

xliley01 发表于 2019-1-3 13:49:14

等我有空了弄个每一页的最后一个单词或第一个单词的索引,是不是有用

潇潇天 发表于 2019-1-20 20:36:24

能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费

mikeee 发表于 2019-1-21 00:08:28

本帖最后由 mikeee 于 2019-1-21 00:09 编辑

潇潇天 发表于 2019-1-20 20:36
能帮忙做一个简单的pdf吗?只要单词检索到页面就行。可以付费
你如果能提供词头信息,如:
A 1
a- 1
Aa 1
Aal 1
aalen 1
aalglatt 1
……

以及 pdf 文件,我可以试着免费给你做一个,并不是太费事,都是些脚本。词头信息也可以是非常简单,譬如每页的第一个词。如没有词头信息的话,则只能做成按页码搜索的字典。参考一楼的法汉词典。

潇潇天 发表于 2019-1-21 12:59:49

mikeee 发表于 2019-1-21 00:08
你如果能提供词头信息,如:
A 1
a- 1


发了私信。是可以在gd中使用的吗

独上高楼 发表于 2019-5-28 03:21:57

本帖最后由 独上高楼 于 2019-7-8 09:53 编辑

感谢楼主分享!非常感谢!

独上高楼 发表于 2019-5-28 03:22:10

本帖最后由 独上高楼 于 2019-7-8 09:54 编辑

感谢楼主。已经下载,在使用之中了。
页: [1] 2
查看完整版本: MDX 懒人切图版 朗氏德汉双解大词典