TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
本帖最后由 mikeee 于 2019-7-15 16:10 编辑
8 P2 n Q0 [! e: y6 b0 a# {& p* {
有点投机取巧的味道,所以加个“懒人”前缀,拿网上的 pdf 书签版抽取书签信息,每页 pdf 转成 png, 都可以编程批处理 。貌似凑合着可以用了。如果能获得词头和页码关系的信息(ocr或人工录入),要做成单词索引也非常简单。全本2263页,mdx版900+MB。
& G+ k0 B) L) F+ T' f) z预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮)
, `: W8 I) K& m+ N8 X2 \, h: @ g# k
记录一下做法,其他人或许可以作为参考。所需工具:pdftk + imagemagick里的 convert, 假定pdf文件为 file.pdf
0 l% U) M- b4 Z2 \' H" V8 w- S- 抽取书签信息:pdftk file.pdf dump_data output file_info.txt
- |) v' Y, E0 M Q处理 file_info.txt 得到词头和页码的对应关系信息。( k' {! {/ J, \) I7 y f
没有书签信息的pdf就得ocr或手动录入。如果只是输入像pdf书签那样的信息倒也挺快的,因为只需做成aaa ba cx 1, dij e f 5这种形式再用程序处理一下就能得到生成mdict(html)所需的信息,1000页的书估计几个小时可以做完吧。 - 分解 file.pdf: pdftk file.pdf burst output p%04d.pdf& \7 ^. P' c+ s4 U# t. D+ v
得到 p0001.pdf, p0002.pdf ... p2236.pdf - ls p*.pdf | xargs -L1 -I {} convert -density 300 {} {}.png2 A5 [$ _7 @' n/ k" y: W! j* y' d) K
或用脚本,核心是 convert -density 300 p0001.pdf p0001.pdf.png,基本就是将 p0001.pdf 转成 p0001.pdf.png。也试了其他转换程序(inkscape,pdftoimg),最后发现还是imagemagic的convert保真和文件大小的平衡最好。用的都是命令行,图形界面批处理重复时费事。转换还挺耗时的,每页需5到8秒,2000多页约需时4到6小时!& y5 G2 t# L: Y
V4 v3 l+ k* b" b+ \0 w- _7 k
然后就是生成 mdict(html) 格式的文件给 MdxBuilder用。
5 B! _9 S/ e! D7 @
7 |) X$ X, p' o可以在html码的最后(</>前面)加 % N0 {! Z0 {$ D. s* S- r- c
- <script>document.querySelector("img").onclick = function(){this.style.transform = 'scale(1.2)'}</script>
复制代码 点击 mdx 词典里的图片就可以放大1.2倍。也可以加个再点击还原的功能,以后再折腾。坛里的 js高人请赐码。顺便提一句,看到论坛里有人用jquery,其实很多时候都是没有必要的。5 J! } J& ~% p9 @# `
: A1 i4 f P* u! N- f加了前后翻页的按钮。也可以直接搜某页,z.B.,s88,如下图:
4 Y/ l& g% l) e5 p
3 I' S$ M+ W9 E# U7 B' i7 V6 B0 O至于这东西有没有用,个人觉得如果你在用这个字典的 pdf 版,那不妨下了mdx版用一阵试试。pdf版600多M,mdx版900多M。mdx版应该还是比pdf版好用点。等我学多点 javascript 和 css 再加几个功能。 ?; z% N" c- i* X* D* J
2 i) Q* l% _! | W i4 v% D
补充:如果原版是 djvu,则可以用 ddjvu直接从djvu转成 tiff,直接用到 mdict(html)送给 mdxbulder。转换速度很快,保真方面没有详细比较过,不太清楚。见下面的拉鲁斯法汉双解词典(全本)版,其中前1-64页是 pdf转 png,65页到最后是 djvu转tiff。
: V3 m) v# J: C* @' ?
( ~$ L; [" q, y, G$ |
4 o0 g. u$ C% u! ^* G/ d朗氏德汉双解大词典预览版(100页)链接: https://pan.baidu.com/s/1LcwMUu1RYwf-9SSouxVkqQ 提取码: xqbd ( 全本加了点击放大1.2倍和前后翻页按钮); ~/ I. \2 E$ t$ ~* \
朗氏德汉双解大词典0.6.0版 全版 933M 链接: https://pan.baidu.com/s/1LQGW-4TkTWF_Vc5EmcMtMw 提取码: xq5n, l a h( w' M& L2 p' W
更新: 朗氏德汉双解大词典0.6.1版(附件langenscheidt_v0.6.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.6.0版的mdd文件前缀改成和0.6.1版一样就可以了。% i& H( u7 ~2 K% k# U& T
( K7 ^3 |: L3 o2 u4 _更新(2019.1.20)朗氏德汉双解大词典0.7.0版:(langenscheidt_dahuangv0.7.0-updates-only.rar 不含mdd,可用 v0.6.1版的mdd)用了https://www.pdawiki.com/forum/fo ... etag=s_pctim_aiomsg的词头信息(鸣谢@Charlieqiu)做成了可直接查单词, 也可直接查页,页末加入翻页纽。本想整个三级放大,但明明在浏览器里可以用的js转 mdx后就不工作了,只好作罢。其实放大也没太大用,Mdict可直接鼠标滚动放大。; B/ o2 i$ p9 D/ R: A" V/ p
更新(2019.7.15)朗氏德汉双解大词典0.8.1版:修订索引错误,用了Bootstrap 4(移动优先——显示自动调节,手机版友好,但未用手机测试过),度盘链接: https://pan.baidu.com/s/18PEtXt53sLyKiBOTCXOBkg 提取码: uxw4 $ S) O) }; V: D# r- u6 J
0 O8 I& O+ S- z ], s$ Y( r
拉鲁斯法汉双解词典测试版(60页)链接: https://pan.baidu.com/s/1-NqOFtQgKraUfSAn5LwX8A qk5w
$ x" V' q% J2 i7 G- Q- o拉鲁斯法汉双解词典v0.1.0(全本,65页以后用 ddjvu从djvu生成的 tif)链接: https://pan.baidu.com/s/1GUUz2T92JmAOQjBIab1OFw 提取码: riji
) E6 T- Q- j: {) x) a' Q& x$ X% ^更新: 拉鲁斯法汉双解词典v0.1.1版(拉鲁斯法汉双解词典v0.1.1.rar)加了点击放大图片、再点击还原,无需再下mdd文件,将0.1.0版的mdd文件前缀改成和0.1.1版一样就可以了。& N/ }! z5 X$ O/ V3 W, [+ v7 R M; l5 G
" M! G# e0 T2 K
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
5
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 图片词典制作|主题: 41, 订阅: 7
- · 小众|主题: 22, 订阅: 4
|