掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2077|回复: 20

[教程] 图片词典制作详解--以tsiank的教程为例

[复制链接]
匿名
匿名  发表于 2021-1-21 20:01:02 |阅读模式
            最近“yunhailin123”将论坛的的各种教程总结起来分享,是一个很好的例子,但是过于繁杂了,一个初学者刚看到这个帖子估计会懵逼。其实t兄的帖子已经已经是很适合初学者的教程了,但是中间有一些内容过于简略,会有一些奇怪的错误导致词典制作失败或者有问题。我之前在论坛摸索了好久,又得到k兄的指点,现在索性以t兄的教程为原本写一个帖子把这些经验分享给大家,适合入门者使用。9 R; i/ f/ T+ {
首先声明,这个是图片词典的制作,而且配合原贴使用最佳,毕竟我只是做个注解。8 E: p+ t* F# s. d1 Y9 F
原贴见https://www.pdawiki.com/forum/fo ... hread&tid=13451

5 p' j. V0 X3 Y: d. l$ @8 H3 E: v/ G. S2 Q  B. q
           总来的来说,一共也只有两部分的数据需要处理:1.图片2.字头页码对照的表格。& V: C. M* T% D$ A4 G
第一步:图片的处理
8 ], Z; l. o% s- n$ H/ h; u           t兄原贴:“将电子书拆分为单页图片。现有的电子书格式一般有PDG,DJVU以及PDF,制作电子字典,一本书有好几种格式的话,首选PDG格式的。因为用这个格式转成的png图片,不仅清晰,而且尺寸刚好合适,可直接在苹果设备中使用(ios中mdict电子字典,其图片尺寸若超过2400*2400便无法显示)。”
! Y( T+ M8 C2 p1 C% D& P: E8 H
. r6 ~. N5 Q9 O# h! U           注:这个png格式并不是必须的,jpg等其他格式也是可以的。png图片的优势在于可以无损压缩,一般来说词典中有大量的图片,比如说古文字文字编中很多需要清晰无损的图片,就用png格式比较好,但是一般而言,png格式的图片比jpg要大很多,毕竟质量在那摆着。
. |# `( N$ I1 D! l3 R" t( Q           我的操作步骤:用acrobat打开pdf文件,点击左上角的“文件”-“另存为”-“jpg/png”图片。然后图片需要处理的,可以用“pngoo”、“comicEnhancer”等软件处理大小、颜色、纠斜等。

( c! ?) h" B- G0 P( \/ [" }          t兄原贴:生成图像后,可以根据需要用文件批量改名工具修改一下文件名,也就是页码。比如我们把正文的页码(也就是以纯数字开头的文件)放在一起,图中的页码都是6位数的,将其改成4位数,并在文件名前加几个字母(这里加个WLG)以与其他字典的页码相区别。将附录和其他的页码放在一起,根据需要进行修改,比如也改成4位数并在前面加上WLGF几个字母,方法同上。! y6 O9 B% R* I# X" ]6 ]
           注:“WLG”这三个字母是“王立古汉汉语词典”的“王力古”的缩写,是为了区分不同的词典。自己做的时候不要把所有的词典都命名成“WLGXXXX”,这样容易混乱。* k9 q) \! e- R) n: D0 @; f
           我的操作步骤: 最简单省事的办法就是只留下正文,其他的目录啊后记的啥的都删掉,做成mdx是为了方便检索,那些东西不如直接看pdf。批量改名为前缀(书的大写字母)+四位数的页码。比如说《古文字类编》,前缀写作“GWZLB”+四位数页码。
& c2 _. K' a  n4 V+ y) \" b* ~1 H           至此图片处理就完成了,简单来说就是acrobat打开pdf,另存为jpg/png图片,保留正文部分,批量改名前缀(书的大写字母)+四位数的页码。
! i) e4 r% C2 D" h4 l, M+ p: a- [, r

# X* J7 j+ H1 M  F6 J- y& f下面我们进行第二步:
: e( E- G# }9 e3 V: M6 h' z          t兄原贴:首先,在excel中根据字典正文的页码数输入一列页码数据,原字典是多少页,这里就输入多少个(王力古汉语字典正文页码到1817页)。然后将此列数据分别复制一份到B列和C列,在B1插入一个空单元格,数据与B2同。把C1删除,并在C列最后一行的单元格输入与上个单元格相同的数据。
& Q% t, m6 N  n0 V" x+ ^          注:此处有一个bug。t兄给的示意图片只有上面的,没有下面的,很容易导致一个小错误,最后导致词典的第一页显示不出来。
; K$ [0 y3 S  c           我的操作步骤:先看处理完的图片一共有几页,比如说一共有4页,我就把数据处理成这个样子:4 R: m# q. q0 r+ g3 v
           0001    0001    0002) L* R' X# p' q0 X$ U
           0002    0001    0003
/ P$ K; j/ k6 q/ O* g           0003    0002    0004
% Y8 Y5 v7 M' S. K* r# g           0004    0003    0004
1 r6 f, w+ u& Z/ _% S
           t兄原贴:将此三列数据复制到EmEditor中,点击搜索-替换选项,勾选使用正则表达式,在查找栏中输入“(.+?)\t(.+?)\t(.+?)$”,在替换栏中输入“WLG\1\n<img src="/WLG\1.png" width="1080px"><br><center> <a href="entry://WLG\2">上一页</a> &nbsp;&nbsp;<a href="entry://WLG\3">下一页</a> \n</>”,然后点击替换全部。
2 A- ~4 [3 t- w           注:“WLG”是书的前缀缩写,如果你要做《古文字类编》,且刚才图片的名字已经改成“GWZLB+四位数页码”。先按照t兄的步骤把代码复制替换,然后把在Emeditor中把“WLG”替换为“GWZLB”;“width="1080px”可以考虑替换成“width="100%”,这样打开词典就会自动铺满窗口;如果用的是jpg图片,记得把代码中的“png”替换成“jpg”。. d) ?% c2 }! w! f/ Y
            t兄原贴:最后将这个文件以UTF-8的格式先保存。+ L5 C! o5 `, Q" T
           注:此处就不要保存了,直接在Emeditor中新建一个窗口来处理字头页码的数据,免得出现“UTF-8”保存错误的问题。
, ?" B  c" q% t# u. h: v" x6 D7 \$ ~2 m% X+ @7 W+ S, ~
第三步:字头页码数据的处理7 Q" q/ J  `0 R
            t兄原贴:将字头与页码在excel中整理成如下所示:. t1 u" ~) x8 n  }
           字头   页码(此处见原图)# _5 V5 z+ \( w8 C) Y% L1 U8 n& z
           将其复制到EmEditor中(首行不要),在查找栏中输入“(.+?)\t(.+?)$”,在替换栏中输入“\1\n@@@LINK=WLG\2\n</>”5 ]5 L( @' ^. z7 U) m
           注:同样的,此处的“WLG”替换成你做的书的前缀+四位数页码。  E  w$ A* M" ]* H# }0 D
            t兄原贴:将其结果复制到王力古汉语字典.txt中,注意与前面的内容不要有空行,点击保存。这样文本就处理完毕了。
# B2 ]8 {& M) n. U4 k1 u1 f) s' {8 i           注:刚才我们并没有另存为,只是在新建的窗口处理的数据,将此数据全选粘贴到前面处理好的数据当中,注意不要有空行,并且另存为UTF-8的格式。此处注意,要保存为“UTF-8无签名”,不然容易出现第一页打不开的情况。这样文本处理完毕。
0 x" b9 T$ U( Q7 v3 p
9 q% g* J/ r' k1 T: g2 c! c第四步,转换成mdic格式

. Q2 M5 g" ?6 c- q: r) ?% ]" }          t兄原贴:打开MdxBuilder.exe,在source栏中输入刚才保存的文本所在路径及名字,在target栏中输入要生成的mdict格式的字典所在路径及名字,扩展名是.mdx,在data栏中输入第1 步制作的图片的所在位置。original format选择mdict(html),encoding中选择UTF-8,title栏输入这本字典的名字。description栏是这本字典相关信息的描述,支持html标签,也可以不填。其他选项用默认的就行。然后点击start开始生成mdict字典。如果status栏最后出现successful 字样就说明制作成功了
( d3 m8 C% @: O% x3 @# E           注:“UTF-8”应为“UTF-8无签名”2 a$ R) ]3 X" X; e' H& m

2 e$ g% h  \1 ^/ S6 `# Y, l           然后扔到相应的文件夹,goldendict,深蓝,欧路随便用起来。
; p4 a* z; m: @+ `, O' v: z  t/ }           我是个典型的文科生,纯靠自己摸索学会了,现在论坛有这么多教程,想学真是很简单。祝大家都能学会词典的制作。

本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2022-3-25 11:07
  • 签到天数: 66 天

    [LV.6]常住居民II

    发表于 2021-1-22 21:25:15 | 显示全部楼层
    炊爱牛 发表于 2021-1-22 12:54. f* M5 ?6 l% H5 ~; g
    谢谢!真的是readfree的老马大神吗?
    7 Z9 p) U5 b2 m) w- |
    别无他人
  • TA的每日心情
    开心
    2022-2-7 08:49
  • 签到天数: 243 天

    [LV.8]以坛为家I

    发表于 2021-1-22 05:14:13 | 显示全部楼层
    谢谢!切图的话还需要其他技术吧?
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    发表于 2021-1-22 09:00:44 | 显示全部楼层
    大佬,那一部词典这么多字头怎么提取出来,需要什么软件吗
  • TA的每日心情
    擦汗
    昨天 07:54
  • 签到天数: 1805 天

    [LV.Master]伴坛终老

    发表于 2021-1-22 09:13:23 | 显示全部楼层
    认真看看,期待更多例程。谢谢!
    匿名
    匿名  发表于 2021-1-22 09:40:07
    gudaochuanren 发表于 2021-1-22 09:00  {. V* W6 n% J% f0 Y2 }, Q" j
    大佬,那一部词典这么多字头怎么提取出来,需要什么软件吗

    # l1 B2 l2 I  z1手動輸入4 W, u4 S; H# n9 s
    2ocr后校訂
    匿名
    匿名  发表于 2021-1-22 09:47:20
    炊爱牛 发表于 2021-1-22 05:14
    6 x* M; Q" l8 J+ m4 p7 J& c谢谢!切图的话还需要其他技术吧?

    6 ~5 O3 B2 R5 O! j! k# {3 t那個屬於進階技術了。
    0 x/ H. |0 g1 m這裡只是對入門技術的注解。
  • TA的每日心情
    开心
    2021-5-17 10:39
  • 签到天数: 486 天

    [LV.9]以坛为家II

    发表于 2021-1-22 10:59:57 | 显示全部楼层
    写得很好,之前我学制作时就碰到你说的问题。
  • TA的每日心情
    擦汗
    2022-3-25 11:07
  • 签到天数: 66 天

    [LV.6]常住居民II

    发表于 2021-1-22 11:50:38 | 显示全部楼层
    炊爱牛 发表于 2021-1-22 05:140 |( \/ ~8 G8 P: V' D1 I3 v6 P7 z8 \
    谢谢!切图的话还需要其他技术吧?

    * |* b; P; i( k& G0 y: j9 Z2 y3 l链接:https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ
    4 H+ z+ V; B3 _; N& w
    3 C7 A1 w/ p4 V1 U: u0 k: K提取码:4hie& C. s0 P/ h0 U7 E/ U
    这里面有关于切图的所有讲解内容
  • TA的每日心情
    开心
    2022-2-7 08:49
  • 签到天数: 243 天

    [LV.8]以坛为家I

    发表于 2021-1-22 12:54:59 | 显示全部楼层
    yunhailin123 发表于 2021-1-22 11:50
    , X' F. [: \" t2 v链接:https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ
    * t" d; n& f5 Y# C7 Q5 R
    2 f2 Z4 @/ D9 L7 ~提取码:4hie
    9 V- g. d  f: {) X
    谢谢!真的是readfree的老马大神吗?
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    发表于 2021-1-22 17:12:24 | 显示全部楼层
    另外还有一点,一个字头对应不同的页码会有影响吗
    匿名
    匿名  发表于 2021-1-22 18:47:42
    gudaochuanren 发表于 2021-1-22 17:12
    ; M  P1 W( ]* N6 W9 i  j# T另外还有一点,一个字头对应不同的页码会有影响吗

    5 ~# ~/ o. Q9 P, z& V+ b  y4 x; W田 0001
      B8 [: k! T7 g+ p8 |+ n田 0002
    : c, I. c5 ~0 I你這麼輸入的話,做好之後用goldendict搜素“田”,會同時打開這兩頁
  • TA的每日心情
    开心
    2019-5-18 18:07
  • 签到天数: 521 天

    [LV.9]以坛为家II

    发表于 2021-1-22 18:58:38 | 显示全部楼层
    大佬能详细讲解一下用OCR处理词头索引吗?谢谢
    匿名
    匿名  发表于 2021-1-22 21:30:46
    江湖侠客 发表于 2021-1-22 18:581 t8 }- O  b- u4 p
    大佬能详细讲解一下用OCR处理词头索引吗?谢谢

    ; @& w$ T5 k, T0 i3 K4 e- hacrobat把索引頁單獨截出來,abbyy ocr,校對。
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-1-26 00:53:43 | 显示全部楼层
    您花这么多时间写,效果远远不如做一个视频讲解,哪怕是无声的,只要记录下操作,比文字说明强千百倍。
  • TA的每日心情
    开心
    2018-12-22 06:23
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2021-5-7 06:29:33 | 显示全部楼层
    感谢楼主分享,我现在就是那个抓耳挠腮的小白,正到处找资料,十分感谢。

    该用户从未签到

    发表于 2022-5-18 23:04:04 | 显示全部楼层
    感谢楼主分享!
  • TA的每日心情
    郁闷
    2022-11-16 21:23
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    发表于 2022-6-17 11:47:57 | 显示全部楼层
    匿名者 发表于 2021-1-22 21:30
    ' m8 D+ G+ l1 }, Y9 e; Vacrobat把索引頁單獨截出來,abbyy ocr,校對。
    : a. V( q7 j5 E: c* y8 n
    有的字典没有索引页,那只能OCR识别后输入吗?
  • TA的每日心情

    2023-7-17 10:55
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2023-7-2 18:55:42 | 显示全部楼层
    感谢楼主分享,小白前来学习。但是在第二步时使用emeditor查找替换时,不论是复制您的内容还是直接输入查找替换所需的表达式,弹出的结果都是无法找到,能向您请教这应该如何解决吗?
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 01:54 , Processed in 0.057109 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表