|
匿名
发表于 2021-1-21 20:01:02
|阅读模式
最近“yunhailin123”将论坛的的各种教程总结起来分享,是一个很好的例子,但是过于繁杂了,一个初学者刚看到这个帖子估计会懵逼。其实t兄的帖子已经已经是很适合初学者的教程了,但是中间有一些内容过于简略,会有一些奇怪的错误导致词典制作失败或者有问题。我之前在论坛摸索了好久,又得到k兄的指点,现在索性以t兄的教程为原本写一个帖子把这些经验分享给大家,适合入门者使用。4 t* d' q+ i# _7 B$ M* o) c
首先声明,这个是图片词典的制作,而且配合原贴使用最佳,毕竟我只是做个注解。% L: K/ @* D* h" K* A
原贴见https://www.pdawiki.com/forum/fo ... hread&tid=13451
& }: |/ c+ w& D1 W6 X% t% _' L3 Q+ C2 Y& m/ y+ ]% T
总来的来说,一共也只有两部分的数据需要处理:1.图片2.字头页码对照的表格。5 b0 D, _, e9 R9 H+ @7 h N
第一步:图片的处理
2 L' ~* T9 Z" p t兄原贴:“将电子书拆分为单页图片。现有的电子书格式一般有PDG,DJVU以及PDF,制作电子字典,一本书有好几种格式的话,首选PDG格式的。因为用这个格式转成的png图片,不仅清晰,而且尺寸刚好合适,可直接在苹果设备中使用(ios中mdict电子字典,其图片尺寸若超过2400*2400便无法显示)。”* I7 K& p7 h/ ^( R7 h+ w3 W8 i; o
$ \! `" Q+ X9 k% i: Q- ? 注:这个png格式并不是必须的,jpg等其他格式也是可以的。png图片的优势在于可以无损压缩,一般来说词典中有大量的图片,比如说古文字文字编中很多需要清晰无损的图片,就用png格式比较好,但是一般而言,png格式的图片比jpg要大很多,毕竟质量在那摆着。
+ k; N: p3 g. R0 m5 ]/ n 我的操作步骤:用acrobat打开pdf文件,点击左上角的“文件”-“另存为”-“jpg/png”图片。然后图片需要处理的,可以用“pngoo”、“comicEnhancer”等软件处理大小、颜色、纠斜等。
* k: ?0 c( g/ A2 V2 i6 v t兄原贴:生成图像后,可以根据需要用文件批量改名工具修改一下文件名,也就是页码。比如我们把正文的页码(也就是以纯数字开头的文件)放在一起,图中的页码都是6位数的,将其改成4位数,并在文件名前加几个字母(这里加个WLG)以与其他字典的页码相区别。将附录和其他的页码放在一起,根据需要进行修改,比如也改成4位数并在前面加上WLGF几个字母,方法同上。0 ^) f4 r- v3 H! i+ x* d
注:“WLG”这三个字母是“王立古汉汉语词典”的“王力古”的缩写,是为了区分不同的词典。自己做的时候不要把所有的词典都命名成“WLGXXXX”,这样容易混乱。
* k; g) }$ i! L3 B8 Z0 N 我的操作步骤: 最简单省事的办法就是只留下正文,其他的目录啊后记的啥的都删掉,做成mdx是为了方便检索,那些东西不如直接看pdf。批量改名为前缀(书的大写字母)+四位数的页码。比如说《古文字类编》,前缀写作“GWZLB”+四位数页码。
: ^+ y" K) w1 s! A+ a4 v 至此图片处理就完成了,简单来说就是acrobat打开pdf,另存为jpg/png图片,保留正文部分,批量改名前缀(书的大写字母)+四位数的页码。
1 P U' N0 p. B/ l: u6 J
' |0 g+ l5 N7 d% K下面我们进行第二步:% ?! _* `1 ?" x5 a: u: r- c2 e" I
t兄原贴:首先,在excel中根据字典正文的页码数输入一列页码数据,原字典是多少页,这里就输入多少个(王力古汉语字典正文页码到1817页)。然后将此列数据分别复制一份到B列和C列,在B1插入一个空单元格,数据与B2同。把C1删除,并在C列最后一行的单元格输入与上个单元格相同的数据。
8 i' @$ h/ d3 O% ] 注:此处有一个bug。t兄给的示意图片只有上面的,没有下面的,很容易导致一个小错误,最后导致词典的第一页显示不出来。
2 m+ ^- X m! n1 N% G, C: } 我的操作步骤:先看处理完的图片一共有几页,比如说一共有4页,我就把数据处理成这个样子:
6 {: n- ~ c+ E# c$ f, d 0001 0001 0002
( {3 A1 U3 G; `6 }+ d3 C# d1 N 0002 0001 0003
( o, _4 ]& R3 ^ m/ E7 O# \ 0003 0002 0004 e: i: L7 k4 g' k& K8 O
0004 0003 00048 K; e# R1 E+ @5 C! t+ z
t兄原贴:将此三列数据复制到EmEditor中,点击搜索-替换选项,勾选使用正则表达式,在查找栏中输入“(.+?)\t(.+?)\t(.+?)$”,在替换栏中输入“WLG\1\n<img src="/WLG\1.png" width="1080px"><br><center> <a href="entry://WLG\2">上一页</a> <a href="entry://WLG\3">下一页</a> \n</>”,然后点击替换全部。
6 n3 u) [ y5 _0 |/ Z 注:“WLG”是书的前缀缩写,如果你要做《古文字类编》,且刚才图片的名字已经改成“GWZLB+四位数页码”。先按照t兄的步骤把代码复制替换,然后把在Emeditor中把“WLG”替换为“GWZLB”;“width="1080px”可以考虑替换成“width="100%”,这样打开词典就会自动铺满窗口;如果用的是jpg图片,记得把代码中的“png”替换成“jpg”。" H( S2 k9 o/ a, v z4 u5 u
t兄原贴:最后将这个文件以UTF-8的格式先保存。
( w# L4 ~2 M* T1 R( F0 Z 注:此处就不要保存了,直接在Emeditor中新建一个窗口来处理字头页码的数据,免得出现“UTF-8”保存错误的问题。
# n* B% s% _- g% J2 y% [' e
7 e$ f' D! C7 K6 S/ B9 Y( m第三步:字头页码数据的处理% [+ ]' c' t' E. F# x# w3 ?
t兄原贴:将字头与页码在excel中整理成如下所示:
! U% T* S5 h- X' }$ }% x. d 字头 页码(此处见原图)! L X3 Q' N9 S. O
将其复制到EmEditor中(首行不要),在查找栏中输入“(.+?)\t(.+?)$”,在替换栏中输入“\1\n@@@LINK=WLG\2\n</>”
' I. {$ C; n; z/ ] 注:同样的,此处的“WLG”替换成你做的书的前缀+四位数页码。
4 l5 S! B8 K7 h3 H# _ t) P1 q t兄原贴:将其结果复制到王力古汉语字典.txt中,注意与前面的内容不要有空行,点击保存。这样文本就处理完毕了。 a2 h! U' T, z6 q, N
注:刚才我们并没有另存为,只是在新建的窗口处理的数据,将此数据全选粘贴到前面处理好的数据当中,注意不要有空行,并且另存为UTF-8的格式。此处注意,要保存为“UTF-8无签名”,不然容易出现第一页打不开的情况。这样文本处理完毕。
# r/ r1 x2 [% x! E R$ O. T4 v! R4 L, `. H2 f5 }
第四步,转换成mdic格式
: @1 o4 t5 d3 b" l t兄原贴:打开MdxBuilder.exe,在source栏中输入刚才保存的文本所在路径及名字,在target栏中输入要生成的mdict格式的字典所在路径及名字,扩展名是.mdx,在data栏中输入第1 步制作的图片的所在位置。original format选择mdict(html),encoding中选择UTF-8,title栏输入这本字典的名字。description栏是这本字典相关信息的描述,支持html标签,也可以不填。其他选项用默认的就行。然后点击start开始生成mdict字典。如果status栏最后出现successful 字样就说明制作成功了。
, h# N' K; Y. I7 {2 E 注:“UTF-8”应为“UTF-8无签名”
/ A8 I5 u3 u s3 m" E" }3 i% |* u- k/ g
然后扔到相应的文件夹,goldendict,深蓝,欧路随便用起来。
, Y. P. j% r/ v6 M4 n6 K) o 我是个典型的文科生,纯靠自己摸索学会了,现在论坛有这么多教程,想学真是很简单。祝大家都能学会词典的制作。 |
|