TA的每日心情 | 开心 2020-11-30 19:14 |
---|
签到天数: 249 天 [LV.8]以坛为家I
|
本帖最后由 DIC4Khmer 于 2016-3-11 09:11 编辑 # t6 ?, z- W- C0 ~6 ^
8 y1 o$ t5 @+ i$ J 从接触MDICT,到立志做一个自己的词典,历时半个月,虽然很多问题不懂,但是到今天为止让我收获良多。* \6 Y. B& P' w6 K
做图片词典的初衷是看见chigre3大大制作的精美的图片词典而心生痒痒,自己也确实需要一本衬手的电子词典,于是我开始了自己的制作之路。3 O2 m9 a; |4 S# y8 m' e
感谢chigre3大大的支持,连非常珍贵的源代码都给我借鉴,感谢网站的知识分享,让我从搜索帖子中发现知识。但是作为一个小蜥蜴,自己心里的困惑是很多前辈想不到的。我们可能很简单的问题都想不明白,比如我最初一直弄不明白为什么我按格式做的词典加载到MDICT却无法搜索。但论坛里却没有相应的教程,可能是因为太简单了,前辈们没时间或者觉得没必要做,但是这可能会让我们这些小蜥蜴们卡在那里。0 N! U/ S: _* c+ i3 q
所以我希望能够把我做电子词典的过程分享出来,一是感谢论坛的帮助,二是希望能对其他人有所借鉴。
* V+ t. c% P# J h% k! x6 P 我的词典的外观是模仿chigre3大大的排版的,因为我觉得他做的很美观、很舒服,不一样的是:我因为不懂Python编程,完全没用上大大好心赠于我的源码,而是在自己使尽浑身解数之下,终于找到的一个只用word、excel和emeditor三个软件,不停的查找替换而成功做成词典的方法。这也是我的曲线救国之法,实属无奈。如果大家有兴趣,我会慢慢地把这个过程在这个帖子中梳理出来,逻辑其实很简单,只是过程很繁琐。; [" K9 }* i) C
我的方法其实总结起来就是:1、获取原始文件;2、添加链接;3、去重,合并词条;4、加内部跳转命令;5、添加完整标记。: N6 Q" O- T; w! l/ E; \. P
9 U q. L3 g4 a5 ]. n k8 j# }
################################################################################################################################################
. ^4 E) F! X6 O3 z第一步:获取原始文件' E& R0 F2 d" u# B5 z$ S3 A
我的原始文件的录入格式是:0 F( F- d8 M. ], I
词1|词2|词3|词4/词5|词6|词7|词89 W$ \! J8 R5 `/ X2 }
其中,同列的词与词以“|”分隔,左右列单词间以“/”分隔。这里为方便输入,可以输入分号“;”代替“|”,后期将其替换为“|”即可。每行为一页,录入时确保数据准确,如果遇到左列或右列没有词,甚至于整页都是上一页某个词的解释时要尤其注意,(可以使用特殊标记表示,后期可以替换掉)避免后期出现错误。
& C; U7 I x: c. g6 R( R 词典录入完成后,利用word中的域进行自动排序,形成“页码 词1|词2|词3|词4/词5|词6|词7|词8”格式,如果前期录入时没有错误,自动生成的数字就是该数据行所在的页码,为避免出错,可以每录入100行就生成页码一次,然后将域文本转换为普通文本。重复此过程,直至完全获取原始文件。/ k$ U. `! C8 P. q/ G: w0 r8 ]
注意:为了方便手机上使用,同时也方便后续联合查找,我制作词典计划将每个词条都添加链接。如果碰到同一个词在字典里出现多个词条,建议采取统一的处理方法,比如统一加编号“词1(1)|词1(2)|词1(3)”等,后期使用替换将(1)(2)(3)等编号去除即可;为方便操作,同一词的多个词条,我选择只计算一次。* i# h$ @+ x1 [4 s* _
第二步:获取每个词所在页码及对应左右列位置信息,即要最终实现【左1|4】或【右6|20】这样的效果,我们必须有单个词的页码及位置信息。8 R4 i- \6 S& C- l! J
通过查找替换将word中“|”和“/”替换为所需数据。将word中全部数据复制到excel表A列中待用。% M4 C2 c7 _* n c! \. c: \0 ?
继续,再次对原始数据时行处理,这次更简单,删掉全部的数字,“|”和“/”全部替换为段落标记,让每个单词成一行。
! I7 k6 z* `! ~, T- [1 e1 L将本次全部数据放到excel表B列中。
$ `. D2 x' }" s% Z3 Z' Q至此,得到excel中的数据文件。
" ?+ e v7 \: M5 @( L& b下面,使用IF函数判断A列与B列同行数据是否相同,筛选出不同的成C列。1 u+ T* M3 p' a q2 u4 Y6 |
用left函数筛选出位置数据
8 q3 S6 x' v9 `然后,填充即可。
% E) q- S; ~" T# ^再使用countif函数就能得到全部位置信息。
3 J8 r9 [3 k4 z, H, T9 V第三步,去掉每个词对应的“页码+左或右”中的非页码信息,只保留每个词对应的页码
3 y' V0 h3 A: A! Z. _然后所有准备工作完成,开始格式编辑。# ~- W+ `1 q; j) ^* {
将词与页码两列数据,调换序列,页码在左,单词在右,然后拷贝进emeditor进行数据处理。添加链接。查找"^(.+?)\t(.+?)$",替换为“\1\t<a href="entry://\2">\2</a>”,为每个单词添加链接。链接添加完毕后,再对某页的数据进行整合。查找“^(.+?)\t(.+?)\n\1\t”,替换为“\1\t\2|”,选择全部替换,反复多次,直到查找不到为止。这样我们得到了某页码下词的集合。如图:
: a3 U! P: i: z) K将刚才的词与页码两列数据复制新的工作表中,保持词在左,页码在右的格式,然后在D列复制上刚才emeditor中处理的数据。在C列中使用VLOOKUP进行匹配,使每个页码都匹配上该页上所有的词的信息。剩下的就比较简单了,将ABC三列数据全部复制,选择性数值粘贴至新的工作表中,然后全部复制到emeditor中进行编辑。( m; z0 @! u' s& d3 l$ Q, {
查找“^(.+?)\t(.+?)\t(.+?)$”,替换为“\1\t<a name=\1></a>\1<Br>\3<Br><img src="/\2.png">”。
' c0 z! ^( i4 W0 c; X, @如果要添加上下页,可以参照tsiank的方法制作,https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13451。; W g( K/ I3 |7 o& [3 Q
继续,将数据调整为MDX需要的三行式。查找“^(.+?)\t(.+?)$”,替换为“\1\n\2\n</>”,全部替换。+ M) o9 _1 I5 f2 b% F# K
将数据保存为utf-8,无签名格式,然后用MDXBuilder进行生成即可。* z6 J8 V4 {, e% K" n
当然,以上只是将大致的所需步骤进行陈述,对于字体、格式等排版方面的设置,大家可以按要求进行修改。3 i0 a0 E3 M1 ^# m% F( j
感谢支持!如有疑问,可用站内信进行交流。
$ U$ N2 R* F8 [! C 感谢版主将贴子高亮!
4 n9 V' c" R& u9 ^& _# A |
|