DIC4Khmer 发表于 2016-2-19 00:33:30

我的词典制作方法

本帖最后由 DIC4Khmer 于 2016-3-11 09:11 编辑

  从接触MDICT,到立志做一个自己的词典,历时半个月,虽然很多问题不懂,但是到今天为止让我收获良多。
  做图片词典的初衷是看见chigre3大大制作的精美的图片词典而心生痒痒,自己也确实需要一本衬手的电子词典,于是我开始了自己的制作之路。
  感谢chigre3大大的支持,连非常珍贵的源代码都给我借鉴,感谢网站的知识分享,让我从搜索帖子中发现知识。但是作为一个小蜥蜴,自己心里的困惑是很多前辈想不到的。我们可能很简单的问题都想不明白,比如我最初一直弄不明白为什么我按格式做的词典加载到MDICT却无法搜索。但论坛里却没有相应的教程,可能是因为太简单了,前辈们没时间或者觉得没必要做,但是这可能会让我们这些小蜥蜴们卡在那里。
  所以我希望能够把我做电子词典的过程分享出来,一是感谢论坛的帮助,二是希望能对其他人有所借鉴。
  我的词典的外观是模仿chigre3大大的排版的,因为我觉得他做的很美观、很舒服,不一样的是:我因为不懂Python编程,完全没用上大大好心赠于我的源码,而是在自己使尽浑身解数之下,终于找到的一个只用word、excel和emeditor三个软件,不停的查找替换而成功做成词典的方法。这也是我的曲线救国之法,实属无奈。如果大家有兴趣,我会慢慢地把这个过程在这个帖子中梳理出来,逻辑其实很简单,只是过程很繁琐。
  我的方法其实总结起来就是:1、获取原始文件;2、添加链接;3、去重,合并词条;4、加内部跳转命令;5、添加完整标记。

################################################################################################################################################
第一步:获取原始文件
  我的原始文件的录入格式是:
  词1|词2|词3|词4/词5|词6|词7|词8
      其中,同列的词与词以“|”分隔,左右列单词间以“/”分隔。这里为方便输入,可以输入分号“;”代替“|”,后期将其替换为“|”即可。每行为一页,录入时确保数据准确,如果遇到左列或右列没有词,甚至于整页都是上一页某个词的解释时要尤其注意,(可以使用特殊标记表示,后期可以替换掉)避免后期出现错误。
  词典录入完成后,利用word中的域进行自动排序,形成“页码 词1|词2|词3|词4/词5|词6|词7|词8”格式,如果前期录入时没有错误,自动生成的数字就是该数据行所在的页码,为避免出错,可以每录入100行就生成页码一次,然后将域文本转换为普通文本。重复此过程,直至完全获取原始文件。
  注意:为了方便手机上使用,同时也方便后续联合查找,我制作词典计划将每个词条都添加链接。如果碰到同一个词在字典里出现多个词条,建议采取统一的处理方法,比如统一加编号“词1(1)|词1(2)|词1(3)”等,后期使用替换将(1)(2)(3)等编号去除即可;为方便操作,同一词的多个词条,我选择只计算一次。
第二步:获取每个词所在页码及对应左右列位置信息,即要最终实现【左1|4】或【右6|20】这样的效果,我们必须有单个词的页码及位置信息。
通过查找替换将word中“|”和“/”替换为所需数据。将word中全部数据复制到excel表A列中待用。
继续,再次对原始数据时行处理,这次更简单,删掉全部的数字,“|”和“/”全部替换为段落标记,让每个单词成一行。
将本次全部数据放到excel表B列中。
至此,得到excel中的数据文件。
下面,使用IF函数判断A列与B列同行数据是否相同,筛选出不同的成C列。
用left函数筛选出位置数据
然后,填充即可。
再使用countif函数就能得到全部位置信息。
第三步,去掉每个词对应的“页码+左或右”中的非页码信息,只保留每个词对应的页码
然后所有准备工作完成,开始格式编辑。
将词与页码两列数据,调换序列,页码在左,单词在右,然后拷贝进emeditor进行数据处理。添加链接。查找"^(.+?)\t(.+?)$",替换为“\1\t<a href="entry://\2">\2</a>”,为每个单词添加链接。链接添加完毕后,再对某页的数据进行整合。查找“^(.+?)\t(.+?)\n\1\t”,替换为“\1\t\2|”,选择全部替换,反复多次,直到查找不到为止。这样我们得到了某页码下词的集合。如图:
将刚才的词与页码两列数据复制新的工作表中,保持词在左,页码在右的格式,然后在D列复制上刚才emeditor中处理的数据。在C列中使用VLOOKUP进行匹配,使每个页码都匹配上该页上所有的词的信息。剩下的就比较简单了,将ABC三列数据全部复制,选择性数值粘贴至新的工作表中,然后全部复制到emeditor中进行编辑。
查找“^(.+?)\t(.+?)\t(.+?)$”,替换为“\1\t<a name=\1></a>\1<Br>\3<Br><img src="/\2.png">”。
如果要添加上下页,可以参照tsiank的方法制作,https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13451。
继续,将数据调整为MDX需要的三行式。查找“^(.+?)\t(.+?)$”,替换为“\1\n\2\n</>”,全部替换。
将数据保存为utf-8,无签名格式,然后用MDXBuilder进行生成即可。
  当然,以上只是将大致的所需步骤进行陈述,对于字体、格式等排版方面的设置,大家可以按要求进行修改。
感谢支持!如有疑问,可用站内信进行交流。
  感谢版主将贴子高亮!
  

bird73 发表于 2016-2-19 01:33:52

搬个板凳

chigre3 发表于 2016-2-19 01:56:32

又一个图片版词典,而且是小语种!新手制作~鼓励鼓励!

DIC4Khmer 发表于 2016-2-19 11:27:11

chigre3 发表于 2016-2-19 01:56
又一个图片版词典,而且是小语种!新手制作~鼓励鼓励!

谢谢您的支持与鼓励

beta0p 发表于 2016-2-19 17:52:07

不错,条条大路通罗马!

fanziyu 发表于 2016-2-19 23:21:53

请问截图里的是泰文吗?

LYX1692 发表于 2016-2-20 10:42:17

楼主跟我是一样的,excel, emeditor,我也只有这两个耍得开。
好在,好几个小词典居然弄出来了。

DIC4Khmer 发表于 2016-2-20 13:36:59

fanziyu 发表于 2016-2-19 23:21
请问截图里的是泰文吗?

不是泰语,柬埔寨语

DIC4Khmer 发表于 2016-2-20 13:38:16

LYX1692 发表于 2016-2-20 10:42
楼主跟我是一样的,excel, emeditor,我也只有这两个耍得开。
好在,好几个小词典居然弄出来了。

对,其实后来发现思路其实很简单,就是操作上相对烦琐。

小昔_ 发表于 2016-2-20 17:45:02

{:11_399:} 有耐心做词典,支持~

学习互 发表于 2016-2-21 21:44:35

技术贴,佩服。

chigre3 发表于 2016-2-22 07:43:08

原本使用python的原因是要每个词条所在整块区域的对应处也变色,这样一来,每个词条下方的整页面词条区域就都是有所区别的。。。工作量很大,这样的情况下用python最方便啦~
不需要这样的话,只是左右+序号位置的话用 EmEditor / UltraEdit / Excel 三者完美搞定!!!

lwangls 发表于 2016-2-22 15:44:47

英语词典已经多得记不住了!

小语种奇缺!

雷霆崖上好风光 发表于 2016-2-22 15:54:16

如果有图片示意说明,那就更好了。

DIC4Khmer 发表于 2016-2-23 23:16:38

chigre3 发表于 2016-2-22 07:43
原本使用python的原因是要每个词条所在整块区域的对应处也变色,这样一来,每个词条下方的整页面词条区域就 ...

嗯,受教了。

mw22 发表于 2016-3-16 15:20:59

感谢楼主分享

bianren 发表于 2017-5-12 09:17:26

我也要学习学习

abcde吕 发表于 2017-5-13 12:32:50

这个版块值得学习。论坛中就缺少技术型的帖子,有的时候想找都找不到
页: [1]
查看完整版本: 我的词典制作方法