TA的每日心情 | 开心 2020-4-3 07:40 |
---|
签到天数: 491 天 [LV.9]以坛为家II
|
实际上论坛上有这方面的帖子,水平也较高,因有人还在找,我就简单说几句。7 X9 L- P! S( R7 U- m
+ T( w6 g$ R% m) Q) [ 可能有人认为EPWING的有些辞典的质量较高,想自己转化下,但实际上经典的词典都有人已转化成国内常用的格式了,花点时间找找还是可以找到这些词典的。
4 H/ T( ]4 g" ^ 若还是想自己从头开始(以前我也有此想法)又不知如何下手,就请参考下本帖吧。我水平有限,只能说个大概。- `, @/ ?# |) t; d
; v; i+ p v+ P 1 EPWING格式 实际上是简单的HTML模式,最主要的特点是针对日语的单词的特点将不同的词头指向同一解释。日语由汉字,平假名,片假名,英文单独或混合而成的。举一例,如 【中国】这个词,它有一解释。但平假名 “ちゅうごく”也要对应这个解释,片假名也要对应这个解释。为处理大量同一解释但不同写法的单词,就使用了 将解释或释义部分写成索引地址(计算机编码与网页相关概念,不用去了解细节。)。 另外,也为支持跳转,如一单词的解释要用到另一单词的释义的一个部分,因此每个句子或段落之前都写有(索引)地址。+ ~3 {) D: T+ s
对有许多跳转链接的词典,若想要保留这些地址(锚),就要花时间做些排除与保留地址的处理工作。将这些被用到的地址保留与做成跳转,是处理导出来的文本最难的地方。1 A" f- z6 g( s: }0 Y4 P2 O
, G/ @# J0 I7 ~2 \; X7 ]
2 因为EPWING用到许多外字(这些字用通用日语编码(如JIS)难以显示),这些外字包括汉字,也包括西方文字。这些外字在查询时都用图片来显示出来。实际上,显示字图片前,它们是以类似如像素字体的文件来保存的。8 c; i# A% ~* [0 \5 ~" M5 g) |( H; a
将文字图片一个个找出来,只需将这些对应的外字代码做成一个小小的EPWING格式,再结合原字典提供的外字原文件,所有的字图可全部获取,不用一个个扣出来。3 }7 F7 M6 `% x7 }, q b! H% ^
因字图非常必须,除非你花时间换成对应的文字,否则显示不完整,最后不免会有遗憾。
3 P2 b/ y/ G2 a% ]$ w7 L7 I$ y( Q 其他图片(如JPG,GIF,非文字图版,解释时使用的图),论坛上有工具,个人觉得这些图片可有可无,也没特别在意。. z. n& O5 d9 o: j9 [
' c! w0 p( S3 c% Q3 L
3 参考 EBDUMP,若不能大概看明白这网站的日语,却要把精力花在做字典上有点不值(因我这样干过。),因此我找借口不详细说或翻译此部分了。2 ]* s8 J) P& m- z. o
EBDUMP就是将EPWING的格式转为日语编码(Shift JIS)的文本格式,因其中有许多全角,你自己必须将一些全角的英文与空格转化为半角,并将JIS转为UTF8,工具当然用EmEditor。
8 ~4 H( x7 U7 \& [, F9 d提示:使用EBDUMP时需要将电脑的系统区域设置改成日本语,否则EBDUMP是乱码,转化出来的东西也难用。区域设置重启后用EBDUMP转化时请不要钩选打开LOG文件,否则显示LOG文件会让你等很久,最好每个菜单都转化成单独的一个文件,这些LOG文件就是你要的原始TXT文件了。做完提取后,再切换系统区域设置为中国,用EmEditor慢慢编辑TXT,做替换或删除前要想清楚是否会导致你想要保留的部分却被一起改变了,因而在不确定处理的结果前还是备份下文件为好。
) K, I4 n8 _* E8 \- [9 h2 v, y- _$ b6 H! O$ ?
好像搞起来挺烦的吧,但若有精力,又肯动脑,肯定可做出心满意足的词典,今后能经常使用到它,前期的辛苦也不算什么了。
5 P' Q* [0 w& K z& C2 f |
|