掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 47758|回复: 9

[讨论] EPWING(日本人常用的字典格式)转化为TXT

[复制链接]
  • TA的每日心情
    开心
    2020-4-3 07:40
  • 签到天数: 491 天

    [LV.9]以坛为家II

    发表于 2016-9-5 00:23:41 | 显示全部楼层 |阅读模式
        实际上论坛上有这方面的帖子,水平也较高,因有人还在找,我就简单说几句。
    5 N( }* j# X' p% p7 N; ~1 E0 r, \7 t. L
        可能有人认为EPWING的有些辞典的质量较高,想自己转化下,但实际上经典的词典都有人已转化成国内常用的格式了,花点时间找找还是可以找到这些词典的。# p- B$ R- ^4 Z: f9 U' T' c
        若还是想自己从头开始(以前我也有此想法)又不知如何下手,就请参考下本帖吧。我水平有限,只能说个大概。
    4 _& r0 a3 d+ ~7 @: ~
    8 m, G" a8 [/ w# G6 j8 i4 E    1 EPWING格式 实际上是简单的HTML模式,最主要的特点是针对日语的单词的特点将不同的词头指向同一解释。日语由汉字,平假名,片假名,英文单独或混合而成的。举一例,如 【中国】这个词,它有一解释。但平假名 “ちゅうごく”也要对应这个解释,片假名也要对应这个解释。为处理大量同一解释但不同写法的单词,就使用了 将解释或释义部分写成索引地址(计算机编码与网页相关概念,不用去了解细节。)。 另外,也为支持跳转,如一单词的解释要用到另一单词的释义的一个部分,因此每个句子或段落之前都写有(索引)地址。
    5 |  w  [1 G! t. `- i. M  g    对有许多跳转链接的词典,若想要保留这些地址(锚),就要花时间做些排除与保留地址的处理工作。将这些被用到的地址保留与做成跳转,是处理导出来的文本最难的地方。7 L- E6 {; u3 W  R  Q# G( o
    ( t6 N" r# R1 }$ d8 h
        2 因为EPWING用到许多外字(这些字用通用日语编码(如JIS)难以显示),这些外字包括汉字,也包括西方文字。这些外字在查询时都用图片来显示出来。实际上,显示字图片前,它们是以类似如像素字体的文件来保存的。' U+ I3 I& k0 _$ N7 t
        将文字图片一个个找出来,只需将这些对应的外字代码做成一个小小的EPWING格式,再结合原字典提供的外字原文件,所有的字图可全部获取,不用一个个扣出来。
    & m! k. Q. n6 _9 n+ m    因字图非常必须,除非你花时间换成对应的文字,否则显示不完整,最后不免会有遗憾。
    3 H5 l7 g; O; {3 A$ }% v4 i. N7 f    其他图片(如JPG,GIF,非文字图版,解释时使用的图),论坛上有工具,个人觉得这些图片可有可无,也没特别在意。% P* V, Q( O( b( u! Z" _
    ) p# A: m! @0 n
        3 参考 EBDUMP,若不能大概看明白这网站的日语,却要把精力花在做字典上有点不值(因我这样干过。),因此我找借口不详细说或翻译此部分了。
    * _; U- C; \& K% {7 ?% m( ?, g+ l    EBDUMP就是将EPWING的格式转为日语编码(Shift JIS)的文本格式,因其中有许多全角,你自己必须将一些全角的英文与空格转化为半角,并将JIS转为UTF8,工具当然用EmEditor。
    # i3 A4 e, H$ Z提示:使用EBDUMP时需要将电脑的系统区域设置改成日本语,否则EBDUMP是乱码,转化出来的东西也难用。区域设置重启后用EBDUMP转化时请不要钩选打开LOG文件,否则显示LOG文件会让你等很久,最好每个菜单都转化成单独的一个文件,这些LOG文件就是你要的原始TXT文件了。做完提取后,再切换系统区域设置为中国,用EmEditor慢慢编辑TXT,做替换或删除前要想清楚是否会导致你想要保留的部分却被一起改变了,因而在不确定处理的结果前还是备份下文件为好。
    6 n7 l& i( _1 V7 O5 S
    ; t/ }; s0 H+ K* d好像搞起来挺烦的吧,但若有精力,又肯动脑,肯定可做出心满意足的词典,今后能经常使用到它,前期的辛苦也不算什么了。) ~, ]  |9 h1 F2 b
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-5 00:36:05 | 显示全部楼层
    感谢楼主耐心地讲解!为了更好转换epwing格式词典,得好好学学日语了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-6 21:24:45 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-6 22:10 编辑
    3 {1 M& h5 C; K) }
    ; |* g4 p0 a  N3 o- }wordnet3.1epwing格式词典在EBDic1.32a的字典下载可以获取(下载地址https://www.pdawiki.com/forum/fo ... ypeid%26typeid%3D70),我现在想把epwing格式的wordnet3.1转成txt文本,但是我现在正在学习中,还没有学会(要是转出来了马上分享给大家)。楼主能不能帮大家转一下?" t' q' H. O0 L; `1 p8 Y
    谢谢!6 f- y( f* [: ]* K% d. J4 p9 @' ^7 N
    (已经确认ebdic里面的wordnet3.1为真正的wordnet3.1,比如blue jeans和figure 8[baidu常委提供的wordnet3.1的新增词汇]均可以查得)
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-6 22:08:19 | 显示全部楼层
    epwing格式的wordnet3.1
    ; l5 @% e5 n5 i链接: https://pan.baidu.com/s/1c2fvxfi 密码: ehsg
  • TA的每日心情
    开心
    2020-4-3 07:40
  • 签到天数: 491 天

    [LV.9]以坛为家II

     楼主| 发表于 2016-9-7 08:59:35 | 显示全部楼层
    kyletruman 发表于 2016-9-6 22:08( D* V9 b$ f* k, D0 }  a
    epwing格式的wordnet3.1& X8 T, {0 G7 g4 Q1 v" q
    链接: https://pan.baidu.com/s/1c2fvxfi 密码: ehsg
    ) t! D, a4 I) `, z4 ?0 }# k1 [/ c4 R
    我自己找到了3.1版的,应与你这个一样吧。) k0 N5 E' Q- |- B
    查看了下,每个词有很多的链接,而且导出的原始TXT文件有500多M,这个太大了,要花很长时间,我暂时没决定转化,抱歉了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-7 11:40:52 | 显示全部楼层
    naisren 发表于 2016-9-7 08:59- e4 v3 {) L/ a3 e/ ?, b. \
    我自己找到了3.1版的,应与你这个一样吧。6 f9 \5 n6 I) u. N) N# P* G/ R
    查看了下,每个词有很多的链接,而且导出的原始TXT文件有500 ...

    - o! |8 F, O- d2 B) j; i: v$ ?) ~% M' h' T; @
    楼主能否把导出的wordnet3.1txt文本分享出来,让大家看一下呢?3 a  n7 W! p8 m  B/ W4 y
    谢谢!
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-7 12:02:48 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-7 12:08 编辑
    - v0 i1 @4 |/ m* n& E! S+ T
    naisren 发表于 2016-9-7 08:59* H9 d- A1 a' t- `: z
    我自己找到了3.1版的,应与你这个一样吧。
    5 s* [5 j8 B" g) f- p6 Q# q查看了下,每个词有很多的链接,而且导出的原始TXT文件有500 ...

    1 V+ p/ h9 W  C+ q: t/ N
    / V. M6 |  s) r$ H# t楼主,您找的是不是liuyunrushui常委那个有brown corpus那个?(那个附带有很多附brown corpus的超链接,相应的文本当然大)。
    # y2 G1 f, ~2 d" _& H我找的是EBDic常委的ebdic词典里的epwing格式的wordnet3.1(只有wordnet3.1),跳转链接要少很多。您能否把我给的这个链接下的wordnet3.1转成TXT文本,分享出来,大家再看一下呢?
    - ^+ L  x0 ?! M谢谢!
    ) K+ y7 s) t, \# I(楼主可以把我找的那个epwing格式的wordnet3.1转成TXT文本,不一定要制作mdx,让有能力、时间和精力的坛友继续接力吧,可算是功德一件,谢谢!)
  • TA的每日心情
    开心
    2020-4-3 07:40
  • 签到天数: 491 天

    [LV.9]以坛为家II

     楼主| 发表于 2016-9-7 16:33:54 | 显示全部楼层
    kyletruman 发表于 2016-9-7 12:020 D- J# q4 y4 _& X
    楼主,您找的是不是liuyunrushui常委那个有brown corpus那个?(那个附带有很多附brown corpus的超链接 ...
    ' N5 K1 \* |- P4 N$ K
    下载时从压缩文件源来看,我下载的是wordnet-en-140419,你这里提供的下载wordnet3.1-en-131028,前者文件大许多。/ A( U- x% h. f
    这两个版本都有问题。请见图片。
    9 I8 e, U# Z: P$ O+ `' e8 T0 {6 J6 g) I$ R
    我已处理了一部分,若要制作成MDX,只是要花些时间将前面地址与跳转地址转化为词头相关就行了。
    ( {: k: Y* ^& ^' v) v链接:盘子 密码:hk6j
    " l$ N% V8 _+ `2 [8 h- ?) r9 W! w' ^
    若方便,请说明下WORDNET的好处与参考价值,我没怎么细看。
    % ^- g; \/ U2 c4 O1 l
    * o+ i* Z% }( W6 o  V

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-9-7 16:36:18 来自手机 | 显示全部楼层
    英和词典相当不错
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-7 17:10:44 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-7 17:12 编辑
    ; a; w' t8 l+ R% Q8 a
    naisren 发表于 2016-9-7 16:335 J  d! `3 d3 M8 W
    下载时从压缩文件源来看,我下载的是wordnet-en-140419,你这里提供的下载wordnet3.1-en-131028,前者文 ...
    1 Q. m, ~3 v/ v
    / g  o! z& I" d! `# I) C5 c
    说起wordnet3.1,baidu常委才是专家,我只是略知一二。这是他的帖子:https://www.pdawiki.com/forum/fo ... &extra=page%3D1+ f& x+ z; d1 c0 _. w1 m5 z7 C
    根据他的介绍,wordnet3.1主要是新增了很多词汇,比如blue jeans, figure 8,还有很多,我不一一举例了。有些是wordnet3.1独家收录(范围是在所有权威英英词典)。2 K. a  g5 Z. }( l/ i! W" y! G
    另外,wordnet有一些英英解释很详细,比如准确解释单词nowadays: the period of time that is happening now; any continuous stretch of time including the moment of speech,只有wordnet才解释得这么生动形象,让人看了nowadays就让人知道怎么用这个词。
    ; t3 M8 |1 ~  Q  w; e. S$ z% i# ~  v& _5 u. n5 B$ q# _  p
    还有,wordnet3.1和wordnet3.0还有一大用处是有近义词、反义词,对于写英语作文非常有用(英语喜欢单词的同义替换,就是翻译汉语某个词,要是在同一语篇,都要换几个近义词);wordnet3.1和wordnet3.0独家收录英语单词的上义词和下义词。( J4 Y2 N. t* Q
    差不多就是这些了。感谢楼主转换了TXT文本!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-30 20:24 , Processed in 0.042023 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表