ebdic 发表于 2016-8-3 14:18:56

EBDic处理epwing字条的发音方式

本帖最后由 ebdic 于 2016-8-3 17:32 编辑

对于epwing的字条,EBDic会根据字典作分析。


例如:
小学館「中日/日中辞典」統合版 :
はな【花・華】

広辞苑第六版:
はな【花・華】

三省堂 スーパー大辞林 :
はな【花・華】

新明解国語辞典 第五版:
はな【花】

学研国語大辞典 :
はな【花・華】

講談社日中:
【花・華】 はな


会分析成:
汉字:花
仮名:はな
-----------------------------------------
小学館「中日/日中辞典」統合版 :
はな【端】

広辞苑第六版:
はな【端】

新明解国語辞典 第五版:
はな【端】

学研国語大辞典 :
はな【〓端】

講談社日中:
【端】 はな

会分析成:
汉字:端
仮名:はな

-----------------------------------------
然后,发音的顺序是:
1. 如果有Sound_ja.mdd
先用汉字寻找,假如找不到,则以仮名寻找。

2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
     如果只有汉字有字条,则使用汉字结果的第一个字条。
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。

     如果找到了字条,则以字条本文的第一个声音档做发音。


3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)

-----------------------------------------

感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。


但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
所以当发出不是认为的发音,可以去"NHK"字典做确认。

例如:
紅葉 こうよう
紅葉 もみじ
-----------------------------------------

因为EBDic会根据字典作分析,所以是写在code里,
目前已分析的字典有:

小学館「中日/日中辞典」統合版
広辞苑第六版
三省堂 スーパー大辞林
新明解国語辞典 第五版
学研国語大辞典
学研漢和大辞典
講談社日中
大辞泉
国語大辞典
明鏡国語辞典

其实,目前的分析只做了一部份。
有些汉字的表示法,可以有不同方式:
例如:
掛かる,掛(か)る
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。

EBDic目前也只以第一个汉字为主:
例如:
はな【花・華】

会以"花"为作为汉字。


另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
----------------------------------------

如果有发现字典的字条,没有正确的发音,
如不是因为汉字的表示法不同,
可以告诉我,字典的ID及字条的格式。
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)

liuyunrushui 发表于 2016-8-3 16:17:05

感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

ebdic 发表于 2016-8-3 17:20:11

liuyunrushui 发表于 2016-8-3 16:17
感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

有个别词条无法发音,是很特殊的例子。
大部份好像都是整个NHK声音数据都无法发音,
好像主要是跟手机硬体有关,
我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
现在使用的手机就没有这个问题。

liuyunrushui 发表于 2016-8-5 11:57:43

ebdic 发表于 2016-8-3 17:20
有个别词条无法发音,是很特殊的例子。
大部份好像都是整个NHK声音数据都无法发音,
好像主要是跟手机 ...

多谢E大回复!

想来应该如E大所言,跟手机系统以及原发音文件有关。
页: [1]
查看完整版本: EBDic处理epwing字条的发音方式