EBDic处理epwing字条的发音方式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑对于epwing的字条,EBDic会根据字典作分析。
例如:
小学館「中日/日中辞典」統合版 :
はな【花・華】
広辞苑第六版:
はな【花・華】
三省堂 スーパー大辞林 :
はな【花・華】
新明解国語辞典 第五版:
はな【花】
学研国語大辞典 :
はな【花・華】
講談社日中:
【花・華】 はな
会分析成:
汉字:花
仮名:はな
-----------------------------------------
小学館「中日/日中辞典」統合版 :
はな【端】
広辞苑第六版:
はな【端】
新明解国語辞典 第五版:
はな【端】
学研国語大辞典 :
はな【〓端】
講談社日中:
【端】 はな
会分析成:
汉字:端
仮名:はな
-----------------------------------------
然后,发音的顺序是:
1. 如果有Sound_ja.mdd
先用汉字寻找,假如找不到,则以仮名寻找。
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
然后比对两个寻找的结果,如果有同一字条,则使用此字条。
如果只有汉字有字条,则使用汉字结果的第一个字条。
如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
如果找到了字条,则以字条本文的第一个声音档做发音。
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
-----------------------------------------
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
所以当发出不是认为的发音,可以去"NHK"字典做确认。
例如:
紅葉 こうよう
紅葉 もみじ
-----------------------------------------
因为EBDic会根据字典作分析,所以是写在code里,
目前已分析的字典有:
小学館「中日/日中辞典」統合版
広辞苑第六版
三省堂 スーパー大辞林
新明解国語辞典 第五版
学研国語大辞典
学研漢和大辞典
講談社日中
大辞泉
国語大辞典
明鏡国語辞典
其实,目前的分析只做了一部份。
有些汉字的表示法,可以有不同方式:
例如:
掛かる,掛(か)る
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
EBDic目前也只以第一个汉字为主:
例如:
はな【花・華】
会以"花"为作为汉字。
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
----------------------------------------
如果有发现字典的字条,没有正确的发音,
如不是因为汉字的表示法不同,
可以告诉我,字典的ID及字条的格式。
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法) 感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。 liuyunrushui 发表于 2016-8-3 16:17
感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
有个别词条无法发音,是很特殊的例子。
大部份好像都是整个NHK声音数据都无法发音,
好像主要是跟手机硬体有关,
我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
现在使用的手机就没有这个问题。 ebdic 发表于 2016-8-3 17:20
有个别词条无法发音,是很特殊的例子。
大部份好像都是整个NHK声音数据都无法发音,
好像主要是跟手机 ...
多谢E大回复!
想来应该如E大所言,跟手机系统以及原发音文件有关。
页:
[1]