掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2726|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 ( D: C. r, _" e. i& H
1 v% L& E; H7 y; M, q! O
对于epwing的字条,EBDic会根据字典作分析。
$ J( V3 m; @  I% t* _- ?8 g0 a
3 ^& }+ z4 X2 h5 O6 k" G
/ E* }; \8 j$ S+ g/ n例如:  M9 r# h3 f6 q- i% L- a+ b  I
小学館「中日/日中辞典」統合版 :
& s' p/ Q0 g- p3 {はな【花・華】5 @3 I" K5 ^2 i7 z( F7 y7 v

/ l  Z6 y& a2 V' z広辞苑第六版:
. r* W' g( m) vはな【花・華】
4 r# y' A" H$ u) z9 D1 W' d1 y
; M: u" b8 {5 B3 H  k8 u三省堂 スーパー大辞林 :3 A" s% ?) U$ r7 u; |2 F
はな【花・華】7 o1 Z5 L0 J* a: x

. [% E0 K' K6 H. v! ?: O% O新明解国語辞典 第五版:/ W* {2 h# u2 V- t: Z
はな【花】[2]+ N( z0 ?. |' `% ^

9 ^9 d4 I+ c* \( C6 x0 o' F* ~学研国語大辞典 :; g/ u* ~( G1 Y# x/ O' g  Y
はな【花・華】
4 U  ?2 [. Q/ Z4 V( x- b% Y$ W* S3 F' J$ ^- X
講談社日中:
9 h" ^6 u& q  k$ k; `7 l) y【花・華】 はな
- c2 g1 w% o) C' z0 i8 D5 [" e# o

! W8 Z7 c$ T( b3 d, R) t; P9 a' h( L; o$ o9 x
会分析成:
! S6 u+ Q& {$ R8 a4 G. R汉字:花# f6 ^) D1 F8 O) S( k
仮名:はな

& _/ p4 T' U# P0 a" j& m------------------------------------------ R& p  z" N3 S7 ^
小学館「中日/日中辞典」統合版 :
9 {$ a0 N4 c" x7 |+ K6 b/ ?はな【端】
& ^4 [  G& E: U, r6 u9 W- c( S) f1 R+ v* M: p
広辞苑第六版:
- Z& c. s$ @3 k- [' Yはな【端】
3 l7 L3 H1 b% P1 s! |* B+ S: B# f* G' k/ M' q) L8 b
新明解国語辞典 第五版:6 a' `6 R, ^3 w; J, I
はな【端】[1]1 N6 }: }3 |' g& v

1 n  A- v" j: G$ K5 y$ v5 J3 U学研国語大辞典 :
1 ~  v" _7 }# F; j( o! d- x0 zはな【〓端】- C; G8 A& S  y  N# k7 A
. m- V  q& }  c& t. A" F
講談社日中:
" r0 S  Z1 }9 A8 m& l  l- e# T【端】 はな

  R  }1 G4 S8 c6 O
/ N6 a  H2 m( y- j6 U0 z会分析成:
- q! j+ S7 j6 e+ R' b  \! w汉字:端
+ h+ u) f6 q+ i" B8 C4 [! o/ u& C$ K仮名:はな

  g, e- I6 o; v! U7 ?! n
# L0 j& m7 w2 d0 v8 S5 A+ o+ w- t-----------------------------------------
+ C0 i# w9 w1 z) b: |然后,发音的顺序是:
: b; c5 _: G2 Y1 L  a1. 如果有Sound_ja.mdd; Y* b* V* S& O3 I$ |
先用汉字寻找,假如找不到,则以仮名寻找。, w+ ]2 H# F0 V! P7 \

3 M7 d+ F) r4 f, y2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
3 |  ]% \# _2 \+ t/ ~  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
  R: }6 E- m  |; @" R  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,# s3 ]# |1 o1 V0 T# x2 g* E
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
' U  P, _2 N  P% S9 i     如果只有汉字有字条,则使用汉字结果的第一个字条。
7 V  J+ s) Y* ?; D- F& H3 `1 p     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
* u$ s. e  M# K3 p/ S1 X$ I. p+ r  U* R
     如果找到了字条,则以字条本文的第一个声音档做发音。
( s) J$ t2 J7 i8 \3 Y" w
* z3 c& M( A# Y( E4 b, Z5 Z8 e, O. k# b& I, ?3 l6 o2 s6 m
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)# A+ s7 k$ x9 k2 v

9 _( I1 l/ z- F& n- a4 Q-----------------------------------------% @5 p# l$ c* ]3 y# v8 C. w
5 m7 H/ h- Q1 |2 |
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。7 [/ D- w' n. b; c0 _0 Z' m% f5 a% s5 T
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)6 ]+ r/ }" ]1 w1 V; o% F
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
* x* _$ h1 Y! u( a7 H' H
  O9 v; O/ _) C" {* F  G! U  H( W, Q  ~) L0 U
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。! h5 L- J3 U) Q* }
所以当发出不是认为的发音,可以去"NHK"字典做确认。
8 p2 p/ v1 z; k$ n. E' N6 B& t0 ~9 ]  v2 L
例如:
9 Z  ~! V' }* y6 {" X8 S, N! u紅葉 こうよう* s' Z2 H: A; t% X7 x
紅葉 もみじ

; h) N6 ^+ l: Q-----------------------------------------  t) [, u/ f8 w4 C6 G
, e6 V$ [. ?% b- q
因为EBDic会根据字典作分析,所以是写在code里,+ }' X. R& {" P- x6 K' n
目前已分析的字典有:
. p( U, z% z( ~4 E; P% z& p' b& m" l- C
小学館「中日/日中辞典」統合版
2 i" c9 ]7 b  a7 G( C6 ?4 {" t広辞苑第六版
5 `, ^( X& k4 _5 b9 P) @+ ^三省堂 スーパー大辞林
; p2 H! W) ]0 F7 \- H$ u6 V. o. ^新明解国語辞典 第五版
/ y# a  c+ }6 F5 L学研国語大辞典
7 s4 |% c0 ~, y" f( G/ N5 L学研漢和大辞典; p/ ~( a& \& R8 i4 N2 P) X. z  w
講談社日中! I0 k) g/ f. h1 D
大辞泉
* n% F4 ~( M3 W. |: V国語大辞典" R: o+ |) w. A% S
明鏡国語辞典

, L0 R) [  ?2 |" e& d' d: C0 G
) u8 t2 V8 F& g! ]其实,目前的分析只做了一部份。% F# m; |& ?. O$ O8 w
有些汉字的表示法,可以有不同方式:2 C% I! r) k+ i; v) h- n
例如:. s9 }$ x. Q1 P+ d* y8 }
掛かる,掛(か)る
+ W" F% |5 @3 w如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
+ l9 y; g) o9 B& [2 I
& ~8 ]+ D2 I* A; n4 E. W" dEBDic目前也只以第一个汉字为主:
7 k% {& }3 G7 l! k$ x. o% i例如:1 @$ B6 U! v- C- |$ Y( r' a
はな【花・華】; u5 c- n6 d, H+ G0 Q+ T8 }
1 ]9 J6 n) f: [" \9 \
会以"花"为作为汉字。
' K) \" @& O& r) u! o% @1 D7 q  I8 f4 m+ o; X* w. x6 ^. t' x( L
! z" v1 v% [9 b6 E; x8 F5 N
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
" n6 ?# g; ^  U4 X1 S3 k- UEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。) y( U* l8 g9 F# p7 c5 @
----------------------------------------
( g* v( P8 q+ Q# G
. {2 g" [+ ]) h( [3 {如果有发现字典的字条,没有正确的发音,
0 b2 x- }0 B" Q# b如不是因为汉字的表示法不同,
/ J$ ]2 k; o. E! \- x/ R可以告诉我,字典的ID及字条的格式。
, J6 z& Z1 P" c. S! N) x(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17: V) n# r1 E! `+ D; r* O7 w8 |
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    ' e" ?$ s+ s# m( `( |2 d& O1 K+ Q有个别词条无法发音,是很特殊的例子。5 f  C6 t0 ?" u6 E: D" I
    大部份好像都是整个NHK声音数据都无法发音,; G& x9 j9 S7 Q) Y
    好像主要是跟手机硬体有关,7 E/ {3 f! k9 m5 N/ Z& p, n$ Y2 K
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。% Y2 m$ ^5 e9 n& K1 ?
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    , R6 J" e/ p1 ~$ ~有个别词条无法发音,是很特殊的例子。+ J, h. d" Y/ l/ S8 k8 j- U
    大部份好像都是整个NHK声音数据都无法发音,1 X+ v- n5 N  x2 ~" ]. F
    好像主要是跟手机 ...

    ; }- t  a1 p! |+ L& _  d多谢E大回复!( m6 J+ c$ i4 e( \: S

    " Z9 z* W: C1 f- F+ m( ~5 d想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-6 08:40 , Processed in 0.367373 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表