掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4575|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
) z" l3 M1 ]1 f# e
- d9 v' c$ q( W+ `" d对于epwing的字条,EBDic会根据字典作分析。" V3 _# ]% \: y# F- s9 k8 l! _* r
) R7 W; \" ]2 i7 r. p5 u- _: _8 C6 C
& O+ e& u4 D9 h' Q% A
例如:3 n0 k+ R) T1 q+ r: u. Q! x
小学館「中日/日中辞典」統合版 :
) D" ^$ T$ L+ r# `; O3 {, K( vはな【花・華】% I* G0 X& K1 O; k5 q

) E- Y5 s7 c/ C4 }# `! n2 `広辞苑第六版:) n7 A# K+ }7 D( n) }  J3 ~
はな【花・華】
' Z4 i7 L. _$ y; r2 X, @' E" B; r' D: c3 P) ]1 t# ]4 ^
三省堂 スーパー大辞林 :7 n- q3 p( j! U
はな【花・華】7 n9 W7 }, Z2 q2 ^% i
2 l1 q  G/ O4 i' q& b' a
新明解国語辞典 第五版:6 d- v. w* `: l
はな【花】[2]2 q8 X0 [' |  _& w8 ], l. D- e
, K' x3 x; _& Z
学研国語大辞典 :
) B& x- [' Y+ |- b2 T  uはな【花・華】) ?$ H* o7 Q9 W/ t

! C; p) X$ M2 E- o6 t講談社日中:
$ Q; L2 I; F8 u【花・華】 はな

# _4 o/ v! F4 z) [  ^$ B8 V7 o, y5 o* B) k0 `7 V1 A' J( c

: [; A% U+ s+ \  A: k# l+ @( W+ ?' v会分析成:
. y3 m/ K7 w2 G% e  D汉字:花5 ]' p$ t; Z/ I; g) T1 k( S+ d. i
仮名:はな
1 [4 ?) t- o( y/ _) o* E- e
-----------------------------------------& U! L7 H3 X" [4 w$ B% U
小学館「中日/日中辞典」統合版 :) M% a3 H$ L+ B' o7 k. D: N) V' o6 b
はな【端】9 S5 x9 D5 T8 u& s+ P! g% b# B0 z

- Y7 I: }3 Q& K6 _広辞苑第六版:& c7 x, E. m' N/ J
はな【端】
" ~: O0 F8 f9 ^5 [
7 ^. g* F# \+ E& ~6 h4 \新明解国語辞典 第五版:
2 K1 L6 J* M8 N' Jはな【端】[1]
" `: e7 B8 o7 m) {& P# e6 T$ V, D" {% y7 I4 R7 @1 u9 B
学研国語大辞典 :
+ D+ D' X, |  h# Zはな【〓端】
2 p3 G6 q0 s! o. d
4 ^+ A( ^6 u$ X+ V" A講談社日中:
. ?' T9 L$ c4 ~/ X【端】 はな
* t7 C" e( ]8 P8 u6 _6 ?

* X% n0 w3 T* N; _- P会分析成:
& j- I/ V: B! d; \( @' B汉字:端
, {1 K! C: V' j; y5 j( Y' J仮名:はな
/ q" f8 W$ ~5 B2 n+ @

5 A: U* F: k3 z# J( ^* f( Z; j-----------------------------------------1 M* m* e: I' n" ?
然后,发音的顺序是:! ^* `  \% o( Y1 N
1. 如果有Sound_ja.mdd; G) L- f' K1 N: H8 A2 ^, T
先用汉字寻找,假如找不到,则以仮名寻找。% V2 q( ^. \4 t  E
+ M( d+ P; D6 @4 L* |- W
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
3 m) t( B) G% ?- k5 Q* L1 G4 k  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。% J) @# W9 T# e% b
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
& p5 ^; H- n. {# p     然后比对两个寻找的结果,如果有同一字条,则使用此字条。* c: i0 m6 h0 a2 `; n
     如果只有汉字有字条,则使用汉字结果的第一个字条。
' {6 H* u) ^4 m% F     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。; s; l, {0 O1 d! M3 R
) ]( q/ R! a6 v& u
     如果找到了字条,则以字条本文的第一个声音档做发音。8 ~" q5 N5 V$ A" V/ q9 n' W
  l# G( ^+ u1 g; r; p' ]

; p' K* c2 W) s0 J3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
0 O' Y0 }7 c9 L) t+ B: g6 g3 t5 i0 _+ `) i: J. x) b/ |
-----------------------------------------
' ]& Y8 t& h. q6 W7 A0 |% i( q4 [( |& V* i4 a* [# }# ]
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。  _  f6 @$ U9 C2 f1 Q( j, v, _' r
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)0 {9 ?/ `+ q) m  w
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。1 L8 o  p! M7 F$ Q/ c1 C5 j( y; j
! x  J2 M9 l# t3 s) W' P

8 S+ |) s, d/ t5 f但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
! [- ]( Q# b6 V  Z2 r4 P9 {所以当发出不是认为的发音,可以去"NHK"字典做确认。  v8 l" j7 o9 t
# w( M9 F% D; h6 I& Y
例如:
2 Y( g' z- B# D& f- ?; ]( a紅葉 こうよう
$ G$ ]2 D. n. S4 N0 j紅葉 もみじ

4 v' ?7 k) u/ `2 |3 ^-----------------------------------------) _8 c: X/ B; z. W1 M

7 m$ h/ ~9 k# ~; I& n  j8 v因为EBDic会根据字典作分析,所以是写在code里,8 u' V8 x$ X# ~* i
目前已分析的字典有:# y; s* o4 X$ A  M6 r2 w

* O/ {) {; k  [: Q' x0 D小学館「中日/日中辞典」統合版 9 X- K+ ^/ B3 s3 i$ P+ d
広辞苑第六版
9 A: a$ @9 y( y三省堂 スーパー大辞林+ Q* C2 |5 N* S
新明解国語辞典 第五版1 P4 F: ?# W, _6 ^$ A* e
学研国語大辞典3 c( {# Z* i' C$ O
学研漢和大辞典
+ w1 l  ]) F' H3 D' \% M講談社日中
, O0 C6 t; g& k3 P) m大辞泉+ L% H  j4 i8 I! A7 |) m0 G. M
国語大辞典
: G3 J/ R' F% I8 {3 u明鏡国語辞典

8 q1 L: Z8 Y  W' c! n
( @3 B5 }( h/ v3 S! Q+ G其实,目前的分析只做了一部份。
+ d/ r  O3 E" ?1 h) A4 x+ c! {有些汉字的表示法,可以有不同方式:  d. J& ]% _9 y, o! F
例如:
. l1 {1 H) m$ t6 E2 i0 T: L掛かる,掛(か)る
3 U; y7 I" X* w9 U+ O! u如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
$ S. A# [2 A; y, F' O
  I* [) O% U# g6 TEBDic目前也只以第一个汉字为主:8 [, P% W4 H' n% M8 ?4 E8 ~
例如:% ?0 S0 v5 M) [1 c6 U% n8 O
はな【花・華】! R; b8 t: M+ H5 \4 I

) ~( r; k7 u- w1 T/ C8 {7 l( ~会以"花"为作为汉字。
5 K4 B6 a  S, g9 G/ p
+ h2 W3 ?2 Z( H: H5 z& ^* _0 @, `" B; X
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。: H4 X9 s5 o4 T, K3 j
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。$ Y! ]  t+ w, K5 l+ {+ b
----------------------------------------
. W) ]( d# ?. N% m$ X
8 f$ ?! k! [1 _: |$ l7 [0 E& _如果有发现字典的字条,没有正确的发音,4 Q, n  L$ Z/ }$ ]( C
如不是因为汉字的表示法不同,
+ a2 k+ R' s* f7 ^: d% K, U3 L; u可以告诉我,字典的ID及字条的格式。9 u% S# u3 x/ M4 |
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17- @! Q0 J& R' j
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    5 D4 S* {+ N' q4 U
    有个别词条无法发音,是很特殊的例子。
    " Z' O3 K8 M/ @4 q' r! ]大部份好像都是整个NHK声音数据都无法发音,
    7 \6 ?, L. ~: N. ~# N0 M0 l8 u6 F好像主要是跟手机硬体有关,4 o0 O+ C+ J& m! Z( F% [# R
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。$ |! u! t8 t+ X, I# v6 f) {5 s. Y
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20& f( \- N4 K6 r- A" \
    有个别词条无法发音,是很特殊的例子。
    9 W' K; \) y) a* }, D6 B大部份好像都是整个NHK声音数据都无法发音,
    ! F1 i& d( [  p7 j6 s9 ]" b好像主要是跟手机 ...

    $ O2 O5 e: g& K( V9 M/ M% a3 v多谢E大回复!
    % L: T+ B3 E& r- [, L% D! i- I5 [3 q; Y0 C+ c- k+ T! t
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 21:06 , Processed in 0.036493 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表