掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4485|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
0 h5 k+ v5 u! v1 K' E0 S" R" }6 L5 i7 {1 p9 W/ v; I& U
对于epwing的字条,EBDic会根据字典作分析。5 U% z+ j/ R' E* s/ T
: W# F$ ^2 U5 ^* |

. d& N0 z; T$ F% W" Z) b9 z) O例如:
% e" _. k" k. X, k- v5 I% _小学館「中日/日中辞典」統合版 :5 k+ ]$ r$ z; J. \) ~5 m- |
はな【花・華】
; B7 K9 I- S+ m" n' @0 d% k( U
6 [1 U6 X) W5 [1 Q, }% f広辞苑第六版:% z8 s$ o# P- p0 T8 p% X- w
はな【花・華】! D2 k& E& c1 v- O& }, l% p4 x

: i/ [+ k& \1 V/ ~* _1 i; Z4 y三省堂 スーパー大辞林 :
2 R4 ~* Y3 [9 a' @6 I2 C- A4 {9 bはな【花・華】! N! q: X/ p6 u& w% G

6 {: ?  h% [" l- h4 L$ B' I新明解国語辞典 第五版:  c* ]: ~8 _. B
はな【花】[2]
/ V; f# H" A+ {, t) {0 D: O( {$ o! C% X
学研国語大辞典 :
9 n$ i% a+ {% k% x( E" Aはな【花・華】
2 A/ P& Q$ D. n+ A
' o* e, Q- c1 O! u8 H& i講談社日中:
/ W+ W7 z6 H6 I( T, A: ^3 b; H【花・華】 はな

% ~& G  M8 L# z( }7 I- }# D7 y' A. ~; C: Z  b( n4 p; _
9 ?4 M5 v  q3 r  K" Y4 g2 F
会分析成:
; p+ R+ ?! H4 r7 E* n汉字:花4 ~" N9 _8 c0 w2 r! p
仮名:はな
: y% X3 P& [( M) M1 w
-----------------------------------------
* p( [) S. p% F: V" R4 }' G小学館「中日/日中辞典」統合版 :9 a  |3 }4 w: @3 L; \$ n; |$ @
はな【端】
$ U; k9 O$ F1 p. u
8 |4 d- @) [% p広辞苑第六版:/ p5 Z' i; I9 }# w) G
はな【端】4 U/ n" y. B  J; @# O8 i% ~
9 e$ x/ {, k+ _7 W! L/ h( R
新明解国語辞典 第五版:+ _) W% Y8 K# N' ^
はな【端】[1]9 S0 i/ u, O" ~# Y. h, J

6 J- w# g, L: T5 v" Z; S% H4 w学研国語大辞典 :9 r- A% I4 ^) I/ S$ B
はな【〓端】5 D, r0 P+ ]; o* e
% n: j, P) I2 \. z$ O; N; k
講談社日中:! g  X# f( @9 C+ f! d3 A4 j
【端】 はな
: S6 U" Z1 s6 P. C) Q
1 V) U. R2 z7 R
会分析成:
2 d- b$ h  m* G" q汉字:端
' t" Y2 g- Q4 k& ?仮名:はな
+ k  v! l6 {, ^3 s& K

# c; H2 u* c0 ~, L% V2 q-----------------------------------------; g7 N4 i2 G4 d
然后,发音的顺序是:
2 g$ m) c) P% ~2 D1. 如果有Sound_ja.mdd
# V( ?/ @  u, b: K7 A& d. Y& m3 V先用汉字寻找,假如找不到,则以仮名寻找。5 I* T6 d) V( _4 |! k( d( r
- [' I! b+ k* x; r9 P- s6 F
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"$ Q1 b/ B. d- O
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。, z7 K2 W! @: a# ^. O
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
- V! z8 }! r' o! D9 V     然后比对两个寻找的结果,如果有同一字条,则使用此字条。+ t/ z" W3 K+ r9 N& L! t, d
     如果只有汉字有字条,则使用汉字结果的第一个字条。
9 }/ ~( v3 V- v. Y. R! h     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
+ P/ x! c- v# t5 s  r6 `# ~* ^9 o" b7 G
     如果找到了字条,则以字条本文的第一个声音档做发音。( N* t* o5 _9 ]' q3 I

3 F+ `/ L. R- I- U8 z, ^
2 t: i* z' o3 n" ?+ F: L8 q3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)7 r$ |7 P. x" G

7 q7 g5 s2 j, ]" I' Z-----------------------------------------
0 Y+ {8 i: g5 p$ q" O
' p, f" f5 v" T, t' l, N感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
* G3 f5 O3 i' h: G4 R; ]7 \但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
# [8 N7 v/ M$ H0 _& r: O如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
# G6 |% a  C% `- @
) ~5 m; v. i$ ]! H! k; z  B/ l! ]4 N; r- g
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。5 C3 ?$ Q4 ]  s0 E6 t' W
所以当发出不是认为的发音,可以去"NHK"字典做确认。
0 T1 Y" a2 a6 @( x: s0 r, U# i; M# V- D" s
例如:
- U- P  G* Q' f- W" C紅葉 こうよう$ u& S- f) A* [  r" c/ c. D* k# D3 C# L) K
紅葉 もみじ

& D* }- U; S6 O# h( A-----------------------------------------
& X2 ~/ R+ a4 c4 i* l9 _* t0 ~* T- ~8 W
因为EBDic会根据字典作分析,所以是写在code里,
* l. u4 y. v( I2 ?8 g9 i目前已分析的字典有:
- g6 \) R; p( w1 z6 ]' p$ d" m' ~5 S) ]- F0 b+ i, U' l
小学館「中日/日中辞典」統合版 ! [' j+ m+ V& Y" U6 X0 e+ m0 H
広辞苑第六版
' n. J6 y2 y8 R( i  V/ O# S三省堂 スーパー大辞林
: E6 u% z% |) p/ k% Y3 ~4 g新明解国語辞典 第五版
& B/ O1 g6 [/ D学研国語大辞典
/ u: Y, f" l1 I# K# Q学研漢和大辞典
; Q' o, f+ M, t$ T講談社日中. @2 ?3 C- g8 _' {! x, i6 f0 L7 Y; ]
大辞泉0 y, g8 \' c) y; Q5 r  b
国語大辞典$ [9 U2 _6 L( r- ^* J
明鏡国語辞典

% S# j$ B0 b% f7 ]4 i" \
# |6 S; e- G! f' @1 s. d0 \其实,目前的分析只做了一部份。
. c; G$ @% g! H! g有些汉字的表示法,可以有不同方式:" r  u! t$ M$ j7 z8 R* {: m% F
例如:
* |+ h7 u( M: \4 k$ H# \掛かる,掛(か)る
0 g1 |+ z: G6 p/ }- D如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。9 _2 H1 i" j8 z8 I

  o3 {0 o/ Y. `' h2 qEBDic目前也只以第一个汉字为主:; E1 z: U; z0 G( x: J' {2 F) K! o
例如:- k8 n- X! \3 p2 X% e2 Q- W% i: G
はな【花・華】
" e0 e7 M# Q/ v. k) I) T! j" M% D% f+ }
会以"花"为作为汉字。
+ ]4 o2 ^0 B5 {; G" @- k" o9 C  f' @; K
. i# Y. n. _" O, }- P; ]
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。& C* P, j& S/ _; L6 h5 X
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。9 |* ~, Q3 A/ q# p2 B
----------------------------------------
: K$ b: v; E' r, b7 o
% U& Y9 ]# e$ z) i( F- R1 R/ x5 F如果有发现字典的字条,没有正确的发音,9 L, }, k- k' R, a: S0 W) ^
如不是因为汉字的表示法不同,/ Z, s9 @5 Q+ \! `/ t
可以告诉我,字典的ID及字条的格式。( ?5 u& ]" o' f) J$ e. _$ a1 C
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    2 K$ `  S8 y* n  P* q. t$ }感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    5 h+ [" ?" N. Q) k
    有个别词条无法发音,是很特殊的例子。' \8 U2 x* H7 }4 v" C
    大部份好像都是整个NHK声音数据都无法发音,
    7 A3 f: p* \! V0 ]; }6 z7 G% N好像主要是跟手机硬体有关,
    # e, v" a9 a* I+ B我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。8 R, r4 {+ a2 e* u" b) \
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    ) _  C6 G4 Q2 P有个别词条无法发音,是很特殊的例子。' F& S+ L5 b, H6 o2 D
    大部份好像都是整个NHK声音数据都无法发音,# G) b$ v0 g5 [5 |
    好像主要是跟手机 ...
    6 M" V. E4 z- ]- L' ^& {$ s
    多谢E大回复!
    5 v; a3 H7 D. L. I
    ' X" O. M3 _0 c8 G  ~想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 19:28 , Processed in 0.027376 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表