掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2725|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 4 Q2 |5 q0 x2 V* {
$ V8 W) M# ?4 h; A; T  l) w, d6 Q+ E1 ]
对于epwing的字条,EBDic会根据字典作分析。
# Y) X3 ~0 _  N2 U0 N& b# ]7 }9 ~5 d1 V; Y8 ?5 ?( z

2 P# P1 p+ o; E4 V+ N7 V0 h5 s* D, S例如:/ N2 Z) c5 D5 Y% k
小学館「中日/日中辞典」統合版 :$ l( ^5 a3 w% E/ Z
はな【花・華】
  x) e: U; k, U3 m0 h
$ O) j$ S+ [1 w4 b広辞苑第六版:
7 @0 }/ w/ h$ N% Iはな【花・華】  B9 S9 `% e7 r
. o6 s( N8 g) R  k7 @1 e
三省堂 スーパー大辞林 :
/ J+ K7 p, b: Y7 v; o( Zはな【花・華】6 {! U. r* f& l% {; Q
% Q/ J: @1 I' f9 u" i$ C
新明解国語辞典 第五版:: Z6 f& C2 Z+ r
はな【花】[2]
% v# Q2 q2 {" o( Q$ s% O- L+ d+ D/ L. _1 [( j' w$ ?* X
学研国語大辞典 :
' _' ^& T1 ?5 ^! Y( a. Wはな【花・華】5 g  i& e/ W8 [' Z9 J0 W( d

1 f! j5 O% {/ d  p8 U. J* I" A* x, W4 R講談社日中:. P: r# B9 j; o7 J. j3 H
【花・華】 はな
/ J' [0 I% i4 Y: s. ]

% x/ Y# S3 P7 Q6 F
7 Q" x0 Y! }9 D, o0 y- e* `# z会分析成:
1 K* b4 G' B, S% s汉字:花
) ^5 Q) a, P9 F6 T# n  [仮名:はな
, {. o9 a, z: n4 u7 ]# i
-----------------------------------------
7 m/ |3 {6 w2 O. _2 g小学館「中日/日中辞典」統合版 :
3 e% y: Q+ H1 i$ Q% j: y$ vはな【端】
  j6 O+ K* M4 |! `0 u% ^+ m) a$ l$ H) S5 J. z8 b
広辞苑第六版:
! ^: [! T' l, |- x+ t/ Cはな【端】
  [. T! ?& k% y2 `6 a3 |2 b  k% Y' w! s- @, i! y% H4 {
新明解国語辞典 第五版:
. z4 r" T) Q5 H% Eはな【端】[1]( V, n- d6 z# H- c  ~8 N( ]4 g% O0 r

1 j, r6 @0 b" A0 l学研国語大辞典 :; p0 a: N) I+ u, l' X1 I& F/ [
はな【〓端】. q2 ]- v9 s3 _9 E* `# W5 h0 V1 z

  m- m8 Z; l" G. ?6 ?3 L講談社日中:' h* @0 g) C2 j, Q# P, v1 Q
【端】 はな

7 T9 E2 J: H9 n5 Z( Q
) F; [& t  p2 n) z+ O. U" _会分析成:0 ?4 I% o$ T' Q9 N4 N
汉字:端+ y9 U& D- ^& _6 l( ~
仮名:はな

8 j# |* [! H; K" t
& ~* o9 u' C! m-----------------------------------------
# D9 N9 ?$ q/ B! X7 {然后,发音的顺序是:
5 h7 X5 i' C  |7 ]1. 如果有Sound_ja.mdd
* i: e# q* Y3 P% m1 |0 K先用汉字寻找,假如找不到,则以仮名寻找。
/ I5 r7 }  b+ w! S2 @4 B
" ?1 V- _- R- @+ {1 c2 e8 O2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"0 K* b3 R% [8 _* [. v, _! f
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
) ?- M7 D2 c* T; Y" u* N; E  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,9 |7 M" `  P7 c
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。+ ^+ I  o! l3 c( ]  L/ X" l
     如果只有汉字有字条,则使用汉字结果的第一个字条。
8 M9 R; o6 r: Y, r     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
5 i" B/ s# J+ C' R1 u/ l, j& o$ p- v% S& b
     如果找到了字条,则以字条本文的第一个声音档做发音。
/ Y/ q; H6 `" p* G9 q& e! a. W5 @+ ^3 }
  X; E" [) h6 }. }' J
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
) a2 x9 c& X/ j* e; K, {1 e
2 z0 F6 f+ [7 D/ p% [5 q' J# z& h-----------------------------------------* C0 R' i4 D4 B
% u( O9 R8 F0 `- ~; ]
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。0 y" }% o. f& n- a1 d- n, b1 |
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)* r. P) I# W3 i- T# t1 L- A0 a
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。8 J" c9 u/ V7 o/ y* _$ J6 v+ U
) q. p7 k3 `& `" Q  v
; N' r0 D9 S$ ?# }6 [; f5 S0 P5 G
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。5 e' [) d: ]& c/ ]# z" {/ Q5 |! {
所以当发出不是认为的发音,可以去"NHK"字典做确认。
- S3 V  ?/ |, I% ~
1 n; l+ P% Y9 `' j! T例如:  H; d+ |- Q8 m: s
紅葉 こうよう& s2 L5 t- O% f9 ]$ T
紅葉 もみじ

5 G6 m* D' y5 q- u/ ]: ~, a7 }" s-----------------------------------------1 F& d" l& ~: h. n( v% t% D

9 B3 b+ A& v$ G8 f  ]+ ~- O! I因为EBDic会根据字典作分析,所以是写在code里,2 c" i9 Y9 o5 r6 ~8 R% j) f% \, M
目前已分析的字典有:
5 O4 Q0 I+ p9 K2 |" y
* @. C- @! U/ ]% i小学館「中日/日中辞典」統合版 7 d# o0 w+ u7 b
広辞苑第六版
) ?1 T. g# X( p! H: U; W, p三省堂 スーパー大辞林
3 b7 c; F4 z7 e) {- _新明解国語辞典 第五版  \3 A6 D! r5 d
学研国語大辞典& B, ?7 j6 c& W2 }! V3 q
学研漢和大辞典9 t; q! G" K* e6 [! A4 ^
講談社日中
& g5 `) o3 d; P) D$ x0 Z+ n/ N  X大辞泉/ P3 y/ C# y+ ^/ [1 h4 \3 C
国語大辞典
+ S' t6 m3 o( n. D/ H/ H9 r明鏡国語辞典
4 P3 B, Z! m# f+ W
5 [9 A% r' S" N
其实,目前的分析只做了一部份。
6 T$ ^% s4 p! R0 [1 A$ f1 g/ i! U有些汉字的表示法,可以有不同方式:
( K& B/ `1 J2 A" S( m' H/ ]! Y1 F例如:
2 X0 s) u" P. X" ?* D6 j掛かる,掛(か)る
6 H# u2 `5 S8 N- H" w' ~' b如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。; u$ \& T+ ?! k. I

" {1 C5 _, q6 ?. rEBDic目前也只以第一个汉字为主:
; O4 U) X0 z/ G+ z, M( Q例如:
, ^* a5 m& b- ^0 G. |, e! Vはな【花・華】
2 f* t9 A1 q3 g  a; ]6 O" y6 D5 b. C" U4 O9 z% x; f; X, R5 y* \+ v) h
会以"花"为作为汉字。
" m7 l  F% Y: `5 I/ k" @! Z3 Y
  x5 Q7 I" R; I% B5 I! X3 S
; H, Q; Z' |# x' d5 Y+ j( n  q另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。' D) p( G  j# q6 A, Z; X2 |2 Z
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
4 ?7 L% [+ N- f$ M----------------------------------------
) |5 K1 x% z. ?; @6 C0 l% f
/ w4 s' J& |" K6 x如果有发现字典的字条,没有正确的发音,' q( j- I, W+ m) r+ Z
如不是因为汉字的表示法不同,* P0 P+ {% i0 I* M
可以告诉我,字典的ID及字条的格式。
3 e0 S: Q+ [  H- J(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    $ b; S7 x) u' U! U$ }* J感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    - b" H3 T" M# F1 A; U8 B, g( [' s有个别词条无法发音,是很特殊的例子。1 l' \" Q1 W- H& N* F; a7 L: A
    大部份好像都是整个NHK声音数据都无法发音,
    3 ]4 d5 I! Y( a2 s2 N, w) u4 v好像主要是跟手机硬体有关," T0 S: u6 u1 T; {: `# I
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    : h8 s5 z' ~% {1 B现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:204 x0 l8 i6 g3 f1 X0 ?
    有个别词条无法发音,是很特殊的例子。
      b5 W1 H2 j7 i2 A3 Q/ J; Z- c3 Q大部份好像都是整个NHK声音数据都无法发音,
    , M! t# {  i8 }% R好像主要是跟手机 ...
    + s; q3 _* v1 @9 s6 e: L9 O4 Y
    多谢E大回复!
    - [; Y3 @4 F' a' ?5 ~# p9 l. w' Y4 J
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-5 21:03 , Processed in 11.390443 second(s), 6 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表