掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4572|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
' l( ]% p$ X/ H9 r3 r& I5 C: b' ^# ?1 M
对于epwing的字条,EBDic会根据字典作分析。
* j1 j0 c$ {7 h6 b/ z" U
& f3 A/ k% o( H7 g& e: G8 _8 N. D' B# T5 C2 g4 Q  W; d$ S2 F
例如:
) L: M! w) I: @6 F小学館「中日/日中辞典」統合版 :  J0 }, d% M, D
はな【花・華】2 z+ C* b! b+ I2 E% F
# ?1 U7 n3 w" P" R! }0 z% W
広辞苑第六版:3 [; z2 N) ]$ T' H6 e# _
はな【花・華】
% I; n- |, P% r. N  Y
% v/ y' G" E; h% ^/ u9 }  |三省堂 スーパー大辞林 :
" y/ f8 x$ A; gはな【花・華】
8 t! M6 U% E. B1 R( l; M
1 K+ R5 E  j4 V新明解国語辞典 第五版:: C$ S7 J) T' ]/ a
はな【花】[2]
: e* ^9 m2 \5 v3 d6 E. R/ q0 z0 \* e. W; o( I5 _0 x
学研国語大辞典 :1 i3 Q3 s+ k1 ^) J' R
はな【花・華】( U( V! f% \0 ~8 z' S( @7 [  ?
7 f7 B$ R4 n+ f5 d
講談社日中:
: a5 A. g, X$ N6 ]【花・華】 はな

% j( Y5 K5 A5 f- i8 F) f/ Z9 T4 w9 ]
$ A( B' E  w9 I, \$ [& s' j1 ~/ z0 s
会分析成:" c/ |2 L' }% x4 ?. b( v, X3 t
汉字:花% z5 V3 J) w0 c. Y$ F" Y: P
仮名:はな

8 w4 _( K; B* x! R8 _- ?-----------------------------------------
/ W4 o% d5 k1 z1 q小学館「中日/日中辞典」統合版 :
) I# H! \) @* a% a! w6 b7 fはな【端】/ h" `, k9 S/ w: `4 l/ v3 {% @
2 t( z; b4 r  U; @& D+ X# H( Y- `" P
広辞苑第六版:6 w* q9 ?  j8 t7 @
はな【端】9 n* ~" y! `8 b$ P' p

; l9 q- O% L: c新明解国語辞典 第五版:+ S3 Z1 R, `2 F! k7 |8 ?
はな【端】[1]2 h7 u2 N& P6 q% a

4 w- z$ e- n' b9 T学研国語大辞典 :1 N2 Q) K$ M( W/ b6 L
はな【〓端】" |5 D8 }& }$ m* y% U! Q

" u4 S! s4 W$ G6 t/ z  [7 H講談社日中:; i" _- x, C9 f5 R* D: E4 i
【端】 はな

" v( X: T9 P4 }  V. q: k  u
5 G" Z0 e& r3 B& b- K9 b5 T1 P会分析成:
& E+ A8 W5 E5 d汉字:端4 `; y/ t) g3 m5 M# y! J+ p
仮名:はな
1 [6 J2 w* H  y: s& T% J1 O6 \
9 Z+ Y5 e) n% |7 O
-----------------------------------------$ {& e* ~( `% x$ d
然后,发音的顺序是:
+ O$ q) [8 O! v8 Z' Z* n1. 如果有Sound_ja.mdd3 U6 V2 W6 u# ^' x
先用汉字寻找,假如找不到,则以仮名寻找。
4 i( n7 a* e( d$ \
4 F- w9 C$ d5 B' Q2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
7 a* q5 F7 E7 L& l# k0 _  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
6 U9 `  X8 Y0 }$ `1 b1 a6 ^  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,* v4 r$ g# J- s
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
& x8 d1 W  P" b  I, S     如果只有汉字有字条,则使用汉字结果的第一个字条。$ T( c1 C$ k+ U3 B
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。5 l, {6 }: U. Y" @; L% y

# `7 A/ d3 a, k& {! m  e     如果找到了字条,则以字条本文的第一个声音档做发音。
% T* }! A- m' o1 U: L- k: i1 l2 D. y' ~8 t
( n9 t1 K( x# ]4 r
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
/ t9 {( {! Y6 y2 T7 w1 ]3 K# L$ v7 w# Z7 G
-----------------------------------------+ ]2 z6 C# Y( B  w! `/ y1 J

' f( v! u) a0 g+ f感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
& c  m2 K2 ~- b& r2 F但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)) Q' h: O. P/ Z  `. q
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
3 v: z, g& I( u* g; {5 r% N3 Y& g4 p* O) F+ n9 q- X# ]+ d  b

6 q, X; ^# @8 y* b% O8 a- t. M但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
6 W0 S, x2 ~% Y  L所以当发出不是认为的发音,可以去"NHK"字典做确认。* N# G4 |6 K2 i$ P* [& ]# z3 D/ V

( [5 |- c& n% [% I6 O, H4 w例如:' j1 ~/ v& O- c3 h0 ?: W3 v
紅葉 こうよう; l8 S& t5 F: f# `( E9 o4 m# J
紅葉 もみじ
. I# ?0 O' i& ]! X
-----------------------------------------# i9 Z% x2 B4 D  V9 o$ j  _

- v: Y# h8 I* ^; g9 t因为EBDic会根据字典作分析,所以是写在code里,
' O: k# l" n% }. }目前已分析的字典有:
* z( p$ X5 e% H! j* `# H- B/ b
$ z4 \7 O- g. Z8 b$ y7 y小学館「中日/日中辞典」統合版
$ A! D2 }( Z; v7 V0 d広辞苑第六版$ i$ d! b+ G, {9 R0 d" e' G9 z7 E
三省堂 スーパー大辞林# X  g" Y, c9 n- ~3 T
新明解国語辞典 第五版, Y2 c- e4 J/ r! }
学研国語大辞典: D- q7 B0 A3 S
学研漢和大辞典4 j( J+ S7 K( H& |6 F
講談社日中
4 g1 Y; m" {/ {$ C, s大辞泉" d! o" r# E6 e8 k1 o- ~
国語大辞典5 i/ y- g# s% n% ]
明鏡国語辞典
+ Z" m5 T( U  d+ R/ B6 @% o
* n" t" X* ]  W$ n
其实,目前的分析只做了一部份。5 ~( _9 B2 e; n7 N- r
有些汉字的表示法,可以有不同方式:) O+ p- `6 Y  B/ u: [2 a# u
例如:
3 n7 {' T, e6 H0 f6 |掛かる,掛(か)る
8 r. J5 u/ U( m1 u+ W3 l* O% P如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。" M+ z. ]6 Q3 x; G

* D# [/ o/ C6 d4 l" kEBDic目前也只以第一个汉字为主:
9 s" ~2 t9 v8 v$ B; m5 V, b) j+ u例如:
9 c( D5 z1 N, q& b( u5 a5 [はな【花・華】
8 @  L; Q0 E' w1 A" m: B
) i! {/ I5 \/ S' p会以"花"为作为汉字。
: p# ~0 L; y. H. @0 R" C" }
# A- }- m0 ?$ @% J  A2 p/ S* ?  w9 x3 G
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
9 f+ s8 @$ o8 L- e8 [EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
* n# a: G  c% y( E----------------------------------------
& k# C. Z! z" p5 l" V! j
8 q9 R  D. K  h# G. l4 P6 B! P如果有发现字典的字条,没有正确的发音,6 }5 Y" d( q# Z8 ~
如不是因为汉字的表示法不同,/ q" h  Y5 y- N/ J: b
可以告诉我,字典的ID及字条的格式。7 P5 G& m/ E) H  V( r# G, V
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    9 M( ?6 o* ?! F7 e' I感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    1 G1 _2 n) K% [有个别词条无法发音,是很特殊的例子。
    1 v) l5 }/ x3 q0 g+ e大部份好像都是整个NHK声音数据都无法发音,5 u! f) {" |6 ]! y
    好像主要是跟手机硬体有关,  S) M% |7 ]; i4 T
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。/ y% R4 c. l7 E+ w' K) T
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    . N. Z; f3 q) Y3 a5 c有个别词条无法发音,是很特殊的例子。
    5 \$ |* `; A0 ~# }大部份好像都是整个NHK声音数据都无法发音,
    1 T4 g0 Z2 l( v好像主要是跟手机 ...
    0 ~4 Z! E# l( e7 o
    多谢E大回复!, H5 ~2 z, Y8 h5 l8 @5 G' k( w$ v
    + f; l. ]# O: |* N
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 23:40 , Processed in 0.042179 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表