掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4588|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
) N4 U9 z9 K, }( D# s4 {8 y. i- I7 T% {& N- M: f
对于epwing的字条,EBDic会根据字典作分析。
6 B6 p  u6 c3 g; k* M2 B
) m' ~9 J1 E9 B& l
8 n6 \4 ]# L2 \9 S8 N/ y例如:/ p* A4 V0 G4 X8 a
小学館「中日/日中辞典」統合版 :1 s, |9 S8 W# ]% f( ~9 Z
はな【花・華】- a. q$ m! c! \- q2 Z5 F! m# U3 `

. R6 N8 f# T# q6 v広辞苑第六版:
3 P- i' t% y( R  Lはな【花・華】3 C8 ~$ R) j0 l+ C# H# y; c  h! w: D
0 N% K4 e5 `0 B1 u$ w1 x6 I8 ~$ [
三省堂 スーパー大辞林 :
! ~8 c7 k; ?3 wはな【花・華】% J# g/ I, I6 \* I4 r; M( S

/ j7 b; @3 L7 ?& J6 ?: |% ^新明解国語辞典 第五版:2 |; m; m5 _' k7 u* N6 g3 u
はな【花】[2]
% L0 [- H, K+ M+ _, c3 V
4 m$ L6 u3 G6 d4 g6 Z. j: c' E学研国語大辞典 :; B4 K  a9 f) \( K, L. U: N8 t, ~8 x
はな【花・華】
# I* D) b! X/ _7 M' u
7 e' @# ]" G6 e6 o/ V$ B! D" m& v講談社日中:
. o6 }2 X- {$ Y2 Y! _【花・華】 はな
& M+ z1 Y; w- x

! o% ]$ L1 z0 k$ y) t) U
7 B0 k6 r) X# m; B会分析成:
- v; o5 A  a, z8 C7 ~7 F( }: Q汉字:花6 c! C( Q4 v- I3 V% _8 F3 ?  `
仮名:はな
7 V, R  i, V# N0 F. n4 `
-----------------------------------------
5 y) b2 x0 w+ s3 r# j6 S2 h小学館「中日/日中辞典」統合版 :8 c" v+ Q2 L( G' p
はな【端】
% e1 p) X* ~1 V9 e
3 _$ e9 t+ ?: u' o3 {広辞苑第六版:: ]5 Y9 g4 ?$ t9 B
はな【端】
$ ?2 G# E. L8 _& P2 A! A9 `5 F3 D
- t) I  p/ u3 J1 Z* t新明解国語辞典 第五版:
+ z  m4 ~- `" }* s* i* p9 Nはな【端】[1]
/ K8 u. I, l4 f7 B' f4 j+ H! `. X* F8 D
学研国語大辞典 :9 e  f4 M, H! r: |* f, c
はな【〓端】
7 ~/ W" H, k9 b8 Y+ g; H
# t9 e3 D# W0 d- w講談社日中:
2 M) _' T) g0 [6 C0 }, q. F【端】 はな

' N0 J. c+ A, {' L
% A) {9 u* F6 j; [会分析成:5 d! R3 r" Q/ F0 |" G) P5 ]6 W  u4 l
汉字:端
- Z- h! }7 P' _仮名:はな

$ j; Y0 ^$ X# u) J1 A+ h
- f+ i8 m) U% o* `& B2 Z-----------------------------------------
1 C4 X7 i" C  A" t7 I. ?/ n然后,发音的顺序是:$ `2 {2 o0 ?" R& m3 z$ a) x2 p# E8 R
1. 如果有Sound_ja.mdd0 y% ]: g: c6 ~( c* s5 x5 }; V- {; w
先用汉字寻找,假如找不到,则以仮名寻找。) ^& k( r. P" L% |9 u% d* ]

2 ?" W+ l7 A* A. ]5 R4 q2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"9 G0 Q& l, p. s0 H
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。9 @  K/ b1 }% N6 n6 V) w
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
3 x) p) h. j3 w: R     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
# ~4 |% S3 `3 u4 p& X  g& P     如果只有汉字有字条,则使用汉字结果的第一个字条。: n% Q' s+ O. x  W+ k" C& O( j
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
  d7 {; X  L, C6 o3 H9 c3 O, [$ P' m6 {) x" m0 Z4 O* e
     如果找到了字条,则以字条本文的第一个声音档做发音。
, E8 W6 I% L( Y" M1 l4 q  E% ~4 m( w6 O9 b
) O$ u9 G) v2 ^: {' \
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语), |! b5 R; q+ ~7 A: X( d
" X8 L( f4 Z% Q+ s7 I! O
-----------------------------------------8 N- e7 U& i2 W- S" t

$ ]! G) @6 n. i3 [7 @: V感觉是使用"NHK 日本语発音アックセント辞典",会较精准。) R2 {& ~  `* G: C7 X7 F% W
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)2 K8 n7 A7 g9 S6 D- e
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
3 D- f! R* q, p8 s. I* i* @, b2 {' @# ^& T

' n  O+ F, U# |6 o但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。  a% f: A) U5 Y% g6 ]& K; |6 b
所以当发出不是认为的发音,可以去"NHK"字典做确认。9 S/ m8 L; z( S9 ^9 J5 Q0 f

9 H0 `% Q6 w( z+ x) C* s* r例如:& c( r5 g! N  Y. U& T1 Q1 i8 O
紅葉 こうよう4 n  J7 A. t3 t: O' p
紅葉 もみじ
! w+ R, J8 G5 E% C. N
-----------------------------------------
* U$ M. B7 s6 w  t- A8 ]7 L4 E8 p8 e+ r. n- T, r
因为EBDic会根据字典作分析,所以是写在code里,# G! I$ f. s4 T0 ^
目前已分析的字典有:' N% F0 ?* b: L% S! V

0 d; x, N, @, F. y  Q) B小学館「中日/日中辞典」統合版
2 T1 L, {7 [8 ?' ^! A9 }& N広辞苑第六版
5 Z1 ]+ G7 q! G% y三省堂 スーパー大辞林% [. R+ S: W+ g: C
新明解国語辞典 第五版
" d. I2 c: a$ |9 Y学研国語大辞典
( m6 I; X, m: {" ^学研漢和大辞典
$ ]0 k8 Y) Z: ?6 m$ Q4 E講談社日中9 F# F' a$ @! P! Q
大辞泉
. Y% G" P$ c; }5 X* M: y国語大辞典
9 K- X5 o8 W% E% V% `1 I' f7 Q明鏡国語辞典
- P" M6 E1 z' D& z, H- X- Q

$ S* F$ \& K' W其实,目前的分析只做了一部份。
: v/ ]4 g6 \* l7 l; ]6 [9 X; ~有些汉字的表示法,可以有不同方式:) _( m6 R3 G* X0 O- N: f7 K( a+ Y
例如:
7 Y. d& x, U3 e3 h掛かる,掛(か)る0 m9 A/ `: j7 s, |! \
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
; D% I0 J+ n2 y/ Y& _9 Y. J) e8 d/ ]& d
EBDic目前也只以第一个汉字为主:' ]) l4 T9 d) ?7 F+ p8 s
例如:
" u' @7 l% S" {& U/ Kはな【花・華】
1 J3 E) _+ J* t
/ B# Q- h; \* z/ X+ A, Q# D会以"花"为作为汉字。) `% n$ L: l$ F: D

8 D( [3 d/ P& H( i& D& G( \) h, p/ V+ U# o; z% k9 ?, ~
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
+ F! t, s' K, v( p! y/ wEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
+ j( z+ m" n1 H, O----------------------------------------
2 H1 |& w' y- e# y2 @8 t  h
0 r' w8 _+ O( o: h7 [$ e, }: j如果有发现字典的字条,没有正确的发音,
, b2 d, Y! U7 ?$ x7 t' Q/ q' F如不是因为汉字的表示法不同,
' h/ f9 Z* k0 v" s可以告诉我,字典的ID及字条的格式。0 {: R! _# J4 t. x/ b. I
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17+ \$ {, ^8 }- M" T$ M; m
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    4 w9 B7 ]) i8 H7 \" v
    有个别词条无法发音,是很特殊的例子。- Z3 u1 X. z2 C3 @. [
    大部份好像都是整个NHK声音数据都无法发音,0 S7 Y: O; M$ q7 S) H4 C4 x
    好像主要是跟手机硬体有关,) H7 Y: K  u1 O: r# _
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    5 X3 s) l6 W& h4 m9 Q+ D! G现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:200 A  n0 f+ {7 ~
    有个别词条无法发音,是很特殊的例子。
    " {1 ^/ R+ I1 @大部份好像都是整个NHK声音数据都无法发音,6 h% _9 Q! E# e9 R, K% S: f& j
    好像主要是跟手机 ...

    ' w9 H. I- P# k7 P  d多谢E大回复!, ~8 D% F! h" c6 s8 T4 _" X
    $ l/ a0 k' O5 x  S& s  |# i
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 04:32 , Processed in 0.041435 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表