掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4483|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
  \4 P  e* a3 R4 ?* R! U0 L4 o( Q& p) J
对于epwing的字条,EBDic会根据字典作分析。. e! k5 g1 W! t5 N6 Q; y9 A
2 m/ m0 w5 @% V2 w0 [' `3 x
! E" p3 I" @3 A: |0 R
例如:
: q! W4 l- g0 \' a* y( b  H4 M, k小学館「中日/日中辞典」統合版 :# Y' G% |# L4 [5 d. _) b
はな【花・華】, X) t% c5 _& _% Y2 Z. s8 p

; Z( k! e3 C  @: K+ J広辞苑第六版:% R% i, Z; l; d; x) Y7 K# Z5 y" e6 Q" ?
はな【花・華】. a' J7 {# O: f; a: ^5 E% e8 B

8 i  L' a  n. y* K: N* l三省堂 スーパー大辞林 :- u4 [; _, P: E
はな【花・華】) Q' i/ n0 \$ c$ \( B+ y* Y& I

# V) R+ P" a2 w# N3 r, d) p新明解国語辞典 第五版:6 ~) W. T- p" D' |# N8 Q6 e: {1 ?. f
はな【花】[2]/ S% N& H% F$ @2 P

6 ^# x6 a5 C) V  t8 X学研国語大辞典 :) D7 Q2 Q. _! Q6 E$ B9 p1 y
はな【花・華】
  n' N  o: J; O4 O0 O! E' V1 I5 y( ~
講談社日中:9 `. |: c3 q" e+ E+ S
【花・華】 はな
7 }' n9 d  o1 ~/ _0 @

0 P% o' L1 L& p9 E) s, w) l' B; L' U0 Y0 `) I, a, B
会分析成:' K$ _. u& P  d; P; h" O2 W- P
汉字:花
3 ^0 O" C! n  T( R6 |# N  l仮名:はな
. j5 e  I% F/ M5 n
-----------------------------------------
9 `' f9 j, Y5 @; ~- O* p小学館「中日/日中辞典」統合版 :" ]; C3 s; J7 M% y5 S# a0 U
はな【端】
% j1 v, Y  F1 J% D! `5 @3 k( _2 S! c0 Z. Y6 n' v
広辞苑第六版:8 N1 {0 a* o) B% A) O1 n
はな【端】
1 r& k# j7 H) o' K+ L3 ~, v1 M4 y0 @1 R2 w$ W
新明解国語辞典 第五版:
. O& ~8 `( n# @& P  M1 Fはな【端】[1]
0 s9 u0 Y) f$ p) b' \+ w6 Q0 }
: t$ E, }: \, N) x& S. y学研国語大辞典 :
% _+ e# k( g  E  a' y  E3 ?はな【〓端】8 I4 \+ R, }, \9 q% {0 \, d4 x
! z$ U+ m+ }+ ?- O( F& {
講談社日中:) T1 D, k" I0 u* g) Y- j8 q4 n
【端】 はな

; R1 S% L. \/ i
0 N3 A, `* S# Z5 x会分析成:# Y4 h9 z* t3 Y$ M. s  ?
汉字:端
5 k- h6 u  |2 W* R仮名:はな
: D. @, @" G/ J5 }
" \3 w/ m: F$ ]9 T6 ~1 |7 b
-----------------------------------------% G# W! H8 @" m9 r
然后,发音的顺序是:
7 e! ^5 Q- ?1 V1 h7 |% W1. 如果有Sound_ja.mdd# o. g, n; ~% P! l' l4 ^: n
先用汉字寻找,假如找不到,则以仮名寻找。( ~* |( x( R, r' p9 W7 w
4 s, q; \, S, y0 X5 ?9 G$ f% a/ w6 {2 y
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
6 Z  b! n9 {8 R" f  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
' B+ h8 {: q5 |% u) \& N) |8 o  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
8 A$ Y. [9 K% E     然后比对两个寻找的结果,如果有同一字条,则使用此字条。  n0 Q6 c' O7 j# S% v, M
     如果只有汉字有字条,则使用汉字结果的第一个字条。5 R' O) X$ ]$ ?  c4 l: T
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。2 R0 F- e. M! e" O& r# A7 V# [' f. c

* n% W. @$ d6 Q0 |! W: m     如果找到了字条,则以字条本文的第一个声音档做发音。
  }& w( _0 ?+ B# n5 @+ U( q; V" A
1 A  h+ z" a3 X7 ~0 X# Z' Y8 r5 ~) n; _/ w
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语). h; N6 v2 H+ V5 ~3 r2 ]
7 u% z( Z/ ?8 f
-----------------------------------------
% I7 o5 h, j1 d$ _  e3 z; H5 H- g+ U- @
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
' v6 Y% n( D5 S9 y+ m但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
  o$ Q& h& L, w- L/ i. D+ L如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。1 p: ?1 Y0 j( E" L% b2 t

. K- z( C: Q: o. a
# j) ~# w& t% t: Q& w7 U$ I( `& o但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。% E8 h# l6 S  l) A
所以当发出不是认为的发音,可以去"NHK"字典做确认。7 i* J0 |4 j$ C, X' o3 h
/ F, T7 v8 D$ Z5 H  l, Z
例如:2 Z5 y5 b/ F8 ~  e& E* v
紅葉 こうよう8 y9 W. e1 g# ?+ a9 r# g6 ^
紅葉 もみじ

% z7 y& Z; t( F& Z- d  Q6 f-----------------------------------------
8 {: v2 n. ^: E" {$ s9 W+ J6 h  y0 h2 d5 o& o! \: Q
因为EBDic会根据字典作分析,所以是写在code里,0 j, H+ ^0 b3 U& W! G; U/ s" e6 r) Y+ g
目前已分析的字典有:
8 y8 p% E- t2 K! V1 j
- _0 `5 @( h1 S9 f) Q9 p& n6 C小学館「中日/日中辞典」統合版 : w+ ~7 a1 L, Z" p- I3 L1 o
広辞苑第六版
% q% G5 L! ~8 p( [6 p三省堂 スーパー大辞林7 g. v- S( R. f- H) F3 j9 C
新明解国語辞典 第五版
  N% F# O0 t/ H' C5 X) y" r+ H学研国語大辞典$ P' G7 i* e: }+ U% M! R$ a/ o  H
学研漢和大辞典
5 F( D1 G7 }3 q' t  h5 y+ X2 z- {) X: T講談社日中, y$ t, d5 c+ ^5 |, E6 M
大辞泉
+ a$ t. u8 F. U. A* d: |8 |国語大辞典
; \3 h( f5 R% |1 k明鏡国語辞典
" J2 U) i/ r* ^: |# h3 ^& R4 ?

" n; Q+ ]3 ^# L# N0 f其实,目前的分析只做了一部份。. T; Q. L; |6 p
有些汉字的表示法,可以有不同方式:1 U3 v2 G- S- }! u; e  h* c% Z
例如:
7 V. H0 M' \9 Q# @掛かる,掛(か)る
% T. M7 D% O; g如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
2 p1 J5 Y$ Z- @' U4 a1 F% C- `( ]8 I6 }
EBDic目前也只以第一个汉字为主:
- w# e2 l. }& o# y8 e' [, W% {8 Q例如:
; W$ O! h$ M+ B6 I7 ~はな【花・華】& C; b$ `! d3 }6 T

8 X1 J2 D& e7 s2 t1 f7 A; `! `% {会以"花"为作为汉字。0 D' A9 v* n! |. {5 o

/ p' s& I% l0 d! x) w" G4 x$ G# v" G3 G7 U) T$ O$ h3 P  f. k; W
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。7 E; g) a6 w- r2 P1 ~  h
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。8 A2 R" E7 d5 K8 L/ `( }5 S8 w
----------------------------------------# [* u: _, B. D" H! y! n: T; ?- z" L
  K! E, e7 X. Y/ v1 R2 n0 _
如果有发现字典的字条,没有正确的发音,
* B0 I+ X3 D7 S3 U8 i/ N5 l5 T" Q如不是因为汉字的表示法不同,
  Y/ r1 \/ S6 U. e% d可以告诉我,字典的ID及字条的格式。* l9 |; C2 |! d& ~: E& z1 u8 k+ `
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17# X( D  I# [% c) [
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    + a" @& W0 ^6 U6 Z6 i' J4 b
    有个别词条无法发音,是很特殊的例子。2 y$ b* y' H6 p3 ]+ o( [9 c
    大部份好像都是整个NHK声音数据都无法发音,* f) q6 `9 D+ P; u5 |/ E
    好像主要是跟手机硬体有关,, N: Z. Z& G, ?* p
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    8 k% l& w# X1 ]' e现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    1 r; K. m% P2 v  p! j! D3 n有个别词条无法发音,是很特殊的例子。+ Z- R& @0 }6 f* m/ |% A
    大部份好像都是整个NHK声音数据都无法发音,
    . o  z' ^- k/ a/ \好像主要是跟手机 ...

    ( s- b! W+ M% {. j; T多谢E大回复!9 [2 b0 E) L5 m1 u! C0 |
    , R% T% P$ T* N# P1 l
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 16:29 , Processed in 0.025572 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表