掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4560|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 - L2 V% h0 i6 ?! a( z
/ x0 p" l- Y+ N- O) N5 o
对于epwing的字条,EBDic会根据字典作分析。5 p- T6 [, {: i

2 s8 I: a2 q/ D/ ^
- o) K4 [) e. Q( ]7 P6 f例如:
& c- c: t& Y6 a: z6 {小学館「中日/日中辞典」統合版 :
5 J9 A; a2 z, n- E: I: wはな【花・華】- E1 t) K, M  S$ t

/ G$ g$ t; D: l0 ~/ V8 [* a& |広辞苑第六版:
0 g: K4 O6 T% P4 a- Uはな【花・華】7 t. q4 g) ?. Z

5 V7 K/ {; b( d% u三省堂 スーパー大辞林 :
2 u$ p$ k0 i: v/ M4 Jはな【花・華】* @2 p( R: G. ~
, S/ Y* X; F' [2 |1 z9 A6 B
新明解国語辞典 第五版:
4 {7 h; ?- f% M, n" d9 k, }* m9 Hはな【花】[2]
& U2 l8 n, C: L8 p5 @1 G# T1 w+ Y" A  }2 L. |0 G
学研国語大辞典 :* t% l$ O* {6 p  E- o! {; A4 z
はな【花・華】; O6 M4 U' Y* ~9 w( J
) v$ n3 Y7 {+ Y- Z; d
講談社日中:
" U; D5 R/ p/ {$ p) P' y4 Q: f! u【花・華】 はな
& s9 O4 p0 }2 \. }( M

; M5 I) A( \. b# ]
# {7 r* ?2 e1 ]1 F& t. R( O3 W会分析成:
) X+ j6 e* m- g5 U: S汉字:花
# `9 S( R* K# I7 q仮名:はな

) @- k1 {# E9 P" X. _. Z1 @. o% l0 \-----------------------------------------
7 m) o3 L( r" }9 [1 ?小学館「中日/日中辞典」統合版 :
8 ]# A2 }+ V6 u, l1 X! O- {はな【端】7 B; t! U  Y, M# h' c# q- v

' ]9 M9 _! ^. g1 g6 K広辞苑第六版:- w* j- e0 B  t4 A9 y# S. F
はな【端】
% r( q* @- {$ g1 E
0 Q  I. ]0 G4 ]2 T7 b5 W6 O6 q" i& i新明解国語辞典 第五版:
1 n& g! h+ \! \; Q6 Y% ]はな【端】[1]
7 ^+ L$ v- s! R) w8 g9 I* T4 i3 g2 [3 s" @
# ^6 x, J5 @0 s( a学研国語大辞典 :
3 b' h! i1 g& B, \. Z9 ^はな【〓端】" D" k' Z0 ?  Z- I

. X6 J2 ~: D* m# d& V講談社日中:: m% P. t  j4 J3 j, Q4 M' Y
【端】 はな
- @- j: ]% O0 V
. ?- @# d3 ~+ O0 s
会分析成:
) A3 I  y' {. ]" K5 g" F汉字:端$ |! p. k' D# \5 y1 N
仮名:はな
; m/ a9 I% y  D, f* k8 V7 ^

- V. D  u) N' c1 o# B4 y-----------------------------------------
. B$ l6 D# Y' [! @' J然后,发音的顺序是:# |& P6 @4 M. @9 f
1. 如果有Sound_ja.mdd
) J1 \; e+ ^6 Y- k先用汉字寻找,假如找不到,则以仮名寻找。
1 E1 R7 C8 F- Q8 Y- z" U
0 ^& ~5 u! T5 i. P# o6 `9 I2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"- \9 [! L2 T0 T  O
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
& }+ W( S* g! g. K1 ?  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
. x' Q; c4 U! C, D     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
  _  p/ z) J! A7 b5 j# W+ I3 r     如果只有汉字有字条,则使用汉字结果的第一个字条。
: b8 c% P* Z" X7 [  J! C/ z- L     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
0 c* [# b9 ^( P( J, i$ b" _* v/ o  q% n( f5 i% w" o
     如果找到了字条,则以字条本文的第一个声音档做发音。2 M4 O) m. H# I9 q1 A
' L& G, P6 ]& G1 V9 d

8 \5 D# J. B& \: N! r7 N8 ?3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语); l. A% R9 ^! z5 D$ N3 w7 r

* @$ g* _8 _4 o-----------------------------------------
$ G; _# s9 z& |$ a& o
; i3 Q4 d$ K) \9 U# r$ l感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
4 d/ ^: u2 A3 ^4 M, y, Q" _但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
. Q: @. T: J2 s( n0 P4 f1 I% @2 M1 e如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
2 B+ }+ m8 e$ M2 X1 r) Q) W+ v0 F+ B+ L8 q' B1 c1 S
" s. h& e& @" B+ v
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。) F! _5 @( P* `4 J. v+ `: M' M
所以当发出不是认为的发音,可以去"NHK"字典做确认。
  z1 o2 L% ]( M. v. S/ c4 x! `5 E' }! ^1 U* d
例如:) ]( U# h" F  c( ^. G  ?" z
紅葉 こうよう- t5 Q  v+ a7 ^4 m3 H& ^- p
紅葉 もみじ

( u  N' m3 ], m+ l) [- U-----------------------------------------1 h5 }( Z9 ^( O  f8 ^% s" R5 E
( p* M: X$ r# Q( y; U( V
因为EBDic会根据字典作分析,所以是写在code里,3 e: P- W( j! j6 j1 O
目前已分析的字典有:
( k# m7 z; a* }& q. o" H; J! R0 n$ o, {8 T0 `/ F
小学館「中日/日中辞典」統合版
+ R# ^& @4 |# i; G広辞苑第六版
; H+ x" X3 d  S) e8 n0 M. `三省堂 スーパー大辞林' f+ b" A0 c8 P% A5 E# H& h# a/ x
新明解国語辞典 第五版
' {. H  j) `) v学研国語大辞典0 c* U- P" y" `3 x  h6 \1 Q. k0 ]
学研漢和大辞典
  d  y) P5 g  {7 [- p+ z講談社日中# n8 ^& D; E9 R
大辞泉
( a" M5 O; |$ J& v) c国語大辞典
% |5 [# F' ^/ F' K7 `3 B; M明鏡国語辞典
+ H7 j7 U. r5 i

6 C+ |: w9 ~- q5 J: H其实,目前的分析只做了一部份。  Y( a# L3 x0 p2 l3 Z  C, p/ R
有些汉字的表示法,可以有不同方式:
' f) A8 Z$ \0 Q7 W- z; C$ I( t例如:* w+ d2 U0 C9 f# E% G
掛かる,掛(か)る
8 o2 m7 F, X2 t4 V如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
; U7 ]  D0 d# M1 J  Z* ^1 ^1 H: }7 u7 T8 V! q
EBDic目前也只以第一个汉字为主:
& o' D6 X) w' F3 o  U例如:
0 `! G) s9 d/ P3 D* f9 mはな【花・華】
6 c( G; F$ G" u  \1 L* h! D& s
3 z4 Y* y. `3 l# R/ T会以"花"为作为汉字。
3 b- c* S3 [9 {1 ~" D, @- X" \6 c# K+ j  _& T& J

) K; A4 q( f7 O( Y) U另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
8 ~  v, ?3 k* m2 w* J8 R1 EEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
1 W9 L6 E3 a: n/ G, w0 D; b----------------------------------------& P+ H1 ?; F) A

3 \9 Y3 {% v9 o如果有发现字典的字条,没有正确的发音,, L: }! q) d0 [8 `4 ?' K
如不是因为汉字的表示法不同,; K" Q( Y% A) m  m6 H8 y# U7 S. F
可以告诉我,字典的ID及字条的格式。
. Q# d0 r, D1 J/ O(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17+ b% t& J4 ]: T+ v) R
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    , B$ d. f; l8 w; {+ R
    有个别词条无法发音,是很特殊的例子。
    , G: {, ?% S/ `1 I+ q大部份好像都是整个NHK声音数据都无法发音,
    6 P9 F6 I3 Y" B' i好像主要是跟手机硬体有关,
    " g  `  _# J( G7 K' i2 A我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。0 Z* n9 K& F( E; ]# [! Y* H
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    & ~2 C' e- L6 Z2 \; e5 o有个别词条无法发音,是很特殊的例子。7 k7 x$ i! ?, |7 k9 R+ R, w" B
    大部份好像都是整个NHK声音数据都无法发音,7 X- J. M1 r& i  S
    好像主要是跟手机 ...

    : N" k8 b1 c0 L* [( r& x多谢E大回复!8 j' u# q$ t4 P8 e; H, S3 _. t
    ; i! h# G. A, ?* U) L; F0 I: C
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-18 09:21 , Processed in 0.034390 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表