掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7760|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑
6 w+ T/ K5 J" R9 V$ i/ F, |  u0 @  j5 P- F6 h
先看下效果:
+ D! m. h( y$ ?1 C: b) D( V- |: C; ?5 X7 ^
5 D. i* X5 n7 [6 V. D9 _4 O  a, L3 T1 @
上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。
* b3 M) E9 E9 A% w, L已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。

' w/ \" Y' u) }: Q! p: N2 i( E# \$ Z
2015.10.27
7 m$ O2 f0 u& [4 ~功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
" X! d. N  ?$ R0 f( K; s

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~9 K) I3 q4 e& O4 i: x' `* D9 D  \
5 j/ f% b  H5 ]- r: J4 ]
如有需要, 我自己有整理超过上千笔简转繁的资料..
8 Y! V: J" g! |( w类似opencc里”TWPhrasesName.txt”* E4 K1 z/ ~4 o! I

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:184 Y9 B( L! [- h" G
感谢楼主的努力, 我可以协助测试Windows 的部分~
) a& H+ {. g3 ?2 B
" A; B! c; e6 K1 q2 i如有需要, 我自己有整理超过上千笔简转繁的资料..

! q8 s  b. g# B& i+ O2 }- [' _8 J. h谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27
# \+ }4 ~8 q8 e3 o6 x谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

! @0 e; g- X# [; N# }9 g! `/ v4 x' i这就抱歉了, 对于编程不太了解, : i% c$ s* w! z9 e9 B& }
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
9 T5 f" Q' x# k5 g# b
* L7 ]  b3 f, z; ?: |4 f在网站有看到您写的源码, 如果后续有机会的话,
: g# |7 w: }7 Y+ x5 B5 @: M, d建议能将简转繁, Simplified to traditional Chinese conversion 7 i5 q1 {5 u; e6 c1 ~
改为TW / HK两组, s2tw.json & s2hk.json
' ]; |" V7 L% I" h2 _" |因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字,
8 O; f- ~7 V# [! x# `+ q! F, I$ L有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈, e3 l5 f& i- z+ C  e. n9 ^

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10
& x% U- }; h4 s这就抱歉了, 对于编程不太了解, + X5 A1 \& B' w. ^( q# x2 i" U
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..

8 [, G& D; N5 R  G这些繁体一点都不罕用啊,* v& R- W( \6 f- {* E$ |# y( E
! ]- c5 e9 I: Z% T4 U: M# B
糉,粽子的粽
* ^3 P. @3 z% _; |+ r( r% f- `覈,考核的核
5 X5 p! i: r; z" f竈,灶台的灶
4 J: k6 x1 e5 F1 C/ G7 ]. o( b0 b) h
我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。6 F! T! m& Q6 \9 ]
9 G3 c9 ]1 E8 X9 |" V% ~3 v
像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。* F, `2 J" O8 C2 a" v, V

2 ]& i* J' V( t* o  @  T现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果' J& M7 V' }- N& X
3 n3 F0 d5 F, p  \  z

* A( i% [; D2 E! A/ P" c如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑 5 W5 [2 P+ E8 z- o8 y
klwo2 发表于 2015-10-20 09:40
3 X2 |1 l- J- G0 v6 \: X这些繁体一点都不罕用啊,
, c$ a4 n& Q8 V1 s1 c; k
' I* w3 w9 E  Q  X  Z3 A- Y糉,粽子的粽

; I" i8 U/ `  C0 h  E& G4 L$ m- I
# y3 F" x: g* Q& q"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.9 a" b- a9 x% v& x; `

+ E. ~9 G) c% e至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..* ~; O4 }. I$ F5 K& n4 s' S
% m8 k1 Y# l* Q
***************; O/ m6 p; c6 B  i* p! W
) |$ O. n: |( i7 U8 n4 |6 _$ a
在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频: 1 u  j! s3 X/ c  n& O( R& ?

7 u# @6 t/ Q  k5 B8 T4 p& B. J因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..$ t; |: Q6 f$ ^

- p' ~2 E9 |8 e, j5 a"粽子" site:tw約有 574,000 項結果
) m2 s0 ]3 u. A: U/ W+ \"糉子" site:tw約有 2,540 項結果 8 a. I& N2 @* D5 r' s; Y
: s9 o$ M$ L$ y  @  {; D
"考核" site:tw約有 681,000 項結果$ D% {: B3 W9 T% T  \& l
"考覈" site:tw約有 7,560 項結果) v* E) N" w0 B* k' e

, O- t# T4 i3 q# I"灶" site:tw約有 434,000 項結果
4 L, P3 {6 ~! {' h: @"竈" site:tw約有 24,800 項結果: }1 d3 G1 @1 Q7 I

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑
+ z6 ^- s. h7 Z6 }+ K
5 Y" m3 G/ n& o9 J6 q, m7 A我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。
- Q/ |  z; ?0 B对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。
% T' V% N$ e# j: M
4 w( p- \, a- r7 Q! x' X上两张图:( }4 L5 m  x( H- |1 g
  ?7 K$ f% i+ s$ F" u; |% v+ k
有选项可以控制是否开启。
  m8 `2 F! s, P# X" \* n0 [$ ?+ L- w& K- Z1 h$ l
. _/ r# `  u$ h) a3 |( n$ z
启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。2 W1 O" l$ f: j/ j

" K5 q: V8 z) d- k( Q. k3 V啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:54" E, x4 s' V/ H: L) w
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.9 J2 X2 \( K9 n: _5 L/ o" i* l
  A& d7 @% R; X& `% |
至於Opencc的转换语词 ...
& D# k) t4 _# X$ p+ ~7 J, x7 Y
除了google,还有别的资源:
6 k5 q6 t, X) p" A( [# X2 B! J  q: o$ c/ R% Y
http://cloudtranslation.cc/corpus_tc.htm; w' g9 w. c3 P0 K' h, {

9 @; e' J, g! j9 G3 I1 {2 Xhttps://www.moedict.tw/考覈
% ?/ S7 S+ h4 x, Q) Y8 B$ x6 x2 m6 j( z% [. l
比如国语辞典就有考覈4 P+ ]# u& V- F% n; P( j. x# f

2 c8 X7 g- p5 E$ S/ P1 z, Z网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:56- s9 S* `* @& }) m; D; a5 N
港台繁体区分,已经加上了。
8 o, s) f' q$ f$ n* j
太好了, 谢谢楼主..% [# ~6 q# H+ J, O- ?
只是不知道如何才能有windows 版本…
+ @% ]9 J4 m) e0 T& {7 Y

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑   [. \9 T7 V' l# b
7 x  [, ]) L* L7 k5 t
我又想起了一个新问题,不知道能不能实现。
5 v! j% a5 {, F; ^0 p& \1 _- P$ w& |, ?7 w. t9 R9 L3 Q, r+ F
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。
* F- w( K' E3 v( t5 S' f4 C# k; e" U
在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。. o( @2 w% s( z! `. f6 S1 [

( o7 \1 M: _. d0 {而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。; a" w4 A8 I* ^% W* W( `& n* g

) L; `7 s, g+ |8 U0 S+ I$ a2 |当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。: L6 [. c: O6 G6 |/ p
4 ~- E: [" g5 `6 e  N
另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑   w+ k6 p. d) Z6 ~
cracode 发表于 2015-10-27 13:17, @4 Y4 q2 K3 x( P0 ^# Y
已完成
8 a+ N" K1 n4 ~
: t- j6 j, _) n' H. r
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
* {8 H) C- I6 e- z& z: z
- E: _5 ?+ C' S! c) `- U我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
1 D. N8 i3 k( g2 r% B& c已完成
, K8 Z9 N9 i9 }
真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑 : V# v" M* l1 d3 M3 K8 B, K
klwo2 发表于 2015-10-21 08:44
, C; F4 w1 v5 s4 O我又想起了一个新问题,不知道能不能实现。
6 x4 C- I8 ~$ n9 p/ M1 R( w
" w* L) ?, L5 w' G; J可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...
: o  \* d# ?2 A1 ?; h$ _" s! N3 y
4 _5 \! \' n# u' b& O. d
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
  J8 v4 e  o+ }! I2 D% S2 ?: [  Z; k: ^: S# \, E' N; }
当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:384 @% N% X- o' P/ T7 w
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?. R9 W! @6 K: R3 I! L2 j3 {2 M

6 u, {9 P# {. k% \$ w我在想, ...
  @, [: C' Z' }; M* Q1 h* Q) n
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑
& X4 v9 g) Q9 H; N4 J
cracode 发表于 2015-10-27 14:22
2 N2 y3 J2 @  O+ l分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

- b1 u) P7 N8 P/ E0 h: C, L( G/ K5 o
哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦  O' D' I3 q; L& s
! p" t% A0 Z, M: M
再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了! ^& k$ w9 e% C% u( d
@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。9 D. K- B+ x* o; ?; r6 m5 K
以及
+ u5 e" ^) K  Fbackground-image: url(foo.gif);' v6 Z( K3 T- Y9 w# i5 Z
. g+ R- K, B! t* }
在路径前面拼上Goldendict的那一串随机字符应该就可以了# c0 H. L" T! Z2 x4 z
foo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif
8 @5 l7 y' p8 F6 m6 E/ O5 z. Q* {! ]) @5 {9 @2 b8 [, f% ~! U; r- M
可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28: H6 j& \# p( v6 b
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...

      Q  L- q4 m* q這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..* H* o6 O3 M; T
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..% N" `  i; H6 u+ j4 z9 x/ c8 M
    無須另外製作一個簡繁索引的mdx.; T% S+ K& i+ V6 x( ]4 u7 y1 U
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35
    7 r1 Q" P2 J+ y這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    ( C2 y1 u. |8 e1 h' B: Q也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...

    ' `0 o% a1 v2 W多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-11 10:43 , Processed in 0.024981 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表