掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6859|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑 . q8 d5 |( g2 S9 q" A
; ~# a0 Q1 O- y& }
先看下效果:6 C9 N) }) c! z& q3 h% `$ Z. b
7 M+ ]9 B2 ^/ j* ~) t8 S

1 [/ k9 m& n- z9 d' f上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。
% W8 Q& k& a( x  e+ U& S已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。
7 c+ g" u' d: A% \* w* Q
/ e2 ?5 @7 s0 e, V  Q- `3 c+ V
2015.10.274 \+ V5 h: ]4 H3 u
功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
$ {! K7 m; L. N3 C1 a- z

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~+ P6 O( v# G. y1 ]1 {5 Z
. f, n. ]; N& n) I8 E/ P. G
如有需要, 我自己有整理超过上千笔简转繁的资料..
4 V1 }5 C* I8 }: K& h7 e3 K% y  p2 ^类似opencc里”TWPhrasesName.txt”( T& }8 {" M+ c: H' m

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18
) C' ^; b0 H- n; }6 R8 ^感谢楼主的努力, 我可以协助测试Windows 的部分~/ q3 A' }$ m$ N8 Q. U* h. A

1 ?7 M' i! p5 n如有需要, 我自己有整理超过上千笔简转繁的资料..
) O0 p& g" G" d4 I7 ~; t) S6 D
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27; m! X) u* W) h2 Z0 B# q
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

( I7 b5 b, B) a& K" Y5 {. @这就抱歉了, 对于编程不太了解, 9 k2 s/ |  T" }' X
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
! ~. u7 |/ a/ P& B. N1 [/ K: q7 }
+ H( \! j9 D: T% o0 ~0 x在网站有看到您写的源码, 如果后续有机会的话,
- `' [3 v. h) a4 I, |建议能将简转繁, Simplified to traditional Chinese conversion ' q$ b8 j1 x) S3 o
改为TW / HK两组, s2tw.json & s2hk.json( k/ x: l8 F- \- j7 M0 J( O$ i  N, I
因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字, ' F5 \8 G3 O1 ^$ c
有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈
. y" d0 ^0 v1 ^/ Z

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10/ D8 g8 i5 H* o& \9 A! ]
这就抱歉了, 对于编程不太了解, 2 ?( L& r$ l$ T5 ]+ @
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
/ L" Q" J7 [1 Q6 Q
这些繁体一点都不罕用啊,) \  s7 z6 R2 ?5 }2 b

& y; P6 p8 W! r: L糉,粽子的粽
( k% o+ f$ _4 k2 T* M8 w覈,考核的核
; E2 P' n0 [/ M竈,灶台的灶# a: i) u6 W( I

& o! K6 d! b6 e我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。
" O! S- F9 l" ]8 B+ S- _+ `! d  [% x
) U4 s0 q# `: U6 P) \/ F像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。+ s* N8 d; Z& U  O1 [! l6 G( O

8 r& r1 Y  F. }3 @  j现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果
; H* L/ q+ X8 r2 |5 f8 |+ m( A% h  K3 R7 [3 o9 \# Y4 J) Q
9 b7 k/ \( h+ J: q1 r% d
如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑
9 I: }: T$ N: O+ C$ F
klwo2 发表于 2015-10-20 09:409 p! U, d9 H1 \5 N2 Z+ y+ U5 \
这些繁体一点都不罕用啊,
6 N' o) j1 T1 h) Q+ {$ [
# c" ~6 ^, ^' r( b- ?! D( g糉,粽子的粽

9 C- l* U5 ~' B% k; _7 o8 t( ]. S0 ?0 N+ b3 @& Z3 p1 F5 ?
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
" X" s; c1 D. z4 ~" q- F' ]/ p9 e9 K2 }2 \$ m! i4 S
至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..6 Z* t  }7 ^9 V  `; ], M  I
$ W$ Q1 H! @' e& J+ Z
***************
+ L0 K$ j& U( X& }0 e$ W8 |* i, ]9 Z9 C
在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频: & K' ^1 i. d+ t& g
8 ]: L. Q% W% |! j3 ^( E7 P" w9 s. M
因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..
4 {0 [, g& M# e4 \
  Y8 Z  Q0 Y3 I& m' K/ G! b"粽子" site:tw約有 574,000 項結果
  w3 {& U% S+ C' o"糉子" site:tw約有 2,540 項結果
1 a3 {) H/ k' T6 H" i' g! L
; Z8 A  ^1 r  c/ _3 @* H, o) `"考核" site:tw約有 681,000 項結果
- ]" Q/ G, I9 J) z: h* B! ?& r"考覈" site:tw約有 7,560 項結果' }" ?( L3 \  M, K+ t

2 n& [! C$ Y) _! l! U, B& @' v# l8 ?"灶" site:tw約有 434,000 項結果
6 w* t3 O1 T: k9 ^6 w' j"竈" site:tw約有 24,800 項結果7 T2 @% j" G% s

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑 ! [: c' T0 Q- \% f& B' P

% P$ |$ ]( ^/ x9 Z; y我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。4 T; R4 `" _$ _
对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。2 ^1 p3 b4 U% [/ ^" H2 v! `

( J- J( E4 g% _1 a8 R上两张图:3 T; w* ?3 q, @- B

$ m  t! U# q0 Q有选项可以控制是否开启。; D/ Z0 o% x% ?4 U' w* O! ?9 ~
8 {7 ?/ f2 ~& ?( I
' j5 P" x1 [; Y
启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。
! y- i; k+ L2 N. |  ]2 ^+ t
" b+ r1 C0 r5 ^! u, g# B: H7 E6 a( [啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:54" Q2 {: S! P8 Q: L- ~
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.- _* Z2 Q! ^5 H! N" h) u" i

  O  _0 |$ E; l) b8 ^至於Opencc的转换语词 ...

" B# W, h' j" [. w5 n1 e除了google,还有别的资源:
- V9 ?* J9 j9 ^
2 L  f, W8 {* ?) i4 w0 vhttp://cloudtranslation.cc/corpus_tc.htm
5 p" V9 T( A- Q6 i" ]# O1 p3 a# f5 @2 C! F7 Q
https://www.moedict.tw/考覈6 K* q7 [5 t2 I$ T
2 @7 Y1 w1 J5 Y, d5 I( z' S  [
比如国语辞典就有考覈3 U+ s) `0 r* g9 B9 Z7 a

, D2 ?+ a' C: |5 R. I. p网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:569 m0 s% B+ f" T+ }( j! _# b
港台繁体区分,已经加上了。
3 k7 R. s1 s) r; P9 ~7 \) i
太好了, 谢谢楼主..4 \6 T% W. I' r
只是不知道如何才能有windows 版本…
% t% g( a  L, c3 q7 `; Q8 n* b: p8 q

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑 3 R8 }2 Q4 `2 ^, J7 G8 l/ E" P( n

! Z3 ]3 l3 ]. G. ^' s我又想起了一个新问题,不知道能不能实现。
; U% E! z4 Q8 Z) U0 \+ h0 K, K. T( X6 X, l- q* z
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。) D* ~$ b9 b; R6 p% m: w

( C+ X. o* s( Q, W) z0 F在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。% p0 o' E- z. k6 [

1 M# V; ?2 C: G+ h% Q: a( ^而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。
0 B# p) R+ T% q; A$ F9 T; S( I& n/ E' R, E/ ]; b8 o7 O
当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。
2 M; h. e. \3 W8 |
! N) V, a7 H  N0 W+ m2 o% N另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑
- Z' g  p+ ~) ]
cracode 发表于 2015-10-27 13:17! M4 r9 N" K3 a. z% R
已完成
1 A3 M0 A' r+ ^. ]" V3 k

$ n* l9 C, ]! `多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
  P- \- Y8 ^4 l9 ~4 Y$ Y
( e! ]8 B, \. @3 H' n7 ~我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
; ]( W$ s: V& w( L% p* K' x/ d已完成

$ N) `+ z6 g& o真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑 # d$ ?: h" }9 l% r: Q
klwo2 发表于 2015-10-21 08:44$ A! |" {0 X* a& m# Z7 N6 q! k) c
我又想起了一个新问题,不知道能不能实现。
% S) B- l  p, B2 }
/ h4 U9 W0 T( i可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...

$ e5 I. C2 Y' c- F+ b& J; M+ u8 c* }  G9 n6 Z
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
4 X4 z! l. T9 v2 t) N3 p' |" V) i. `6 v. ?% v( ?& P
当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:38
6 a& }! n4 n! V6 S2 ]. N多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?( g& S& o7 I) I- S
: K' ?1 u7 L# C# S
我在想, ...

  ]1 k, z8 }' [6 ~, P5 o% t  X分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑 / i0 e& z- d8 _/ y
cracode 发表于 2015-10-27 14:22
2 ~! \% U9 @# a分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。
8 O# s( h# b8 T% V# ?$ C% \* p6 Z
- Q8 m  W7 D& m! P0 B5 B
哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦$ v# I, _8 K, ~! ^
0 B+ P3 e* Z% E4 g& K8 V
再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了
$ I+ Q$ X) K3 ?0 U% q6 b7 U@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。" l' p( Y% z, U, {/ b' p
以及
6 A& j$ b7 L9 |7 x. t& Ybackground-image: url(foo.gif);( ]; l" T' f6 \1 j( J, K6 A
1 b5 _' U* @! Z7 S3 O7 i$ a
在路径前面拼上Goldendict的那一串随机字符应该就可以了
8 d( B1 F1 G( [) W9 `( j! l5 kfoo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif
9 C  z6 C4 j# b2 p
4 F( w- T, F1 U4 M& g可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28
    4 }2 f* x2 m- @4 L1 E) ~. u我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...
      [0 H' \& ]$ i: U
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..% N  j7 q) o% t, e
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..
    1 \) k0 \1 e- j2 K無須另外製作一個簡繁索引的mdx.9 r+ Z% d8 q( h' [" Y7 Y& v& \$ d
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35
    8 `$ P( X) Q4 z! s. |$ B這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    6 d' T% M9 m. c, l  @3 {4 R0 S; _也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...
    2 ^! R. C7 C5 P/ L. e+ R: w: P9 ~, A
    多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 18:05 , Processed in 0.059561 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表