掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7804|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑 # B) N8 n! z* q4 [  r: e3 b. c. ~  Q; c

+ s1 s- ]1 y/ v" S5 k先看下效果:0 _- @1 X+ T6 i3 t& _. K6 v
* e) b3 ]& P) G# m" M* b
. Q4 Q" a: n4 }) m- ]3 W
上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。
8 \- {" i- h' M3 L5 m. K- K已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。
5 P( t4 @' v! S# {5 B& U
, e% U1 X% Y  p; c7 E
2015.10.27' T0 j$ Y0 M+ l, H' Y
功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
/ b5 \, B1 X2 S' q' X, _

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~( V# y, @! |/ N- [  D8 x" C3 h
7 f7 }! `$ U; i( B; h6 n# S
如有需要, 我自己有整理超过上千笔简转繁的资料..
0 g, G& E7 P+ F3 `+ C类似opencc里”TWPhrasesName.txt”2 @0 x, C2 _% g- l

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18* [" u: q3 |0 v6 d. G7 z, P
感谢楼主的努力, 我可以协助测试Windows 的部分~  O, P8 }/ @* s2 t: X; g8 z
9 A5 m/ g3 A, v$ S/ B5 P$ K
如有需要, 我自己有整理超过上千笔简转繁的资料..

7 |8 k: b8 z1 V% N- E" V谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27, E# C5 u0 M, O2 C
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

4 c" x& E8 E! k" w这就抱歉了, 对于编程不太了解,
) ~( f$ `2 [. F2 {1 V& J我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..: f5 V0 U7 E, ~  |

; @! J! O" l7 u$ d在网站有看到您写的源码, 如果后续有机会的话,2 u+ f( V3 i( J
建议能将简转繁, Simplified to traditional Chinese conversion
+ H; o  d% G2 j/ Z: f( T: V" x改为TW / HK两组, s2tw.json & s2hk.json
, C' T' ~4 u  g* g4 k( k; X: k7 a因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字, - j& c: v$ [% {3 `( H3 s* S; }. w
有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈; @& |( o1 s" _+ n( \

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10
7 [8 `3 o0 {' |/ B5 D$ e/ P4 b这就抱歉了, 对于编程不太了解,
3 f* T5 L  R6 a+ y我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..

9 w; j" b: B$ u4 x这些繁体一点都不罕用啊,
$ A( r) n- P) ^8 F2 C- M- s8 G3 q2 K  N8 t% ^+ ^3 S
糉,粽子的粽% m2 J0 g1 w$ w4 o
覈,考核的核4 L0 T6 d* @. q  M& o8 H
竈,灶台的灶& B: y! `4 x& n- D! y  y
/ S+ }& m, x7 e3 F% N2 I8 ]
我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。
4 c5 Z! G# G- b5 v" C) B8 \9 y- u( k& g: |
像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。0 c, Z/ W3 v; y/ O, P$ T
5 L+ o& W- A7 r/ `0 }! ?
现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果, m; a5 x! [4 f' h0 X
" B' s) s5 O9 V, ^0 \

% b9 {* `. u/ `; T9 ~如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑 * R+ U' S2 ?) U5 }. D: R
klwo2 发表于 2015-10-20 09:40
8 J: H  R5 I# Z; \% G这些繁体一点都不罕用啊,
8 c- c* x- G# C$ }& I9 L6 T8 O+ X& c$ g$ H! m! R$ n# C2 f: w
糉,粽子的粽
; t& ?' F) h  G( f- j& p

/ h8 s6 c% {  c% o! \"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
" G- @" d3 H% e+ `' t1 u7 Y
4 [9 r; i& o% D0 N8 I* T' c9 X至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..
9 W) t+ [/ d' K  \
- `' h9 M7 z& l8 k**************** ]5 k* y& V) l0 n
9 U) D' v8 \! k" w+ Z/ A+ U' V
在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频: % T4 t4 ?$ i( p1 B$ a8 z( l
6 G& y/ _2 o0 \. G  t
因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..9 k4 \6 W4 ~- J. E  k8 l0 f+ Y
% R8 W& B: ~, d% {0 Z  E% T
"粽子" site:tw約有 574,000 項結果
  S+ J0 J9 g1 c7 ~) o" }"糉子" site:tw約有 2,540 項結果
2 `) T+ H+ N/ `9 {$ w2 U, j* E" m  z2 K7 R7 y: I
"考核" site:tw約有 681,000 項結果9 l* e* o+ i. o( z2 t4 a) L- l
"考覈" site:tw約有 7,560 項結果; @; [% s7 u; Z( S$ z

' _3 {- j7 W6 y5 r"灶" site:tw約有 434,000 項結果
: f/ Q# n$ \' U' o! X. u; _"竈" site:tw約有 24,800 項結果% Z0 [; l# i% r( X& G- _0 V  v

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑 4 ^; ~# o/ a; B# e; z  Y  Z9 ]

; W3 X1 u( E2 P( d8 w; H7 _2 H/ Z我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。
& s6 z, s7 T2 ~' m% E对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。2 C1 F8 k4 r8 M' t6 |; |

$ t. a5 p- q5 N9 q& \5 y上两张图:+ L$ R, Q( H+ @- N; A0 w5 ^' G/ Q

* f: i1 ~* j) c* u. ^0 f7 U有选项可以控制是否开启。: k! N/ X$ d: U+ V" k! `) K

& B7 t. f4 n& q7 B* p- w' {: H. A% D! f# ~& Q2 Z: s3 x! ?# Y
启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。2 q- g# t9 h9 S7 ]

' d7 s- r" q; Q. Q啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:54& U* ]- y( \) @! c9 W7 H/ E# |1 T
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.2 z4 S3 g2 j' \0 j

/ `# T$ G, e: n: i6 U9 K& M% ^4 b至於Opencc的转换语词 ...
$ Q7 G+ G- u+ {/ e6 N
除了google,还有别的资源:6 a  q; W0 r/ }3 r# j8 ~

, s# N0 @5 S: x6 q1 f9 l+ V' w$ b0 Nhttp://cloudtranslation.cc/corpus_tc.htm% o& n* m& t, y9 L$ c
" k" X% U0 f$ V" _7 s, w
https://www.moedict.tw/考覈7 B1 {. j4 h0 j$ `6 c

3 l7 d+ p) f3 C% [9 B2 M. I比如国语辞典就有考覈
- o$ T( H4 ^' T
$ t- z" N& ?" h' H% r) d7 w, V4 S网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:569 P  x' r6 T5 T- o& a  r1 H2 e* O
港台繁体区分,已经加上了。
7 s+ Q3 S  ]2 V; o8 l, z3 M
太好了, 谢谢楼主..
, [# C5 H% B0 z! b3 K/ F% ~. F  Y只是不知道如何才能有windows 版本…
; ~! U9 y+ W9 j; ~5 c

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑
  c. ?3 @9 c# y: J1 k# d0 Q: ~4 s* P6 W
我又想起了一个新问题,不知道能不能实现。5 A0 }8 f$ ?" g9 }! i' g2 Q0 Q
0 x7 t6 U5 y" o) N! R
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。
- e' U( K7 B+ [7 c2 G) L& U' i4 M7 n. m" O8 |1 W6 ?6 ^
在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。
; V5 X3 f( O! \, `! B* [' H
8 ?9 q( c+ F1 M而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。% _" t! Q6 a9 i1 \" k
- K# g8 e5 n' {$ G1 C( U, j- j  U
当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。3 [5 [4 z) i& G' z" `. F
0 |1 Z3 A8 K- c" `
另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑 4 d4 p4 Z. K. l# g1 v0 F5 p4 a4 }% q
cracode 发表于 2015-10-27 13:17. J- k. h2 Z2 J+ {/ I# }) ^
已完成

1 ^# s2 I1 m4 v
0 M4 t# C8 `. w多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?! I9 t- J: ]! @( {7 f

; i6 |, l$ E1 U  j. R0 x我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
5 J- F2 P3 K2 |# K7 ^  h3 b) S已完成

6 f% s  u6 @# P真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑
5 z0 c# Y6 g, S  U" f( M
klwo2 发表于 2015-10-21 08:44
, R2 Y6 D$ V) c6 `我又想起了一个新问题,不知道能不能实现。
5 v9 K2 b; s  H) @0 @& S9 o: G/ O+ [: i
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...
% [7 w' \, ^# p  }9 p/ V/ p3 M1 ~
; P, Q, H# o- X$ C! I* P4 t* h
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。2 h: x, v1 S/ Q& m2 s

5 U' M  m3 C& B8 a! P当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:38
; w9 ]( M7 q3 a/ \多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
  N' }+ G' j9 G& L+ U. o* G+ m, t$ y+ l& C
我在想, ...
2 {3 U; d0 ]4 j- M
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑
; b; {, p3 ]' P2 d3 w
cracode 发表于 2015-10-27 14:227 W: |1 k0 \/ y7 k/ |% V
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。
# Q8 S( o3 j$ \5 R

$ _2 k* p, y/ W" G& l哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦2 H1 R) l0 f) G1 m7 m

: X: y  J3 w0 k, Z再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了( m4 W$ F( t$ y
@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。
9 t( z% [6 x- K& f; ~以及
" z1 C4 H( H! q9 K- X! V) {background-image: url(foo.gif);( @) V4 r, k8 h: C: Z' ~
1 x7 C( y3 p2 v
在路径前面拼上Goldendict的那一串随机字符应该就可以了
! |3 {- O8 f$ d  \# P4 yfoo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif  B+ [, N8 g* P* K$ y
0 \: }5 \+ y7 C0 m1 \( r. j0 x
可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28- V8 x' d* w0 N& r4 _
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...
    8 N- b6 Z% L; I# n* s" |
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    - r6 e1 A# |& F4 b; s1 K也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..
    . I- c# Y0 G4 Q. A$ P) i無須另外製作一個簡繁索引的mdx.+ V' G& X' l! j' a) l5 _  _* X
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35# l0 k# |' F* @/ ~! t: h
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..! d3 y7 W% j3 @3 I  Z& s5 z
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...

    9 V6 H( m: U* i. [  T: a多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-19 13:45 , Processed in 0.023002 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表