掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6860|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑 ( F& d$ [9 Z% C. V

! o& f; D' v& u+ X1 t先看下效果:
% U- X2 V5 ]$ Z, [
* ^7 e6 i2 o3 `+ i$ @1 {( K# H' @: i( p( t
上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。* x7 r6 M8 b( i( R1 r2 p4 u, S
已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。
3 ]8 d# D( d, G7 v
# n" k" |% p* @: x: h5 z
2015.10.27+ n3 |& i" |  ^5 t
功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
; d. g! s5 z4 B, E5 k4 ?

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~
$ W  |& G0 g  v, x8 k3 u9 f" Z1 u$ g% V% |: k/ t, w( C
如有需要, 我自己有整理超过上千笔简转繁的资料..( m% e8 _8 k. _% Z  V, E
类似opencc里”TWPhrasesName.txt”
/ p. [# ?7 b8 i& f/ q# Y8 p$ K

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18' G4 j$ P4 D$ u+ ?# l
感谢楼主的努力, 我可以协助测试Windows 的部分~+ l* |, y4 A9 m  Z
+ Y4 g$ C2 q) [6 p6 u. W: M
如有需要, 我自己有整理超过上千笔简转繁的资料..

6 z4 }+ x; E" r& w0 X# u谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27/ H9 q9 b# _% T
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

) R3 H8 x7 {" `$ w+ m. O% Z) t" D2 P这就抱歉了, 对于编程不太了解,
) N9 ^- Y9 R5 z5 F- V1 ~6 k我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
( q3 W; d* q1 ]8 K) q2 v. K
; {: X& D, H! \在网站有看到您写的源码, 如果后续有机会的话,
( D, r- Y6 H$ g+ @  T" L5 J9 Y建议能将简转繁, Simplified to traditional Chinese conversion # z* Z! q7 l& Q0 _3 l
改为TW / HK两组, s2tw.json & s2hk.json
9 A' O7 \$ i8 v' F2 a/ `, }# l  o( u因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字, ' J4 t3 Y  L* ~5 M: ]
有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈; i4 `- |- O: v1 t& t, M

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10, v9 k$ Y! `; }& {! b
这就抱歉了, 对于编程不太了解, * \' r, p* u0 Q  a( L4 d7 ]
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
+ C5 O6 X/ X) U; U% Y7 u( i+ a" K
这些繁体一点都不罕用啊,- y' C$ i' R% O% ~- ]% G& I
' S' S. ?8 O4 f: G# X* d
糉,粽子的粽
3 h+ @  P3 @+ U; c' o. m覈,考核的核1 w& W+ y; u$ y% p
竈,灶台的灶' O( Y3 ]2 {6 a2 C! X# a( Y

2 p0 j  a5 C5 S+ ^, n我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。2 Q: i5 i. \+ |! N- \, W

* U+ A0 p$ Q. n: F8 b5 y像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。0 z; `2 h# y! c7 L' z1 O# e
$ q+ O5 _3 n8 I: J
现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果( @: i# z/ v. ?8 e

4 S) h) d2 w2 o) k$ g
* u: r, S# `4 X7 m% M. ?% M) N( a如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑 / v9 z( n" k1 {- w
klwo2 发表于 2015-10-20 09:40
' @+ Q; m( k" Y. r$ f+ j5 b4 b; I这些繁体一点都不罕用啊,. ?1 C0 y% T5 d4 P. F$ Q1 b! T7 C
7 W& ~4 j) D: v$ j# Z) ^
糉,粽子的粽

! o6 s5 @: }2 I
+ r, l$ r- F5 S"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
9 m0 D/ ?# o. c0 R# r
2 l- M1 v: }5 K! I6 E至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..: q' i# z' m8 ?3 }) @
  ~4 G7 \/ Y0 S- V0 z
***************; ]0 e6 N/ T) P. @4 c
6 Q. ?0 T6 d  D' B% V$ S8 e0 |2 l; t
在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频: - x3 @, C/ Z. o. w4 F2 e

# e8 L1 ^: _% {" q1 ~因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成../ v9 u9 K# P5 }0 q) h

6 t: p9 Q5 V. R9 l- G; u8 T5 E9 ]"粽子" site:tw約有 574,000 項結果 ) Y( y- P* }  \3 Y2 H! t
"糉子" site:tw約有 2,540 項結果
* G" `& a$ e, E9 x, Q5 J
) R' K; f" \( M% o"考核" site:tw約有 681,000 項結果
8 j2 z) \* Y+ _"考覈" site:tw約有 7,560 項結果* p" O' I1 Y$ Y- X

# P6 K& Z1 ]$ V& P" o& H& z+ V& ^"灶" site:tw約有 434,000 項結果2 l- q9 F( V. z& `/ u. J. P* u0 ]7 u
"竈" site:tw約有 24,800 項結果: q7 R5 N5 E' |. ?& ?

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑
% f: `8 x2 o+ R5 @3 o8 D, C& W. p" |/ A+ J! Z
我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。/ q" o* ~: p% h3 M0 S
对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。, f- @% a9 s7 o7 H

. E: J  p# k3 K/ S7 e8 A0 k上两张图:: o0 y# E8 a, @
! G& \3 B' d! _4 w( E, t) Z) u
有选项可以控制是否开启。4 y& O8 |/ \/ s) p

" u( n' t. M( L- ~5 T% p
) ]0 |+ a* e1 g* P; E, \+ _启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。
6 y: j& w6 L* M
! \" P: a3 H6 U* }0 w5 k2 X- C啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:541 E2 s. l" o* k7 n( @
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.: l9 x( I" y5 t9 {( B3 W) \
/ s3 v2 k6 D" M- m5 H
至於Opencc的转换语词 ...

3 e7 X0 q% x2 b: w0 D/ B+ i7 i除了google,还有别的资源:9 H2 K- z4 o5 ^! Y
/ t+ D8 }1 c' Z$ `8 K+ Z6 |; M
http://cloudtranslation.cc/corpus_tc.htm6 x* O6 z" L' C. ]. @
4 G! k! d7 V9 v
https://www.moedict.tw/考覈9 X  `6 W) T7 Y$ G, W- ~2 W
2 ]' P& Y: R% ^0 v7 D8 C9 V1 `
比如国语辞典就有考覈* C+ f2 |/ k- W1 |. x
' X. m' m5 N6 J# p
网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:56/ g' C3 ]# {7 P: s$ F( I9 S
港台繁体区分,已经加上了。

; }( _$ Y2 ]: W1 `3 w太好了, 谢谢楼主..9 X6 M! c, S! ?8 w
只是不知道如何才能有windows 版本…
2 _9 K( ~& `! j" o' Y8 l

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑
) o# b$ r+ ]' _  c- Z0 l' @' E" @, q3 \% l$ u$ h
我又想起了一个新问题,不知道能不能实现。9 e8 A' [, y4 O5 H7 w  L
9 f( K3 z- P$ v  _! _6 y) {
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。2 ?, P$ |7 E: g3 Y! j" J

% X7 e; F4 l7 B- q- h' S, I9 J在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。/ k; [' i0 g: E. _

+ A9 \7 i. ~: H" a' {; d( w而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。: A2 t: l: Y& p
; X  G! A9 p' `3 ]- _
当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。
# N! r9 @5 s/ L# q  A2 P) l' C) N, J  _/ d  X
另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑
" c+ z* @* b1 N* j6 ?5 {
cracode 发表于 2015-10-27 13:171 I9 X2 y2 f# Q2 x" ]3 I" \
已完成

& |  S/ M. h& i2 t2 V( H- Y: S2 b  r$ K$ b! \
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?/ o7 Y1 _' a- D; |$ b8 ]# [7 g- x
4 B- [2 R4 J8 X0 b$ [" H$ o
我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
. `, a6 p$ j: F& R; l! A已完成

% ^% i3 l/ ?) W/ d4 N7 R% E& b真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑
- }, J$ W; @- D% L
klwo2 发表于 2015-10-21 08:44
2 m* i7 [, B% ~' @: o我又想起了一个新问题,不知道能不能实现。' l8 u. L  A: [1 A; b: ]  M+ V6 @+ P

( R4 u3 ~7 M% H4 V  A2 C6 t# z可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...

6 s  o1 n+ b" y- C9 H$ Z; r# M
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
+ L  [" E" y0 v
) Z3 W6 t% ?9 G7 a- c当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:382 F7 _+ u) l3 e; K2 J3 _
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
+ J, S, P: a' R# u8 G. ]4 n* s  F. A  X# J  w; P! u/ `  F6 R
我在想, ...
- Z1 S; n- `0 o2 ?4 w  H
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑
. d; _) F% F$ _. w  z+ J
cracode 发表于 2015-10-27 14:22
0 n& a4 E% A# Y( v! B分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

, d" H0 F7 |1 N) z) \% X0 }
6 m4 a8 y# C: H/ f4 L哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦( a* q9 @7 l8 g0 n3 h

, f8 r- O4 ~$ C& ^1 Y0 J! H再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了
2 r$ A7 R8 z5 [8 j2 u6 V@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。% U2 h( ^/ r2 P- s2 I
以及% t2 ]0 w. g" W5 N  y
background-image: url(foo.gif);
2 y) `! ?, I2 ~8 @
% l; p) N) y+ \4 P6 H在路径前面拼上Goldendict的那一串随机字符应该就可以了
$ v( f/ h2 y/ S: gfoo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif8 M( U, ~9 v0 ^: Y8 t$ |

$ |' [3 u) s) M# G. k/ G可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28/ Z* l$ j$ ?$ N
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...

    , ~/ z5 e! N: n! u& ^8 f0 u1 F$ o這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..- o6 `& ^* z  m, J1 @- I2 y
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..
    9 k& D9 g! G9 P無須另外製作一個簡繁索引的mdx.
    6 O4 \: a# j& M" ?( ^+ w
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35
    3 m1 K  e6 R" l6 ?這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    : [8 C# }3 Z/ K5 O; l7 N也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...
    6 \% [* ?; z: z* Z+ c
    多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 19:52 , Processed in 0.046322 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表