掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7872|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑 $ q6 T. x0 Y. u$ ?9 i& B& M/ u

6 q  u/ t7 h4 \先看下效果:
! H0 ~' i7 Q8 {; p- O, [3 j4 A1 B& G' F4 ~1 d; J  }
2 I1 l0 A/ M% {, Z* z
上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。1 T, {1 n, [) Z2 n) V
已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。

2 Y! F* m, A# q! Y2 m7 ~2 X) M4 O# H6 D& x! W: G
2015.10.27
# B& s3 K& B, s8 S( p  \% `功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
3 {! G9 x" R! R2 D

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~5 C- a3 F0 v9 x* `

, F/ ]2 _6 E! ^& Y1 d如有需要, 我自己有整理超过上千笔简转繁的资料..
/ c. r# x0 O( B4 \- G类似opencc里”TWPhrasesName.txt”3 p- D: I1 |  @' h* |4 h

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18: f- T  p  F7 b4 n' L8 u5 X
感谢楼主的努力, 我可以协助测试Windows 的部分~
" A0 S2 p0 B! f9 Y- q% L& J* a$ E* f" G$ K! J9 |! I: ?& x
如有需要, 我自己有整理超过上千笔简转繁的资料..
  f+ _$ a" G9 m1 ^/ r9 P
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27
6 K7 K* `0 F" h' C3 {1 n谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

* B0 p  R- i! @这就抱歉了, 对于编程不太了解,
1 h- \! _  I) u9 Q, F0 v我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
# O2 l& y1 @9 p  n9 A: ^# A- d  V$ E4 {) d2 ?, }7 p" S+ x
在网站有看到您写的源码, 如果后续有机会的话,
$ |9 }9 R& p! m* ]8 m  \建议能将简转繁, Simplified to traditional Chinese conversion % ~2 c: @4 r4 H% q: e' j9 u( \8 O
改为TW / HK两组, s2tw.json & s2hk.json
% j6 e0 x/ i3 W6 ~7 H1 N4 q- w因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字,
) ~9 B/ k. Q8 h- W5 |3 B有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈
' Y; G1 ]- }% I+ s0 K% H

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10
+ ^; ^. F( f1 W6 @% A8 o这就抱歉了, 对于编程不太了解,
2 m8 Q1 w* s1 A* {) s6 {0 f我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
. Q; \/ Y. F: r5 z( |
这些繁体一点都不罕用啊,7 |( q: M1 y! U( F4 W) V: W

) P. a7 U+ h: \) Q  v4 c1 L! l: z7 h. l糉,粽子的粽% B4 t: a% Q1 D6 N" k
覈,考核的核
9 g& f) P7 w/ I1 @6 {4 E# \8 q# u$ M" Q竈,灶台的灶
6 L9 y: H# N4 z$ i  \; E# Y
6 K$ F) L! s2 ^, }) D# @我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。* E! O/ D/ J: I6 z
! {8 x3 \8 }. A- M+ D, Z+ \$ u
像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。7 _; ?; F3 S- G% I& T# I+ F
' n' z7 Q4 u- R0 a6 R$ t: Y7 q
现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果( Y7 V- N) d' v1 R

; N+ ~3 N( ?! `$ L, u# X( a. @
# I3 C9 r( H+ [1 F+ `0 Q0 N如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑
- J, V' b3 c8 o4 V( q% |7 e
klwo2 发表于 2015-10-20 09:40& f6 m& N5 c# W8 m- ]6 z
这些繁体一点都不罕用啊,
5 V2 J) K% V. D$ K: j1 Y9 r# I
' V' ~4 {( I6 @8 i2 A糉,粽子的粽

. g! t3 s4 K) L7 F8 z5 l% E  i  J
8 ^9 @9 c# N" c; m; J7 l+ t"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
" [3 K7 t& m: R1 i0 \" V" S$ T% D$ k+ i4 ?
至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..  ]! U7 s" F. u( z6 k

- P" i3 R  Q* H' i0 \***************7 Z3 @7 A. f  I0 I7 w6 c, h* U) w

  }: T' g% K' R7 ?1 T1 U在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频:
+ Y7 u- k5 B5 g$ _7 i! t& D
8 m" ^* i8 L- ~9 L8 i因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..
( n+ _! |9 B% D$ l) H5 ?  t- G& I. ]* }' ?% D/ u- j9 ^
"粽子" site:tw約有 574,000 項結果
" B! U3 O' q. Z& e" m2 J"糉子" site:tw約有 2,540 項結果
, }5 Y1 b  r$ [. @8 j2 v2 `& I& Y4 ~
; q1 C+ A4 v5 g. D"考核" site:tw約有 681,000 項結果( }, q* f+ B/ ^3 m8 H  i
"考覈" site:tw約有 7,560 項結果
) i/ P+ S/ m/ X& K: V2 a" `" q' @- M- p. F+ P4 S+ ~
"灶" site:tw約有 434,000 項結果
+ e; f  U/ }: ?4 ]" `" a" Y! J2 o"竈" site:tw約有 24,800 項結果
% L+ s+ h& p# w

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑
8 {& y! i, G9 Z# ?9 K8 k' d! I$ G; z: e3 [5 L
我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。5 @: f% A: m' `( a5 n
对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。+ b) O; \/ k' Z9 \0 z
+ ?% A' L2 c( k, |+ O
上两张图:  K: y% R. t8 L- V
+ C* J9 w7 P* k3 G& Y2 Y
有选项可以控制是否开启。( D, `2 @/ e+ ]  Z2 L5 \

& I% O7 r8 z9 W5 K" J# n7 x8 T) ?- r6 H7 D
启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。- i) T6 J: ~& J  f8 w! j

9 O/ {; q. s* J7 w2 E( q啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:54+ o) a. I) n" X  {6 S; ]$ @
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
' U7 k5 L9 x  c# j5 D, w
' }% t' D% f$ y8 }) F至於Opencc的转换语词 ...
" ~+ T& K2 w( U& I- N; f
除了google,还有别的资源:
+ \, _+ k4 P2 k" G/ b
6 P. M' m( o' w. g3 Y: Jhttp://cloudtranslation.cc/corpus_tc.htm
6 e. H) ]! f/ Z/ H9 K3 e2 ^& Z
( d% V  H) |5 V& [  {8 x. phttps://www.moedict.tw/考覈& P) }0 O& y- u, O4 i% O- D3 N+ u

/ f3 y* ], a+ _: D# I( h. [3 m0 q比如国语辞典就有考覈8 I; ^9 ~: u  Q: g' s
) S3 {; \2 ?0 ?; n2 ]; W4 d* F
网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:56) U0 c- j  k. o5 v, w# E- ~/ e: a
港台繁体区分,已经加上了。
; _8 e4 V9 c% K+ o* t/ n
太好了, 谢谢楼主..
# Q1 l. {7 D# Q" n2 r只是不知道如何才能有windows 版本…/ u9 p" s6 F! ~. I4 X% s1 Z  J

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑
2 h1 |! i) @; o- ~9 @, J- X; Y% R" x& R
我又想起了一个新问题,不知道能不能实现。
* S4 b0 l, I2 e& a) M8 [
7 s* v& E& W# K2 o可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。
- n* q# q3 ?: A  j4 M8 ?* h" n! Q3 f: a0 P6 v% z  |$ Q
在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。* @- ^( Y9 C4 u( ]
6 ?& N6 @. Y3 g0 P% W3 t7 E
而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。0 A8 ^% H4 [% H- c

, f+ Q- h& F, _- g6 C当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。
1 B  g( ~# H# A: v; x
6 Y# B# B4 D8 [- o% r  W另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑 6 o- D7 `! |- ]. `& s
cracode 发表于 2015-10-27 13:17. A0 T8 `( T* q: Y! u
已完成
2 X- Q9 N- c. s  Z% i* b' h
  x! a8 \$ [$ ^
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?4 J0 w' y" X. J8 H; f7 q+ q
' w2 |2 }' s7 c0 ^2 r1 s# k$ O& @
我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
+ s0 l, t% e) o  D已完成

! \3 J% R0 ]* Z8 P. t5 w真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑
: D* W+ O5 H; p- D3 n* a
klwo2 发表于 2015-10-21 08:44" |! U, u8 q5 {1 ]
我又想起了一个新问题,不知道能不能实现。  Z4 g- _' v7 I7 R

+ c& Y/ m" h0 }1 n; E! @可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...

5 z$ g1 H$ i# X) q
" A+ |# u4 z3 w  Q# p4 X$ Z9 j0 \简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
2 o; y  b1 c, k! I8 z3 u! l% ?( K1 \+ l1 @9 H
当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:38  g6 F4 b" z3 C
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?0 |3 H4 m! V* m. e( l$ b9 h

; j8 t" W! p7 z+ P5 t我在想, ...
: t( z" V5 n) @. B$ i/ M: p  f
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑 5 V5 P6 g/ W4 y" A
cracode 发表于 2015-10-27 14:22
, c  w2 ]" J6 ^9 O: N分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

: W9 ?/ J. ~) j/ \& W5 M2 b) O: r/ K0 o# H; k: t
哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦: y" x1 c1 t, d" H0 L

+ ~$ S9 x$ s3 r7 h: c. ?再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了" \! `* k4 J/ _7 T
@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。( k9 O$ ?8 ^- t- y5 ?0 L
以及! t6 K  B' q8 b
background-image: url(foo.gif);
4 z& b5 j- V/ b) k9 R3 e/ L5 a
2 G$ z$ S; D# @/ P' V在路径前面拼上Goldendict的那一串随机字符应该就可以了
1 j. d1 s4 B; [foo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif* m! `4 F" O! m0 j7 s) f

0 x( w+ w, V% ^1 n9 M可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:282 i' o# k1 N5 D
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...

    " E7 k: v% |) J, Q& G這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    ) b4 f8 ^3 L5 X5 X也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..( H7 ?/ {- \9 g2 x3 _
    無須另外製作一個簡繁索引的mdx.6 i6 u. R, ]0 K( @0 z; ^2 C
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35
    : p0 o0 L1 g  v這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..# h: c+ b/ t4 Z* ^. ?
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...

    / z! T( Y/ M% B8 C& V! W多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-10 07:42 , Processed in 0.025678 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表