掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1094|回复: 2

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

发表于 2017-9-2 14:32:30 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑 * i2 s; [, M; d( o  T- s
# ?7 ^7 B# Y# v  w# y- O
CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。  v8 J4 b" @' X" ?& K4 h
/ @9 w5 K' O7 _$ H1 o: A
这导致了字头关系十分混乱,
' x; {" D1 j& ~( L# d- i; l: J6 e
& n  q" f' t  b6 [3 M" q/ Z6 W, Q( z" X
" z( e. q8 D, _6 [
正常的关系应该如下:
4 @2 B' J, b  `1 Z* }4 b- v: s$ D" j  E

/ _2 i% z* ~0 t) W" V3 A# P9 H/ z6 s% o
而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,/ g# k. k  W' R( j. |
: V( e: Q( ~0 ^$ c" Z
* @1 e+ n( i6 K5 e5 U7 u* D

# z: |% Q, j8 d0 E* Y2 C但是,阉割版就完全见不到这里面的讲究了。
; ~) `' ]% f, [3 ?2 C4 F8 K8 D7 y+ z2 ^% k( ]1 [

6 b: U2 }1 w6 b9 ~
) J! ^4 h0 [" P3 x; b/ v* J7 W# t所以提醒大家,使用时要多加留意。
3 @4 K) I! L% O' L3 P/ |; P6 S6 b( F9 e/ D, R& D) u  ?3 n
# q( O7 v9 F! L# I* |

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-9-2 15:35:22 | 显示全部楼层
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-9-24 18:33:09 | 显示全部楼层
    最好還是保留原汁原味的字典數據製作...。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 04:11 , Processed in 0.021497 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表