掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 863|回复: 2

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

发表于 2017-9-2 14:32:30 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑
5 q; |! c: o" p2 K; p! w7 @, r" Y! I* D' A& V
CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。
; _' f8 W; e) A* s8 Y! M" |0 t& m6 k1 n) k. {: f# j
这导致了字头关系十分混乱,
5 S' ]5 I3 y) b) r8 w8 H9 t3 o! N3 z$ A, {( t8 X

  n+ I  V' q2 h# C4 e" b: y* V/ a0 M: o
正常的关系应该如下:
# B: `; p! H( B9 F
$ d# K, k3 u( }
1 ?$ D# l6 y, B& Z0 J: A% F$ p# h/ `  L" P! W# [* h
而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,% N! ?) R- l6 z; @" Y9 p

) C$ C9 ]4 L! G) `% S$ M
. u# Y, M1 c' O2 b* k- V& ^6 y2 \- W1 L% _$ t1 p- ?) I, X
但是,阉割版就完全见不到这里面的讲究了。5 O( v$ P  K! P) G. P( K
5 J. e: @0 H6 `* v0 t
6 ?8 s& j: z( h
" o1 e8 W; J& N7 r) q
所以提醒大家,使用时要多加留意。4 P* }* q. o! ~! J& [9 y) C
  C0 g* y) K+ n( T' ?- O+ H- R9 |( P
$ [& j! ^/ E% [$ A9 c/ o; ^9 B+ {

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-9-2 15:35:22 | 显示全部楼层
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-9-24 18:33:09 | 显示全部楼层
    最好還是保留原汁原味的字典數據製作...。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-3 22:46 , Processed in 0.043215 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表