掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 860|回复: 2

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

发表于 2017-9-2 14:32:30 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑 ; s# C* j0 y$ f1 B! ?6 t. N  H1 p

' n  x5 N& A( E  o6 p2 hCC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。
# t. I) \6 g3 I# A6 `
) s& n' y' q# t% ^这导致了字头关系十分混乱,( [& s% E, C( m7 n& \9 W/ X
: \; N, s7 e: Q5 E* f

. C' m! c$ [, P9 x! O' C0 S: n# s* d; D4 c& _; Y7 S2 m
正常的关系应该如下:- G1 g3 m( e' n; z$ u

* i- t' `+ B; B3 {. D- C' L! F% a/ v

. N- I; ^6 U8 k8 D而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,$ k# z1 h7 Z2 i6 I+ u+ A* f- ]/ U# {

7 r; @: C& G5 `' b9 @% T! e- U$ ~3 H
' W, b) d* v$ w! l: d
但是,阉割版就完全见不到这里面的讲究了。
/ Q8 r0 ]: U7 c4 W  M  v$ T( R8 P# m
6 ]2 |$ I+ _8 l) H. ^, B

; M! ?; P0 v2 I所以提醒大家,使用时要多加留意。
% `) ?4 S( T! U* c  k2 @+ }6 W* g

% X6 U: T. _, t. a5 z6 q$ _

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-9-2 15:35:22 | 显示全部楼层
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-9-24 18:33:09 | 显示全部楼层
    最好還是保留原汁原味的字典數據製作...。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 10:19 , Processed in 0.036568 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表