掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 11585|回复: 30

[词典求助] 为什么 tsiank 版比 bt4baidu 版词条数多?

[复制链接]

该用户从未签到

发表于 2015-9-17 07:34:39 | 显示全部楼层 |阅读模式

* h3 h5 O" w5 k: _9 ]  o2 Y; T' m; N首先要感谢 tsiank 和 bt4baidu 两位的精彩作品。
$ b3 G5 F0 h; z这里 https://pdawiki.com/forum/forum. ... &fromuid=147948
- T: m) @  L& A( L  W坛友提到5 h0 l, D1 A$ x0 P' \( F- @
这个dictionary和thesaurus的词条数加起来为什么只有12万多?我对比了tsiank基于premium的移动版制作的dictionary,光这个dictionary就有15万多,那个thesaurus有4万多。

: l  u* P# w4 J$ M7 B. o% h我也好奇地研究了下。
2 A$ [- e. r" i- S( u2 F[数据来自 http://www.merriam-webster.com/ 2015] bt4baidu [英-英] 【合集】MərrïamーWeßstër's Super Deluxe Bundle, 2015 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=141388 z: q3 k( ^1 K. Q  t8 A+ n
[数据来自 Android APP ] tsiank [英-英] [0520updated]ODE2015 and MW2014 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13665 [Merriam-Webster's Collegiate Dictionary and theasaurus 2014 based on M-W-Dictionary-Premium v.3.1.1.apk]
1 A8 h5 L. x: X3 g: @% p/ {0 y4 QDictionary + Thesaurus
  y: d- @7 P- c5 S% Q* U, atsiank 版 keywords 数目去重后是 155607 。: t: m9 c. x. G' s' n. D5 R
bt4baidu 版  keywords 数目去重后是 120417 。
! d: C" y: c: ]6 M7 ^5 }( U0 c% v0 x3 Y$ v2 i
原因其实很简单,tsiank 版本提取自 APP ,keywords 包含了构词法,比如单复数、比较级、过去式完成时等,还有特殊字符转为一般字符方便查询的情况。
# {! h7 p! W/ L7 p4 tbt4baidu 版本则来自在线版本,keywords 来自 http://www.merriam-webster.com/browse/dictionary/a.htm ,并没有包含上述各类变形情况。% _/ y6 k2 R$ N+ P
比如,查 books 、 booked , tsiank 版给出 book 的内容,而 bt4baidu 版则没有结果。* r  U9 q8 a4 W, T0 @
但是,查 cowy、 crampy , tsiank 版则没有结果, bt4baidu 版给出 cow、cramp 条。' O3 A. z$ O2 W% e) @2 ~
也就是说, bt4baidu 的词头索引 keywords 是包含了 derivatives 但没有包含 inflections ,而 tsiank 版包含了 inflections 却没有包含 derivatives 。3 y" f0 M" f7 A6 M2 b/ |) E
附上 keywords 。1 L; _, e. w. V! m2 i

5 a- I. Q6 z( {- w$ ^: X. U

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2015-9-17 09:25:04 | 显示全部楼层
大韦合并不同词性后,真实词条数是91224,提取28000多Link后达到12万
$ V' d: ?$ `+ A# b- D根据本人制作一系列词典时的统计数据:! e8 L: D, Y* \/ a' I) v
现代英语,不算各种变形、派生,也不算专业词汇,单词数为9~10万,如果再去掉地名、人名、百科等专有词汇,大约8万上下。主流的大学级别词典MWC、AHD、WNWCD、ODE等都是这个水平
0 r, w/ }0 J! z$ Y$ ?4 M7 C超过这个数的,多出来的部分基本上都是用单复数、派生词、词组搭配等充数的4 G" _* D3 i% A& g
这8万词里面,最经常用到的不超过4万,也就是advanced leaner's词典的水平。这部分词最核心,变形、派生也最多,所以主流高阶词典大体上都是6万左右的词头=4万左右的原词+2万多变形、派生
! H/ T5 X9 z9 G& u
) K- a% u$ D! q* v8 U可以说,非专业文章里出现的词汇,包括Time这样以用词艰深闻名的,一部advanced leaner词典就可以覆盖九成以上,不信可以拿朗文5试一试
& n: z; A2 |7 \. n7 H6 Y  m# ?3 k( Q0 [; Z
足本词典,动辄20万、30万,收了很多“之乎者也”式的古词,最近50年出版的所有报章书籍加起来可能也出现不了几次' E7 ^3 _% z, F( v  n- u
- A5 i  g5 s4 ^
词典编纂这行,尤其是英文词典,现在已经进化得很科技了,每家都有巨大的语料库,完全不用担心“漏词/不够用”+ N1 D6 V; I, C7 _! B

该用户从未签到

发表于 2017-1-19 00:09:13 | 显示全部楼层
bt4baidu 发表于 2015-9-17 09:251 v# d3 _6 F. u6 r" ?2 s& l; a
大韦合并不同词性后,真实词条数是91224,提取28000多Link后达到12万
" b2 Q! m4 p" O* w# d1 Y根据本人制作一系列词典时的统计数据 ...
- T0 m1 X9 x8 g+ q
竟然现在才看到15年留言。。恨晚。。想请教词汇量从25k(testyourvocab上测的)提升到4w有什么好的途径吗?目前不排斥背词汇书(之前背过gre词汇的福荫吧。。。),虽不知能否行动并坚持下来。。还是只能靠阅读?6 h/ i9 _/ q; \" j  m3 F) U
个人背词儿的动力可能就是来自阅读时无生词的畅快&以及偶有的能显摆时的别人那小惊讶的神情——我去这么牛这都认识:)有些低趣味,但渴望成长哈~" x7 N% j$ I" `; H8 @
望回复。

该用户从未签到

发表于 2015-9-17 08:15:43 | 显示全部楼层
研究有深度、有厚度、有速度。
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-9-17 08:23:12 | 显示全部楼层
    O大果然细心
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-9-17 08:31:45 | 显示全部楼层
    不知道bt4baidu版有没有漏词条呢?韦氏大学dictionary加thesaurus(词条中还包括衍生词)真的只有12万?这样算起来的话,估计“大红”总词条数不超过10万,是不是同量级的词典中除韦氏新世界之外词条数最少的?好像新牛津、柯林斯、兰登韦氏、美国传统5都多于这个数量吧?

    该用户从未签到

    发表于 2015-9-17 10:46:14 | 显示全部楼层
    一般来说,COCA 6万词就囊括了母语人士的方方面面,这6万还包括了词性、变形等重复的情况。估计有效的就是bt4baidu说的:不超过4万。所以我最常用的就是COCA+MW联合模式。超过COCA60000的基本不看。
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-9-17 12:46:39 来自手机 | 显示全部楼层
    基本同意大神观点,高阶词典对于新闻报刊杂志之类的词汇量覆盖是基本够用的,但是词义的解释方面往往不地道准确,毕竟是面向学习者,以便于理解的简白解释为主,而且由于解释词汇所限,有时候词义很绕很模糊。在面对专业性、行业性的资料(如网站上的宣传资料、客户内部专业资料等),尤其是IT、汽车等高速发展行业,往往会遇到很多jargon、很多隐喻或者简略性的说法,这时候ODE、兰登韦氏加WBD、AHD最能派上用场,必要时还需要借助维基百科或维基英文,对不同行业的用法覆盖更广、更全面。
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-9-17 12:48:59 来自手机 | 显示全部楼层
    belleyeah 发表于 2015-9-17 10:461 z1 l! p9 f4 l8 w3 d0 p
    一般来说,COCA 6万词就囊括了母语人士的方方面面,这6万还包括了词性、变形等重复的情况。估计有效的就是b ...

    * t% L% j, c; q1 @) ]7 r% w9 m* ACOCA指的哪部词典?

    该用户从未签到

    发表于 2015-9-17 13:04:08 | 显示全部楼层
    woaini123 发表于 2015-9-17 12:483 C% x- G1 p5 d
    COCA指的哪部词典?
    ( y, G! M* m! {. B' i

    " G# Q; D% o8 {; G- i% }- [Corpus of Contemporary American

    该用户从未签到

    发表于 2015-10-1 15:25:53 | 显示全部楼层
    版主耐心赞一个!!!!
  • TA的每日心情
    开心
    2023-8-10 12:33
  • 签到天数: 566 天

    [LV.9]以坛为家II

    发表于 2015-10-31 18:02:22 | 显示全部楼层
    虽然短短几行,但是研究复杂,楼主很有耐心啊~

    该用户从未签到

    发表于 2015-11-12 17:20:35 | 显示全部楼层
    谢谢O大,明白啦~选择适合自己的下载

    该用户从未签到

    发表于 2015-11-18 20:04:25 | 显示全部楼层
    8 P* v0 \+ h3 \& H  U* e
    版主耐心赞一个!!!!

    该用户从未签到

    发表于 2016-1-1 10:31:29 | 显示全部楼层
    感谢楼主的辛勤劳动!

    该用户从未签到

    发表于 2016-2-22 15:36:56 | 显示全部楼层
    这还真是体力活,需要下点功夫才能比对。

    该用户从未签到

    发表于 2016-3-22 20:38:25 | 显示全部楼层
    多谢楼主的资源!
  • TA的每日心情
    开心
    2021-3-14 14:10
  • 签到天数: 213 天

    [LV.7]常住居民III

    发表于 2016-7-29 10:57:29 | 显示全部楼层
    楼主真有考据精神

    该用户从未签到

    发表于 2016-7-29 23:05:46 | 显示全部楼层
    我咋感觉高阶词典对付主流点的报刊是很不够用的?例如NYT WSJ(这个好点),economist,the Atlantic,new Yorker等,不少时候college这个级别的都不是很够,big word很多

    该用户从未签到

    发表于 2016-8-24 19:08:01 | 显示全部楼层
    感觉 好腻害的样子啊  O大威武

    该用户从未签到

    发表于 2016-10-12 21:59:38 | 显示全部楼层
    很有意义的交流。

    该用户从未签到

    发表于 2016-11-1 10:22:18 | 显示全部楼层
    * {# U5 p, S5 X6 J- C2 t# a& E
    感谢奉献精品

    该用户从未签到

    发表于 2017-1-11 20:10:59 | 显示全部楼层
    那到底用哪个版本好呢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-14 21:15 , Processed in 0.024064 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表