掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2823|回复: 6

[经验心得] 词表大比较

[复制链接]
  • TA的每日心情
    开心
    2020-6-14 08:40
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-12-17 20:01:48 | 显示全部楼层 |阅读模式
    所有词表大比较

    ## COCA

    美国一九九〇年至今的当代语料库,充分覆盖了出版物。但网络上该词表来源多到混乱。有必要先理清。

    首先看官方,必须明确官网其实有两种词频表,一个是大家都熟悉的 COCA,其词表又有[三个形式](https://www.wordfrequency.info/purchase.asp),即数量分别为 5000,20000,60000,其中 5000 免费。 该 COCA 表会在 part of speech 彼此独立的前提下,计所有常规形态变化为同一个单词。但另一种词表 COCA+ 100000 就[不一样](https://www.wordfrequency.info/100k_compare_to_60k_etc.asp)了,不光把所有常规形态变化都独立看待,而且还结合了其他语料库 CHAE,BNC,CASO。此外官网有个比较坑的地方是没说清楚 COCA+ 100000 和 COCA 很不一样,甚至有时候连加号都省略了,那个卖词表的网页就如此。

    于是论坛上不同人拿着不一样的词频表做并自称 COCA 词表,我估计其中有些人都没搞清楚他所以为的 COCA 其实是 COCA+ 100000. 也难怪有人提问[为什么词频不一样](https://www.pdawiki.com/forum/thread-32878-1-1.html)。

    好在官网有 sample,我自己拿 sample 的 rank 在所有论坛 COCA 词表都试了一遍。结论如下:

    首先 COCA 官网的 sample rank/freq 与论坛对应 COCA 词表都会有细微的差异,我猜因为官网每年都会更新词表。好在这影响微乎其微。

    基于 COCA 的有 [fuxy526 2016 年制作的 COCA Frequency 60000](https://www.pdawiki.com/forum/thread-15540-1-1.html4) 忠实保留了 part of speech 分别独立的形式,且能显示 genre 分布表格。

    2015 年,cracode 基于 COCA+ 100000 制作了[号称 36 万词频的表](https://www.pdawiki.com/forum/thread-13667-1-1.html)

    2015 年,jijizhazha 又基于 cracode 的基础上制作了 [BNC+ANC+COCA 词频](https://www.pdawiki.com/forum/thread-12840-1-1.html),GitHub 上的 ZZ WordFreq 项目也是它,但当事人把 part of speech 彼此独立的特点抛弃掉了,即针对每一个单词只取最常用 part of speech 的那部分,重新排名。当事人被盗号后,又以 lgmcw 名称 先后于 [2016 年更新词频](https://www.pdawiki.com/forum/thread-13348-1-1.html),于 [2018 年追加 Sound 发音库,优化排版] 和 [2019 年抛弃 ANC,新增 Economist 和二十万短语词频,Oxford 3000,各种考试词表](https://www.pdawiki.com/forum/thread-36345-1-1.htm)更新该词表。如果该最新词表能彼此独立对待 part of speech,并给出每个词表的准确来源,就太完美了。

    对于有志深入美国文化的学生,该 COCA 有非常高的参考价值。可惜正规渠道需要花钱买表,民间来源就上面那些了。即 COCA Frequency 60000,ZZ WordFreq(淘汰),BNC+ANC+COCA(淘汰),Sound+ANC+BNC+COCA(淘汰),Sound++。

    ## 简明英汉字典增强版

    也有 COCA 词表,应该也基于 COCA 而制作,其词频和 fuxy526 2016 的 COCA Frequency 60000 并不一样,大概是因为制作年份不同的缘故。此外还列出了是否为中考高考四级六级考研雅思托福GRE词汇。[来源欠透明](https://github.com/skywind3000/ECDICT/issues/52)。由于 Sound+BNC+COCA+iWeb 已包含考试词表,该字典可以只作为备用英汉字典而排在后面。

    ## wordtag.py

    我自己在 GitHub 上拿来在 Goldendict 上用的[脚本](https://github.com/BlairXie/spider) ,可以显示单词属于什么考试范围,原理就是爬欧陆词典在线网站的数据,后者的词表来源当然不明。淘汰。

    ## Oxford 3000/5000 以及其他表

    我爱死牛津了,[该词表对初学者特别友好](https://zhuanlan.zhihu.com/p/75513302)。

    ## 其他词表
    大学四六级其实官方考试大纲就有[精确的词表](http://cet.neea.edu.cn/html1/folder/16113/1588-1.htm);考研英语考试大纲懒得去找了,反正我也不会去考。

    网上很多雅思托福词表的来源欠清楚,包括 Sound++

    Sound++中的 BNC 可谓 Britain English 语料库;iWeb 是网络最大最新的语料库,偏流行;Economist 顾名思义。

    其实官方 Economist [有 GRE 词表](https://gre.economist.com/),似乎可是并没有公开发表,需要自己付费去学习。

    我自己找了 Word Made Power Easy 的词表,可是网上公开的似乎都不全。

    我自己还针对我私人的 Calibre 书库和 Zotero 文献编写了脚本,可以列出关键词在 Calibre 在读或已读中的所有出处,以及在 Zotero 文献出现的次数。可谓个性化词表。以后可能会发布。但只能在 Linux 上用,别抱太大期待。
    购买主题 已有 32 人购买  本主题需向作者支付 2 粒米 才能浏览
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2019-12-17 20:51:01 | 显示全部楼层
    楼主真是有心了
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2019-12-18 00:22:16 | 显示全部楼层
    挺赞楼主这种严谨的劲儿的,相对于官方维护的正版资源或者学术资源,民间资源(中间很多涉及版权问题)详细来源确实是个问题。不过这些问题也确实很难解决。
    2 {  R1 E- b1 Z2 E7 _1 m3 _5 u. H) M6 F, O
    其实逛pda论坛也是,版本管理上面一直缺少很好的机制,所以渐渐的就找不到来源依据了,准确性就有待考量了。个人建议,要只是兴趣或者辅助学习,还是可以依据论坛资源,如果是严谨的学习,还是要么自掏腰包,要么依靠机构拿准确的数据吧。- `0 C- Y; h& g, X/ `
  • TA的每日心情
    开心
    2020-6-14 08:40
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-12-18 00:44:26 | 显示全部楼层
    johannhuang 发表于 2019-12-18 00:22
    . h" f- {, Z3 r& E' |2 D8 L挺赞楼主这种严谨的劲儿的,相对于官方维护的正版资源或者学术资源,民间资源(中间很多涉及版权问题)详细 ...

    0 A4 f6 P% B! i% H1 B8 d确实因为版权问题,没法太张扬。
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-20 12:09:14 | 显示全部楼层
    每次回帖、谢谢!辛苦了。

    该用户从未签到

    发表于 2020-6-9 01:28:45 | 显示全部楼层
    楼主钻研精神可嘉
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-7-7 18:15:56 | 显示全部楼层
    楼主的贴在让我明白的词频差异的原因
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 00:16 , Processed in 0.075999 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表