0987k 发表于 2019-1-30 15:42:58

论坛里的三个COCA词频排序差别大的太过离谱

本帖最后由 0987k 于 2019-1-30 15:50 编辑

论坛里的三个COCA词频排序差别大的太过离谱,到底是哪个有问题,是错误的。同一个单词一个COCA排9000,一个排16000。一个排排11000,一个排34000





















VimVim 发表于 2019-1-30 18:33:08

0987k 发表于 2019-1-30 17:00
兄弟,你误解了。我是指,同一个单词同一个词性,都是COCA的数据,的三个版本的mdx之间的差距离谱。肯定是 ...

几个COCA词频排序都是对的:
1、COCA词频分5000、20000、60000、更多,相应的排序就是在这个范围内的顺序,对比范围不同当然排位不同,“中国第一不等于世界第一”。同时,同一个词汇不同词性的排序也是不同的。其专业术语叫 rank order,其具体含义,最好去读一读《COCA 5000 - A Frequency Dictionary of Contemporary American English》中的说明,这有助于我们更好的使用COCA。
2、我选用最权威、最常用的COCA20000的词频数据,这个有出版过实体书《COCA 20000 - A Frequency Dictionary of Contemporary American English》,你完全可以找到PDF进行核对数据的权威性。

0987k 发表于 2019-1-30 18:48:29

本帖最后由 0987k 于 2019-1-30 18:49 编辑

VimVim 发表于 2019-1-30 18:33
几个COCA词频排序都是对的:
1、COCA词频分5000、20000、60000、更多,相应的排序就是在这个范围内的顺序 ...
这个貌似不是这样吧。词库应该是百万词库的整体排名,6000取前6000名,20000取前20000名,60000取前60000名。排序应该是一致才对呀。就算有词性合并忽略,也不至于一个是几千一个是几万,这么离谱

AAAAAADDDD 发表于 2019-4-5 00:44:50

coca最有价值的工作是使用算法对单词的不同词性进行区分分级,论坛里总有大票人把词性去掉,把单词合并,搞不懂脑子在想什么。这三个里面第一个和第二个都是错的,第一个没有词性,直接pass了,第二个词性完全对不上号,内容不知所云。只有第三个coca600000是正确的。可以通过比较原版pdf证实。

鸭呼嘿 发表于 2019-2-14 10:10:37

看得真细呀!词频统计很重要,但是我平时没太在意那些具体的数字。同一个语料库同一时期的数据,排名最前的一些词的排位也应该是相同的(即使时期不同,也不应该差别很大)。COCA的语料库,除了综合语料库,还有一些分类语料库。会不会是数据用错了呢?

现在一些大型语料库资料很容易获得,再加上有现成的语料库处理软件,处理词频属于很容易办到的事情。应该不会出很大的差错吧?

由此想到我自己翻过的一本小册子,是中国的一个语言学家(好像是石安石?)(主持?)统计的英语词频,上世纪五十年代出品。是为编写中小学英语教材提供参考的。那时候,没有计算机可以使用,全靠手工统计。搜集资料、平衡资料、大量的统计工作(至少也需要一两千万字吧,否则说明不了问题。单词则需要一个一个地记录),需要下多少功夫呀?而成果仅仅是一本薄薄的小册子。而且似乎没有任何“创造性”可言,大概也不会算什么“成果”吧?

kyletruman 发表于 2019-1-30 16:33:33

数据如此,没有办法,楼主这个问题只有找统计词频的词典编纂者来解释了

0987k 发表于 2019-1-30 17:00:28

本帖最后由 0987k 于 2019-1-30 17:05 编辑

kyletruman 发表于 2019-1-30 16:33
数据如此,没有办法,楼主这个问题只有找统计词频的词典编纂者来解释了
兄弟,你误解了。我是指,同一个单词同一个词性,都是COCA的数据,的三个版本的mdx之间的差距离谱。肯定是谁的版本出错了,因为都是用的是COCA的数据,差别不会这么离谱。论坛里有三个人做过COCA词频,但三个人做的相去甚远,不知道是谁的错误很大。



我不是在BNC, ANC, COCA之间比,而是在三个COCA之间比

kandict 发表于 2019-1-30 17:43:53

也有这种感觉,之间的跳动很大。后来干脆找个顺眼的参考。当然假如能明白为什么更好。

VimVim 发表于 2019-1-30 19:06:50

0987k 发表于 2019-1-30 18:48
这个貌似不是这样吧。词库应该是百万词库的整体排名,6000取前6000名,20000取前20000名,60000取前60000 ...

嗯,你的理解是对的。但语料库在不断变化,同时语料库类型不同,排序也有很大不同。
总的来说,找权威信得过的来源吧。

xiaorenhao 发表于 2019-1-30 19:36:15

我之前与COCA20000的pdf对照一下,COCA60000与COCA20000的pdf文件的排序比较一致。

你去哪里 发表于 2019-1-31 10:08:58

前年还是什么时候,我就觉得这几个coca好奇怪,不管是哪一个版本,同一个单词的排名怎么可能不相同呢?规模大一些,最多也就是把排名在后面的单词多收了几万而已,不可能把排名在前的单词给挤到后面去啊。此外那个收词最多的list对每一个单词的排名也太多了,一个单词根本没有那么多词性。总而言之还是coca 60000比较正常。

cocowind 发表于 2019-4-10 19:41:48

词频词典很有参考价值。

要是能把COCA的数据与麦克米伦柯林斯等词典的星级词频标示放在一起就更好了

tttty 发表于 2020-9-9 13:45:17

觉得fuxy526大大的coca frequency 60000是目前论坛里最具参考价值的词频词典,私以为比iWeb更准(感觉iWeb里一些科技词汇排名过于靠前),而另外的一些集合版词频词典里的coca去掉了非常有用的词性分类排名和在不同genres下的词频,不是特别可靠
{:11_384:}

starmars 发表于 2021-7-5 14:57:20

本帖最后由 starmars 于 2021-7-5 15:19 编辑

以前花过很多时间研究这些词表制作得为什么同一个单词词频差得如此离谱。浪费了大量宝贵时间。
在下认为,1万--2万之间的单词,实在没必要去太较真词频究竟是多少,因为它们都是次常用词,它们之间词频的相差幅度远远小于它们和常用词之间的相差幅度。你个人在实际生活工作学习中遇到这些次常用词的频度和任何所谓“精准词频”的词表都会有可能比较大的差异,如果你想通过词表按词频从高到低来记忆而不是在阅读中慢慢积累来记忆,那么,随便挑一个词表记都可以!开卷有益,开记有益!不要再为究竟背哪个词频表准确而发愁!
页: [1]
查看完整版本: 论坛里的三个COCA词频排序差别大的太过离谱