5dhtml 发表于 2019-4-20 10:09:18

论坛里发布的各种词频数据mdx数据差异很大是什么原因?



如图,这两个“词频数据词典”,其中的COCA数据,同一词词频差很大,这是什么原因,是作者更改过原始数据吗?
是不是只能问作者了?

oversky 发表于 2019-4-20 18:29:04

60000 那个是把同一字不同词性分开计算。

ogrishman 发表于 2019-4-20 11:47:20

假设作者不会在制作过程中搞错,那我估计这和统计的时间有关,corpus也在不停地增加语料,所以随着时间的推移有可能一个词的最新词频有所改变。
另外没必要追求精确,一个词排名3000和排名5000能差到哪去,大概知道它比较重要就行了。你知道它排3000或者排3001,你能做点什么不同的事呢?

gsxlm 发表于 2019-4-20 11:03:42

本帖最后由 gsxlm 于 2019-4-20 11:06 编辑

这个是官网吗?https://www.english-corpora.org是不是跟后面的那个FREQ有关啊?







leescott 发表于 2019-4-20 14:05:30

语言无时无刻不在变化发展中,语料库无时无刻不在变化发展中。
就是这么的了。

cici920 发表于 2019-4-20 16:29:41

你比对一下,
第一个 3合一 是单词的 Rank,排名
第二个,可能是在词库中出现的次数。

atpmzm1234 发表于 2019-8-9 20:52:49

谢谢分享,谢谢分享
页: [1]
查看完整版本: 论坛里发布的各种词频数据mdx数据差异很大是什么原因?