yikelee大记忆库收词量的分析和建议

mahuangyihao · 发表于 2021-4-23 12:39:06

本帖最后由 mahuangyihao 于 2021-4-28 11:12 编辑

首先感谢yikelee的各种重磅，anki是个好东西，但也得有好内容。好马配好鞍！在当今纸质书日渐走低的情况下，说实话，大多数人买了词典基本就是积灰。anki+词典的模式，可以说是词典的第二春了。

yikelee大的记忆库从收词角度讲，基本分3类
初级：朗文3000
高级：牛津5000+朗文9000（排除词组，只剩单词，去重后约8000）。这个级别托福、雅思基本够了
词典级: 中阶词典2w+，高阶词典3w+。主要面向英语专业人士了

另外有个超级大包子，把口语13500，牛津5000，朗文9000，麦克米伦7000，柯林斯星级，合并去重，一共是15737个卡片。

现在很多词典都标注了词频
朗文9000：分3级，每级3000。总量虽有9000，但去重后为8000

牛津5000：牛10按照CEFR的A1~C2进行了标注，但只标了5000词
A级 1700
B级 1300
C级 2000

麦克米伦6800：分了3级
3星 2000
2星 2300
1星 2500

剑桥（或CEFR）9700：完全按照CEFR的A1~C2标注，注意这里是包含了词组的，去掉词组，则只有6500
A级 1700
B级 5000
C级 3000

柯林斯：柯林斯3把单词分成5级，总共标了1.6w，其中5星~2星共计8000，是最有用的。后续版本简化为3级，而且只标了3千左右，基本没啥用。但柯林斯这个分级个人感觉一般，很多不太常用的词也标了3星或2星。
5星 1300
4星 1400
3星 1800
2星 3400
1星 8200

由以上统计，个人有些建议
1、初级收词量
朗文3000+麦克米伦3星+剑桥A级+柯林斯5星4星，我算了下，除去词组，总量3200

2、高级收词量
这里需要说下牛10的词频标注，总量5000，比较尴尬，可以说是个历史遗留的问题。当初朗文异军突起，搞出个定义不出3000词，获得市场的欢迎。牛津就比较尴尬，跟风吧，放不下架子，不跟吧，市场又有需求，最后拖了几个版本，弄出个自己的5000释义词。但5000出来之后，朗文已经标注了9000词，对门剑桥也弄出了一个CEFR标准（涵盖1w词左右），这么搞基本就是把事情做绝的节奏了，因为1w词以上，统计上标注意义已经不大了。这牛津就2次尴尬了，这个在牛10上体现出来，就弄了个四不像的东西出来。
对于高阶词汇，我的建议是朗文9000+麦克米伦6800+剑桥9700，除去词组，总量9000+

3、词典级
卡片主要还是背，整部词典感觉还是查询的场景多些。另一个场景是英语专业人士，这些人词汇量应该在1.5w或2w的样子，yikelee大做了COCA和Ngram的2w的记忆库，基本就是这个体量。
我的建议是，用中阶词典的收词范围，用高阶词典的释义。就像开头说的，中阶词典收词基本在2w左右。出版社在决定不同级别词典的收词范围时，应该是有考量的，后面已经有了原始词频统计和人工筛选的工作，这个做出来一定很棒。

做过词典的应该有体会——特殊情况特别多。无论你程序编的多完善，总有特殊情况，需要迭代很多次。提取首词也是这样，我在提取剑桥A1~C2单词的时候就遇到很多问题。收词量参考多部词典可以避免这种情况。

以上提到的所有词典及其收词星级等，如果yikelee大有意做的话，我可以免费分享。

本人现在用的是LONGMAN 9000 (ldoce5++) 双样式，感谢yikelee大的辛苦制作。

anki区已经有牛9的作品，期待楼主朗文6的大作！

wei66 · 发表于 2021-4-23 13:22:04

口语13500是啥？

宁冷越 · 发表于 2021-4-23 23:39:25

我是anki重症用户，日均2000卡以上的那种。说实话，我理解不了背词典的你们——用anki来背英语词典的你们，一个单词多个释义，一个释义又有多个例句，全部汇总在一个小小的手机屏幕里，甭说看不看得过来，看起来不头大吗。虽然你们对单词进行了分级，但我想应该没几个人去对单词的释义进行分级制卡吧？就好像是学了杀鸡法，解牛技，又学了屠龙术，可是世上已经没有龙，生活中你也只需要杀杀鸡，十年都未见得有机会去解牛。我始终觉得用anki去学去背“大而全”的知识，是南辕北辙。就当作学习之余发牢骚吧，有怪莫怪。

mahuangyihao · 发表于 2021-4-24 00:53:20

本帖最后由 mahuangyihao 于 2021-4-24 00:54 编辑

宁冷越发表于 2021-4-23 23:39' R! h. g a6 p9 t7 a0 c0 C
我是anki重症用户，日均2000卡以上的那种。说实话，我理解不了背词典的你们——用anki来背英语词典的你们， ...

回答下哈

背词典这种事其实也是有技巧的，首先不是所有单词都背，词典收词一般在3w+，论坛里有不少anki库都是只把9000左右常用词提取出来。其次，针对某个具体单词，朗文牛津这种学习型词典释义是按照从常用到不常用排序的，大部分单词是不需要通读全文的，只看前几个释义就好了，个别释义不清楚，再看看例句。

单词释义分级这个是有的，剑桥按照A1~C2做了标注，论坛里能搜到。

xhbah · 发表于 2021-4-28 11:04:59

哈哈哈，我也在等朗文，不过我是朗文5

eric109 · 发表于 2021-4-29 14:28:36

我正在背coca 2w，由于英语扔了十了年了，感觉anki真的不错。卡片做的很不错了。我是主要记忆中文意思，等全部过一遍之后再考虑看英文释义，过早看英文浪费时间。上下班手机背，回家翻纸词典。只有反复去看才能有效果

aijunfeng · 发表于 2021-8-3 23:59:17

宁冷越发表于 2021-4-23 23:399 D2 s' ~6 v- Z- ?0 H
我是anki重症用户，日均2000卡以上的那种。说实话，我理解不了背词典的你们——用anki来背英语词典的你们， ...

世上没有龙是真的，最初就没有龙。屠龙刀只是名字是屠龙，实际上是用来杀人的。
但是世界上还是有需要记得那些超过15000词以外的词的。我看外刊经常会遇到不常见的词。但是我觉得看外刊记词，效率低。有些词反复出现，有些词好久都不出现。
用记忆卡背词，可以系统的，无差别的，刷每一个词。
至于释义，例句，我是这么来的。最开始记词，我只看中文释义。后来我看例句。朗文的例句很适合练口语，而且能刷到朗文9000词的每一个词，可以说是非常好了！再后来我看牛津的例句，牛津例句短小精悍。再后来我看柯林斯释义。
所以，虽然释义，例句，等很多，但是你可以挑你这个阶段想要看的，比如你这个阶段是记词，那就只看中文释义，比较快。

gicra · 发表于 2021-8-4 10:46:20

各位大侠，我也在背词典，现在在背牛津高阶加牛津简明提取出来的单词总数是五万。目的就是好玩，因为我已经退休，英语实战对我没什么用处。
背单词的过程有几个疑问请教大家：
1，派生词怎么处理，比如 areology有派生词areological 和areologist 我一般是直接将派生词删掉，但是也有问题就是往往派生出来的词义和原意不同。
2，好多植物和矿物名词实在背不了，背了很快就忘，是不是也应该删除。比如hamamelis金缕梅，spodumene锂辉石。
3，缩略语，大部分缩略语我都删了。但是那些是非常常用的呢。
4，地名，地名我原则上只记国名和首都，但肯定有一些常用的必需记的吧。
5，人名这个也非常为难，不知道那些重要，那些不重要。
6，印度英语，我发现印度英语很多，并且都非常难背，删除怎么样。同样还有很多殖民地方言。
请哪位大侠指教一二，感谢不尽。

		自动登录	找回密码
密码			免费注册

[记忆库] yikelee大记忆库收词量的分析和建议

本帖被以下淘专辑推荐: