掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1507|回复: 3

[词典求助] 根据词频排列的8万英语词干屈折变化(lemma)列表

[复制链接]

该用户从未签到

发表于 2018-11-9 11:40:33 | 显示全部楼层 |阅读模式
本帖最后由 5dhtml 于 2018-11-13 11:01 编辑 : c0 d! N& {( O: o

- K/ L1 b8 ]& X3 m最近在分析整理了几本英英词典的的数据,产生了一个疑问:即使是初级词典,词条的选择也并不是只选择比较初级的词汇,比如某词典收词量仅2万,但包含大量词频在2万以后的词条(根据ANC/BNC/COCA综合数据),那么除了OED这种巨无霸,普通词典编纂时候是如何选择收录哪些词呢?同样一直有疑问的是,像CET4-6这类考试,词汇大纲的范围又是根据什么依据选择的?
- G- T( }$ v6 k& E9 l% B# U% K, F/ Q, o5 o

3 H' n9 K8 T6 q' d  f4 ^" U顺便请教一下,谁知道有没有现成的英语词汇的屈折变化列表(如动词四态)和名词复数、衍生等词形变化的列表数据呢?" G' n# {7 c8 }! A) n
比如work works worked working。。。。* ?: ~+ _- A% K' P
    ; D- k" G6 S" V! |  g
  找到了,根据BNC词频排列的84497个英语词干屈折变化列表,可直接另存为txt$ X( i9 J9 U1 u1 h; R7 Z2 t3 ]
/ }) W8 F7 W( C3 I, Y
https://raw.githubusercontent.com/skywind3000/ECDICT/master/lemma.en.txt
' L; q9 B$ z) [4 H9 s* G$ {
( x- z0 I0 f1 c, U# i  c$ V+ H
7 H8 q- w& m6 A, f1 F7 S' P
; En Lemma Database (version 1.0.2)
+ @1 J3 ^- A& F/ G7 f/ G; Compiled by Lin Wei (https://github.com/skywind3000), Mar 28, 2017
7 i+ Z1 }% b) q; F8 `4 U; by referencing the 100M+ words in the British National Corpus (BNC),
1 i5 O: ?  p4 j0 J  C/ Z% H; NodeBox Linguistics and Yasumasa Someya's lemma list.
8 ~  b* y# R3 E$ c; This lemma list is provided "as is" and is free to use for any research
; u' ~# C- U% K- i; and/or educational purposes. 1 j( d* ], O7 `) [/ O( Q
; The list currently contains 186,523 words (tokens) in 84,487 lemma groups.
/ n; r1 ^/ Y9 P/ y; If you have any questions or comments about this lemma list, feel free 1 |* |- I; b6 K% C1 y0 f
; to contact me ([email protected]), at any time..
7 i8 }( z3 m/ {) z/ D) v;
0 k7 Q, n2 I0 V; D- x$ z. cbe/4109826 -> is,was,are,were,'s,been,being,'re,'m,am,m
8 |0 [# y! D9 r# c. Nhave/1315648 -> had,has,'ve,having,'s,'d,of,d,ve4 J8 k9 r4 \; v$ e* X" E0 _( C# M
it/1213224 -> its,they0 S9 x( N& h* `2 {
he/1196022 -> his,him,they
( ~' a+ I7 p. m8 ?; li/1133697 -> my,me,we,is( B& L! e' E" s, h! p
they/841960 -> their,them,'em
# W2 @. Q' D5 c" L9 H0 V" k) h0 iyou/804279 -> your,ya,ye- W- P7 C: `% ]
not/767330 -> n't" f. o& j  U4 I) x8 O0 o( I4 ?
she/653505 -> her6 Q( v  j) n8 d+ c' S& T; I6 M6 Z
do/535646 -> did,does,done,doing,du,d'
- S4 T- P6 Z: y) S7 [we/503360 -> our,us: C% F# Y' \( x1 P" @
will/334612 -> 'll,wo,ll' n" B1 X" w; m1 W' p* L
say/317317 -> said,says,saying. w* i& E( a/ q9 x% a- [, _
would/278414 -> 'd$ i5 P; D! Q3 O* \, q. {6 f( j$ D9 P
can/263138 -> ca,cans,can,could
  K. b% a) E3 c! h' E4 l3 b+ C# \go/227247 -> going,went,gone,goes,goin'
0 j& n: E& F+ bget/212569 -> got,getting,gets,gotten( }8 e* }, [1 A& W+ Z: A0 s
make/209818 -> made,making,makes# q6 X( t& X  T7 `" R4 S; y
up/206976 -> ups,upping,upped# l; |. ]7 B! J$ h7 {
see/184969 -> seen,saw,seeing,sees
$ R1 R- N" c$ \2 d' Jother/181277 -> others
' V4 h+ v' J' Gtime/181080 -> times,timed,timing
' C, M! o! I$ L! R. z& d: H) gknow/177717 -> knew,known,knows,knowing
5 e2 ^5 f4 z0 b4 S4 L6 Q8 ctake/172773 -> took,taken,taking,takes
7 `+ P3 C) O+ n1 S  ~% V& cyear/161649 -> years; a$ J# t. \* [
well/156075 -> better,wells,welling,welled! U( E" i/ }7 e1 C
like/154975 -> liked,likes,liking4 I3 p# J: x: [  K( p
then/154443 -> thens
$ U9 F% O$ {) q7 S! e, Cthink/145268 -> thought,thinking,thinks0 x& a* P% r7 E! L. \* z
come/144107 -> came,coming,comes9 X1 g% Q% c- Q9 ?
now/138986 -> nows
0 Q4 K6 s" ?% i  ~. K0 m! nuse/137498 -> used,using,uses
# L6 A. k1 N* {over/130163 -> overs
% P5 A2 M, R: i4 G7 M) v, \) Fgood/128437 -> best,better,goods1 V5 N: s- ^, |" O8 @$ ~! V
work/126290 -> working,worked,works,wrought
/ s' Y; {* q. ~; {& n" H: ?3 {7 Vgive/125727 -> given,gave,giving,gives! f& T6 F! M6 m/ h2 k
new/124872 -> newer,newest
! |9 U% I% u/ x5 V+ _5 Kpeople/123156 -> peoples,peopling,peopled
1 P) F/ }3 P% W& b. @look/119946 -> looked,looking,looks
0 H$ y+ _- \3 X" T4 ~one/116568 -> ones
3 ]7 q+ ], e, B+ D9 j) H0 ~  A) lway/110362 -> ways' T; N% x' O+ b6 {3 d7 [  ^; e. s

: G7 k- D( \0 k; a& n0 \8 J
  • TA的每日心情
    开心
    2026-1-11 19:41
  • 签到天数: 1151 天

    [LV.10]以坛为家III

    发表于 2018-11-9 13:00:22 | 显示全部楼层
    据我的知识,不保证完全准确。
    ' x' D9 ]4 z6 u+ b词汇的选择,早期是选择一定数量的书籍和报纸,进行人工统计。报纸不普及的时候,主要是选择比较知名的作品。报纸普及以后,增加报纸比例。计算机时代,可以采用超大样本,一般是通过大规模的语料数据库来决定词汇的等级,像纽约时报,时代周刊,经济学人等发行量大的报刊,作为重要的参考内容。
    ! V6 j" R7 }8 {1 x$ j7 \至于词汇形变,多数计算机语言处理程序直接去掉词尾,在不至于引起混淆及能够正确识别在情况下,将这些没有尾缀的词头视作同一个词。部分词形特殊的词,会有专门的数据库查询,一般的词典程序要么内置,要么外带,都有这样的部分。

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2018-11-9 13:26:10 | 显示全部楼层
    可參考英辞郎相關的順辞郎分析
    2 Q+ R8 Y# r+ ~: k# x參見  d# E9 a- z% j
    http://www.eijiro.jp/hindo-1.htm
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2018-11-10 13:28:51 | 显示全部楼层
    ucccafe 发表于 2018-11-9 13:26; D7 Q/ n. P' Q5 e
    可參考英辞郎相關的順辞郎分析! k# }5 ^, ~1 m. o5 }7 M
    參見
    6 x) X1 p( w& M9 U' b. d' Mhttp://www.eijiro.jp/hindo-1.htm
    1 r0 w9 J8 H4 f( @. I
    三岁就有三千字汇的能力,比我想像的还要多。3 T& d2 @5 k- X0 ~
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 23:30 , Processed in 0.020210 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表