掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1105|回复: 3

[词典求助] 根据词频排列的8万英语词干屈折变化(lemma)列表

[复制链接]

该用户从未签到

发表于 2018-11-9 11:40:33 | 显示全部楼层 |阅读模式
本帖最后由 5dhtml 于 2018-11-13 11:01 编辑
- y" |) V! n; W5 }- p2 Z! d& \$ M4 c4 C! k& k0 g
最近在分析整理了几本英英词典的的数据,产生了一个疑问:即使是初级词典,词条的选择也并不是只选择比较初级的词汇,比如某词典收词量仅2万,但包含大量词频在2万以后的词条(根据ANC/BNC/COCA综合数据),那么除了OED这种巨无霸,普通词典编纂时候是如何选择收录哪些词呢?同样一直有疑问的是,像CET4-6这类考试,词汇大纲的范围又是根据什么依据选择的?, B+ U; D( D+ X6 B

* l! Z1 i; \: y4 o# W" O: ^

/ z0 J$ H. Z# M6 O. w. c% w顺便请教一下,谁知道有没有现成的英语词汇的屈折变化列表(如动词四态)和名词复数、衍生等词形变化的列表数据呢?3 H7 G& Z5 k$ D+ Q6 V
比如work works worked working。。。。
4 q, j4 r: W, P" L2 Z  ~    & Q/ o9 T# I2 Y6 z
  找到了,根据BNC词频排列的84497个英语词干屈折变化列表,可直接另存为txt/ A, J6 ^4 G% |" U* r( R* K4 k: D
* s/ V4 }; Z9 n1 i$ {( n
https://raw.githubusercontent.com/skywind3000/ECDICT/master/lemma.en.txt, p+ z; l; O3 ]/ u  r

; |0 Z/ V, U; |( @. e$ u' V' N* i
4 G- a. J' @3 s; }1 F
; En Lemma Database (version 1.0.2)$ H; y' s/ \& L. ~! O$ i
; Compiled by Lin Wei (https://github.com/skywind3000), Mar 28, 2017
! O$ z4 {& n' n; {8 F/ @8 u' ^& C; by referencing the 100M+ words in the British National Corpus (BNC), . r4 \$ m$ U7 D
; NodeBox Linguistics and Yasumasa Someya's lemma list.
  @# X/ W) S6 D, g, [# U" ?; This lemma list is provided "as is" and is free to use for any research
1 h4 D1 W7 G8 [; v; and/or educational purposes. ) A& y0 l$ w6 Q3 g) ~+ i8 f
; The list currently contains 186,523 words (tokens) in 84,487 lemma groups.
  m% o3 N% J+ J9 ]; If you have any questions or comments about this lemma list, feel free " w2 V; y* O4 B/ u5 ^
; to contact me ([email protected]), at any time... Y2 n; \8 ]. S
;
+ J3 Z+ C5 `5 Vbe/4109826 -> is,was,are,were,'s,been,being,'re,'m,am,m
$ Y! L9 ^6 W7 W4 Ohave/1315648 -> had,has,'ve,having,'s,'d,of,d,ve2 B: m0 D3 D3 C  s+ e) z
it/1213224 -> its,they8 h) P0 S+ g& h/ @2 R3 R) L+ t# c
he/1196022 -> his,him,they' P% j6 a! E1 x8 Y- I
i/1133697 -> my,me,we,is
$ h" W3 j& l( n  v4 l' i; q0 w# Cthey/841960 -> their,them,'em% W9 `  y7 H- }
you/804279 -> your,ya,ye' B" u4 h. V% D: P6 @
not/767330 -> n't! D( y9 ]) ]- z4 o* k
she/653505 -> her  m  a2 K, n! H1 O% L
do/535646 -> did,does,done,doing,du,d'+ w5 B$ K+ \- i% q" {, w$ g( k8 Z
we/503360 -> our,us. x. ~; N+ x( R. U
will/334612 -> 'll,wo,ll
, U/ n. f  ]4 u; x0 M, Msay/317317 -> said,says,saying
9 ~. ^0 f, k, v4 zwould/278414 -> 'd) F$ D9 }0 X) @) l) @' i
can/263138 -> ca,cans,can,could
$ M3 m1 v5 @: P& ]; `+ ogo/227247 -> going,went,gone,goes,goin'
/ _. Z/ I. Y8 L9 @2 J- T: P1 B0 Xget/212569 -> got,getting,gets,gotten( A% n8 M- U- r- ^0 k% C+ A3 O# F
make/209818 -> made,making,makes! U0 ]5 n+ H: m& g$ i  x# y
up/206976 -> ups,upping,upped" Q0 U6 h5 k+ B& k, h
see/184969 -> seen,saw,seeing,sees
2 ~% v: h: j* H2 kother/181277 -> others5 U4 m# h* W6 ^7 J# H0 o6 r
time/181080 -> times,timed,timing
; d: q+ R, c4 {$ q& _: M/ bknow/177717 -> knew,known,knows,knowing
' `9 _8 x( b) C3 p/ Gtake/172773 -> took,taken,taking,takes
5 ~2 M9 Q! ?% A' t2 k/ ayear/161649 -> years
' A& a9 Z1 K/ d) ~/ B5 V, Fwell/156075 -> better,wells,welling,welled& m% m: g& Y8 E- A9 P; Z$ e6 W
like/154975 -> liked,likes,liking* s& D; k& V& F; E' G; W/ J
then/154443 -> thens8 o7 [8 ?8 i. X0 t1 l
think/145268 -> thought,thinking,thinks
4 y/ n$ E4 p/ ^9 O2 `+ g) kcome/144107 -> came,coming,comes
$ C, M( }- }( Y# A) mnow/138986 -> nows! A7 Y4 B5 m0 B( J/ ^1 Z& J
use/137498 -> used,using,uses  T" m5 Y: _1 n4 S  P
over/130163 -> overs
. r! R- f4 n2 Z+ l4 Q$ s- N- _* s* zgood/128437 -> best,better,goods! m) P2 T1 F6 f4 o. S9 o! i
work/126290 -> working,worked,works,wrought
. o) Y- Q1 V3 W8 Tgive/125727 -> given,gave,giving,gives
+ g9 b8 T3 I2 H' k# f# |2 X3 rnew/124872 -> newer,newest% e1 U6 W; @) r+ E  I) D7 \4 E: M. l- A
people/123156 -> peoples,peopling,peopled8 l9 O/ N* w) x) l) @0 f+ d( N7 P
look/119946 -> looked,looking,looks  K$ D' J  B% F
one/116568 -> ones  S% x3 x5 P  y* X3 |" o1 U8 q
way/110362 -> ways2 t8 m) Z9 T* d: _

0 V0 {6 c! E9 Z$ F3 U$ Y  {  N
  • TA的每日心情
    擦汗
    2024-7-12 22:13
  • 签到天数: 1149 天

    [LV.10]以坛为家III

    发表于 2018-11-9 13:00:22 | 显示全部楼层
    据我的知识,不保证完全准确。
    ) M- P2 j: C/ {$ D2 L词汇的选择,早期是选择一定数量的书籍和报纸,进行人工统计。报纸不普及的时候,主要是选择比较知名的作品。报纸普及以后,增加报纸比例。计算机时代,可以采用超大样本,一般是通过大规模的语料数据库来决定词汇的等级,像纽约时报,时代周刊,经济学人等发行量大的报刊,作为重要的参考内容。
    0 ]* |% W% J. @# _6 `至于词汇形变,多数计算机语言处理程序直接去掉词尾,在不至于引起混淆及能够正确识别在情况下,将这些没有尾缀的词头视作同一个词。部分词形特殊的词,会有专门的数据库查询,一般的词典程序要么内置,要么外带,都有这样的部分。

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2018-11-9 13:26:10 | 显示全部楼层
    可參考英辞郎相關的順辞郎分析
    * f) r/ Y8 K6 Z* `7 t" v參見% U- p, n5 A* l! E* ]. ]6 c- H
    http://www.eijiro.jp/hindo-1.htm
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2018-11-10 13:28:51 | 显示全部楼层
    ucccafe 发表于 2018-11-9 13:26; L0 U- \: K' z7 T, s9 q! ~" C
    可參考英辞郎相關的順辞郎分析
    5 ], l7 C3 J( A參見8 g2 k: E- L+ E' y
    http://www.eijiro.jp/hindo-1.htm
    8 O8 O( N$ d! g8 F
    三岁就有三千字汇的能力,比我想像的还要多。2 R( v9 W: K9 w) x) e+ t
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-13 06:13 , Processed in 0.023338 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表