掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 77737|回复: 539

[英汉] 简明英汉必应版(增强版升级) 432万词条 (2017年6月5日更新 v6+ 大家期待的 CSS版)

    [复制链接]

该用户从未签到

发表于 2017-5-9 05:12:02 | 显示全部楼层 |阅读模式
本帖最后由 skywind3000 于 2017-6-12 14:34 编辑
# j( \! l4 v+ {8 [7 Z/ r* a
; C. }3 \6 _+ b- O0 X2017-6-5 更新:v6 - 增加 css版本,感谢 @idict 提供的 css 模版,以及相关指导,终于发布了这个 css 版本,直接见文末截图吧
. \& k1 X7 |+ _4 u, \. b2017-6-3 再新:v6 - 修正网友发现的若干问题,使用必应释义覆盖前40万短语(之前主要针对单词),详细见文末说明
- ]$ ^  B, n9 |( E% m3 t2017-5-21 再新:v5 - 补充 Kindle v5 版,详细见文末说明
8 r: o, V. _) h9 x" L4 A  R2017-5-21 更新:v5 - 完成所有前 40万词的各种变形衍生关系整理,包括时态,形容词比较级别,名词复数三项,详细见文末说明 % r/ S. P5 t2 i9 I$ X* R9 {
2017-5-20 更新:v4 - 解决先前积累的各种奇奇怪怪的小问题,标注准确性得到很大提升,详见文末说明 3 Y) a# A2 f2 M( U, F. s
2017-5-16 更新:v3 - mobi版本删除空行,更紧凑一些
) c" o, b  E8 v: d2017-5-13 再更:v3 - 增加 Kindle 版本的词典,kindle大小有限制,kindle版本收词 100万(已经是kindle里最大的词典了)
6 U6 h1 t: \% w, f4 A6 ]# t& F2017-5-13 更新:v3 - 解决上一版标注错乱遗失的问题,如 book ,well 等词语标注丢失,具体见文末更新记录
2 d6 v2 b9 |$ \# E2017-5-11 更新:v2 - 解决新导入词典的缺陷,标注增强,具体见文末更新记录
" v  f1 r- O: W4 J
$ S( u8 h" t; H3 b------------------------/ d) a1 N) k. Z; q0 M
这是《简明英汉字典增强版》的一次升级。
, L; [" F* m6 P0 p0 y6 O3 s( O( y# z; p' Y
之所以不能在原有基础上接着弄是因为:- [& |/ B; e! M: e9 k

8 b. q! ~2 X, V9 ?4 ^1. 本来《简明增强版》是开源项目,原来是想供软件制作者无所顾虑的使用这个免费英汉数据制作更好的英语相关软件,后来因为自己用,做成了mdx。
  h2 x$ K9 ^/ c. `8 S4 ?2. 希望保持《简明增强版》的版权干净,虽然有些偏门词语释义搜索到bing或者有道了,但是该词典主体释义都是整合的网上其他免费资源(MIT / GPL / Creative Common 等协议)
% Y, r0 G  w# T/ f% F( L3. 希望大小可控,并不是所有人都愿意为了一个简明释义下载上百兆的东西。
" S! p3 y3 G$ N; p, d' d6 M0 z
& F! V, |" A3 [3 {听从几位网友的建议,另做一个词典,这次升级将抛开上面这些顾虑,只考虑如何做一个 “更好用” 的 mdx :
% @. G2 j0 z  B% {2 v1 s8 H& [
/ T0 j. i& a; n6 y( g' W& ^
2 }' ]+ b6 m4 Q! g. H2 O1. 对比《金山词霸2007词典(158本词典合集)》,增补欠缺的 36万词& W6 a. P& j7 C; W+ R$ j% K4 g( s6 a

% R; m! x7 d% i( I那天刨旧帖被我抛出来的,被分割成附件里的 287个包,废了我 574的积分,鼠标点了进40分钟下下来,没办法,内容太吸引人了,然而下载下来打开看了一下,
" r$ T) e) q" R' `0 ]" o9 m格式乱的一塌糊涂,就是把同一个单词在《金山词霸2007》的158本词典中出现的条目罗列一下,有的单词同时在10多本词典里出现,很多重复的释义,我导入的
* N3 G4 O& d+ _7 a8 q: \时候把他们都整理好了,去除乱七八糟的东西,只保留不重复的释义。3 P4 w% h& ?; |" n, Y7 ~
3 h) x! Z5 ]) X+ p" ^" [& l
这 158本词典包含哪些?详细见 原帖 10楼的列表。
* R1 T$ f( u4 t' a0 T( \/ L, e& m- `0 K, r4 U8 d* |5 P% i7 p
如今你下载了 这个《简明必应版》就等于同时拥有了 “词霸 2007 合集”  158本词典的英汉部分了。
. q7 J$ a6 }% C' h# p  S1 U8 w2 [) C+ f+ [  U4 J/ g

/ y3 j: w' \0 w  c* F2. 对比《全医08总动员》,添加欠缺词条:58万
2 _! K( o  {7 i8 j: z( ^8 {+ e, v! B9 U0 B. q: K
架不住网友反复要求,医学词汇数量十分庞大,起码是其他专业词汇的几十倍,因为大部分人用的少,所以迟迟没有全面整合,这次下决心全面整合医学名词。# K$ V( S* y, h! o+ a; q( N* B3 e  N
希望对从医的同学们有所帮助吧。
0 [$ t- p6 L7 p  g
+ I- B* D  a% _! d6 D/ V
4 {, c: {1 `& C0 e3. 使用必应覆盖前 40万词汇释义,再使用有道覆盖前 7万词汇释义
+ A/ H, z( ?9 ~6 [9 i9 e
: {) _& `* I" X# k( N. f' {先前《简明增强版》的核心词汇是我数年收集的各种免费资源,质量参差不齐,这也是大家最希望改进的地方。之前受限于种种,一直没法解决这个问题,2 w2 B- y+ e0 R( \  x2 |; [$ r
还想过人工纠错和校对,但是毕竟不是商业公司,没有团队这事情基本没法弄。
. ]3 x6 ~' ?: l' w# D, _. T, v/ K3 O2 w) C1 A# X
如今《简明必应版》将满足大家对释义准确度的要求,经过反复对比发现,有道的基础词汇最好,而必应的非基础词汇释义比其他都高一些。因此,将前七万单词
: Z( n. u) O/ t# f(COCA前6万列表+柯林斯词头)用有道的释义覆盖了一遍,再将7万到40万的单词(coca 40万列表),用必应覆盖了一遍,彻底满足大家。  L/ ~; x$ y% U; b# W( @4 ~1 C

: R1 |$ a* i# J, z3 T% w发布前我同时用《简明必应版》和《简明增强版》照着词频表抽样对比了几百个基础词汇的释义,质量确实有了不小的提高,大家可以下下来对比下。* o8 e. {8 X: A: a
# \; p( L( v. ^; b2 P  Y, G, M
这也是本次更新的重点,因为大规模引入了必应的释义,所以叫 “必应版” ,“有道版” 好像太招摇了,毕竟是国内的,躲着点。
9 p% ~; Z$ z" W9 _7 }, W
" _% @& ]' ~" @5 D4 n! I! ?4 a; J- O
----------------
4 i; o& ]% h: Z- s放两张《简明增强版》和《简明必应版》的对比截图:) J" m8 [% Q& I# o# a

, q- z: v* l8 e! ]5 }kiss:: L7 I3 S! S5 h% C9 V) t
4 N4 N* \- V9 I2 B+ v9 u3 f. R

1 C3 \% r/ z8 C" ^tug:/ l" w$ \3 s2 f8 N) h
( i& J4 H4 P( R: w
: _" x" Q6 p0 C" l# e
如果你看得仔细,还会发现这次连音标都更新了
  S0 h2 R6 S% s* T. b' ?. ?2 j* p: X, @7 E0 H5 h% n
----------------+ Z4 o) N' R& M1 a3 x% T
更新:2017年5月11日 增加 [原型] 标注 和 [比较级] 标注  + J# X: y  y4 {8 @, U
8 Y5 p& G/ ~5 M% n- [
之前我幸幸苦苦分析 BNC语料库跑出来的所有词汇的复数形式,各种时态,比较级,结果被导入新释义的时候4 k/ J9 z& M4 ^0 v, R1 T* @
覆盖掉了,比如查询 attic 这个词的复数形式,缘来增强版是会说 attics 是 attic 的复数,可惜必应版被覆盖掉8 f3 G( g" ?+ F' U4 |; {
如果不加以标注,那么学习新词汇的时候就会形成误导,让人觉得 attics 才是阁楼:
' g8 g1 K$ z7 a1 K) V2 _" U. s
. m8 b5 b6 m; A# ?# ?( m3 e3 y0 M" L
+ u. T( y: y. D  g! {  Q$ G: c
作为一部负责任的词典,这基本上是一件很难容忍的事情。因此,今天重新跑了一遍 BNC,计算了所有:复数,
' Y* P: g4 k' N: [. H比较级,最高级,各种时态,以及他们的原型单词,新增加了一个字段,叫做 [原型]  效果如下图:
: I: P, f8 I9 F! b
7 U6 I3 f0 u5 F) O1 \/ L2 W5 c/ T0 r6 X# L, M/ F

. V6 t# d; f5 u$ n* K- X4 }) B4 ?这下就比较清晰了,attics 阁楼,来自于 attic,是 attic 的复数形式,GoldenDict 里还可以双击 attic 跳转会原型词
, a9 `( r* f3 e# Q这次标注以后,就不依赖于上面的释义了,即便上面释义没有提及来自哪个词,这里也会显示。8 _6 E: Y- A% j( ], E
6 n0 N8 [$ M* l4 c
这次标注增强的同时,还增加了形容词比较级和最高级的标注,大家可以查 good 测试一下
$ b. x8 O4 n7 B. h" {& o8 u1 M9 L1 i% Y2 y4 [
----------------
1 B; y9 j  ]8 |! n更新:2017年5月13日 修正上一个版本标注错漏和遗失的问题  / @: P" q3 `! V6 G7 _  s4 r
有朋友反馈上一版本:
5 E  K8 J  y3 ^4 |9 z& {1 F% `) V% Y* ?9 w: ]3 c
1. book/well 等, 作为动词时候的时态变换比《增强版》丢失了几个时态。' V. I) e% a. v2 N7 o" N1 P
2. talked 的 [原型] 只说明了是 “talk 的过去时" ,易让人误以为过去分词是另一个词,改为完整说法 “talk 的过去时和过去分词“
, ?) V* X6 m6 u- g  j3. 一些词语的 [原型] 信息缺失。$ w" }, E7 L% P9 J1 T8 y
. O( v, ~- ?4 d' Q) D
这仍然是这次导入新释义和新标注引起的后遗症,之前用 BNC跑完以后都要用 NodeBox 等自然语言处理工具包
; K$ q- \. v' F3 M$ F再跑一次词形变化,v2 覆盖了以后只跑了 BNC,这个版本一次性补全这些信息了。
5 y# `, ]# N. x+ z& g
3 M; d! v5 N1 [/ m( S另,[原型] 的叙述改进了一下,从简单的叙述:
. a6 L. d7 K2 c: f: A) k# L% l" L- p- S6 a2 E. n; A
[原型] attic 的复数
. T3 z( p0 x& d- z
- w  f3 D6 ^+ v9 s+ e+ ?3 R; R变为一个完整的句子:; B  H6 n# _; j  T* p. }( _- ^
* g, b2 Z& i3 p& `' l0 a' }
[原型] attics 是 attic 的复数
" R- @: j$ V& O0 y$ v( k
/ N6 H2 B5 _) G: K主要怕表达不完整,新用户看不大明白 [原型] 是什么意思,这下 OK了。- L% A5 k6 V/ l) `
0 @. u6 I3 e2 L
----------------
& _* B( q& X) x/ [5 m5 p8 R# H  \ 欧陆请使用专门为欧陆制作的格式 / X8 n( E# t+ J3 V( }1 G/ f1 U

% l: R3 [9 z- s  L% g* y! X由于收词量巨大,有时候你查询 one,欧陆里会同时出现:one, one-, -one 三个词的释义,因为他们 strip (单词去除下划线横线等)
( c. P9 K' B5 L; V. t  q过后都等于 one ,而欧陆搜索是用 strip 过后再搜索的模式,所以你查询 one ,也会同时查出 one- (one 的前缀),-one(one的后缀)* i: v7 _4 G$ g4 \5 P
来,这些前缀后缀还不能删除,比如:" ^0 }7 i7 E' N/ W2 D) q9 L8 ^

/ Z- d4 A4 c8 O& Talgia:冷痛感
1 m. Z  H) V' g. R+ h-algia:[医]〔后缀〕意为痛

0 R+ W4 T) ^' M0 _- h$ Y4 P1 M" G- n1 n7 H) i' M
这类前缀后缀,感觉不能除暴的删除,所以欧陆里面直接使用 mdx的话会同时显示多个释义,推荐直接使用为欧陆专门制作的 eudic 格式,
' n& W7 w! C- R# H没有这些问题,毕竟 eudic 格式是欧陆的原生,mdx是兼容的,和本身欧陆机制不大一样,词条少没问题,词条多,索引就会有上面的情况。+ y2 Q1 {8 z3 q( m2 {* S

' H2 S. T7 H9 w+ h* G. I另,本词典基本也收录了各个单词的衍生(时态,比较级等),所以在 GoldenDict 可以把构词法关闭了(morphology)。# [9 d+ i& H4 {: O  R
9 J, N2 M' M7 S9 N2 M

8 ~) o* c5 _! e9 o4 X# P( A----------------
: C7 V) M2 n9 P更新:2017年5月13日 二更,添加 Kindle 版本词典  
4 [) y0 J5 s5 @' X( j2 J
$ t! j7 D! \8 H# zKindle 版本的默认字典篇幅太大,查一个词要滚屏半天,有时候快速阅读不需要那么详细的释义。
# v0 ?! z  C1 Q/ t& [6 m& u且 Kindle 字典收词量都太小了,因此做了一个 Kindle 版本:
# l3 y. X- d5 L0 v( c4 T& H
! H6 L# c& X- \5 x
! K' G- b9 w' S6 \! t/ L由于 mobigen 制作词典太费内存,amazon又没有发布64位版本,词条多了,内存超过2G就崩溃了。
4 |5 F7 x9 W; t& ]# j因此 mobi 版本词典选择了前 100万词条,虽然没有mdx那么完整,但已经属于 kindle上最大的词典了。
( e! `6 W4 E4 c$ _1 ]  b& j! i3 D; c
----------------& M5 t: w! d& o7 L# J+ q) D
更新:2017年5月20日 更新,修正历史积累的众多问题  * ~1 m) R. @7 q2 h* p) Q7 s; s
% X+ f) i8 d- M% K1 U5 y
大规模引入 bing释义的时候,发现 bing 搜一个词的复数或者其他变形,会跳到原型词汇上去,比如搜 attics 其实是会跳到 attic 这个词上,
1 U! w8 t" L; h) {, l导致我抓 attics 的释义时,抓成了 attic ,却少抓了一句话(attics是attic的复数),于是下面包括音标什么都是错误的。3 _3 }; y, N  n: S2 h5 a
- u- j/ p& ]$ O- a; J& q
具体抓了哪些词已经无从考证了,反正 bing上搜索 动词 名词 形容词的所有变换形式,都会跳到它们的原型词汇(lemma )上,后来0 k- E( P& x) _# R+ f- g
上一版本引入了【原型】,这一版继续完善,具体更新如下:
+ Y( T1 T, p. D' z% u' `2 a; A& J$ c$ K0 u$ u. {. n2 C8 x
1. 修正所有非 lemma 词汇的音标,之前全部被bing覆盖成他们 lemma的音标了,你搜索 attics 看到的是 attic 的音标,如今修正; D% d& i% A7 ~
2. 完善形容词【原型】标注,前一版只会说 higher 的原型是 high ,现在会说:higher 是 high 的比较级(v3只做完了动词部分)
" u) X; {) V& C1 ?3 @6 }( H$ a( ~. I3. 完善核心20万名词(语料库+主流词典筛选)的【原型】标注,补充他们的复数形式,并不是所有词典软件都支持 “构词法” 。- m9 M0 o) C7 c7 E" `
4. 我把 bing 覆盖过的释义中所有非 lemma 词条都替换成了金山的释义了(接近13万左右); |" l, f+ \& ?& f1 y( S1 ?
5. 删除地名里的全角逗号:"China,Khao" -> "China, Khao" 当时导入地名时不留神,让全角逗号混到词头里去了,避免查单词为了个逗号还要切换中文输入法。/ Y, M$ T3 \7 U' Q
6. 规范一点,【过去时】改为【过去式】% _! R# ~7 |% C) e( \9 }: @) `
8. 规范化 HTML 的 <br> 为 </br> 解决 SuperMemo 里面显示不正常问题& X3 n& a: N  a' c
9. 重新制作形容词的 【级别】修正形容词的比较级和最高级有时候有误,比如档次 sawn 。/ ?# G( f6 M% D
10. 修正 zhu1234 提到的 cartfuls 等词汇排版有问题的词条 5万(当初抓有道释义时,忽略了某些css对排版的影响)。8 r( g+ c% @) Q5 Y+ I, U+ I+ N

+ \/ C3 ]9 D# w; ]( x这些奇奇怪怪的问题解决完后,准确度得到进一步提升
- I  h7 T& h( E+ J7 l0 A3 X# q% l4 v' u) Y$ i( u' e% U  D

7 U1 ^' I+ n& V----------------. }% U, S+ Z  i% J
更新:2017年5月21日 更新,完成前40万词的所有形容词级别,动词时态,名词复数的整理
% O* c& j7 w( G. z+ M$ w# A1 D: B6 T" M0 Y* V9 d3 \. |
至此为止,引入必应释义带来的问题,基本消除。就核心 40万词汇而言,包括所有单词的形变。
3 o( x' }. s2 E1 r6 E( M
5 L* ?& M( U# f4 k! R* N' ]& R名词不论单数形式和复数形式都能查到并且有标注
$ b( U8 o( g6 c动词不论什么时态都能查到并且有标注
, O1 f+ M/ j! C2 |形容词不论比较级还是最高级都能查到并且有标注
+ m1 u8 w$ b7 t5 Z$ ~% u0 I7 @) }8 f# v5 x/ j" K" j  o2 u, B$ Q
为了让核心 40万词汇所有标注都查得到,有补充了这些词汇的各种变形变体,当然大部分各个单词的变体以前都+ z" O. P8 @; ^* e8 v
有了,这次补充了 14万词条,使其变得完整。
; a* O; p/ q5 k8 D6 `2 @' {$ x' l$ N5 I7 @1 O/ X
连续做了四个版本的标注工作,终于完成。至此,本词典已经不需要构词法 (morphology),因为并不是所有5 M) ]% G  z4 P
词典软件都象 GoldenDict 一样,支持构词法,比如 kindle,mdict,欧陆 等。本词典对核心40万词汇基本不管单词
( L7 |# ]! J6 f3 L: \" d. ^的何种形式都能查得到,极大的提高了阅读查词的体验,而构词法的数据库一般只有17万(Hunspell),: e4 L# X1 O8 \' x
这里是 40万的词条。
* {( O$ Y/ x. Q! ]- o$ ~  T& o/ M1 T$ H6 d7 k

. c2 M& z! Y* K0 W0 k( E8 F从增强版到必应版,连续发了近30个版本,如今收词量越来越大,发布一次耗费的时间越来越多。而 GoldenDict
, v8 o! Y1 r3 C" J索引的时间也越来越长,打算先休息一下了,近期如果没有大的问题,等隔两天弄完 Kindle 版本就先告一段落吧。. e# w5 O9 t, |& v+ b

8 C& s! L3 H- B8 c(注:最近数次标注补充和各种词语变形已经同步更新《简明增强版》)- ?+ `! S8 k' p7 G$ f; T+ Z/ x5 p
8 X: g8 |- U/ H9 b
----------------
. g- _( Y# Z3 A! Z& ?1 e更新:2017年5月21日 二更,Kindle v5版本 7 }( V  U, d3 \8 B1 p& T' I
; K% _" Y/ W1 h9 g" k) u
虽然 Kindle 的 mobi版本词典,收词量没有mdx那么多,但是任然包含前 40万词汇的所有变形。同时新增词条 20万,主要是补充前40万各种1 f/ V& j8 Y9 l/ P1 }6 O
变形的欠缺部分。同时一点点探寻 mobigen.exe 的内存上限,估计快要崩溃了,冒着危险,我又对比《21世纪英汉大辞典》给 mobi 版本补充
0 L4 P7 f9 m7 R3 d# H了 10万欠缺词汇,总共词条数由原来的 100万上涨到 133万。
8 v2 z& j  N! A, k) M# g0 |
& j2 q" u$ Q% ^: K8 L/ t; V' z这次拼着崩溃的危险给 kindle 弥补了前40万单词的所有变形,就是因为 Kindle 阅读时一般动词都是过去式,名词很多都是复数,
3 S1 t5 L! B" |3 m4 }( A" }kindle词典又不支持构词法,补充了这些变形,阅读时能比使用其他词典顺畅不少。然而用 mobigen.exe 的 -c2 压缩方式,可以压缩到最小,但
6 C4 N& c6 n/ L/ C是很费时间,133万词条制作一次 mobi需要压缩 16个小时。$ y5 K) ], d' N! S  o2 g
, L8 T3 \8 `4 c# `
有网友建议出 concise-bing-1.mobi 到 concise-bing-5.mobi 五个词典,每个一百万词,我顾及我的电脑要跑 80个小时,基本上做不了其他事情。
; M; `0 q  O. p; d* ?) T2 c; G所以大家先安心使用这个 133万收词量的 Kindle 版本吧。
) U% g8 a# V( r0 j( a/ _  z9 P+ m9 a1 D2 @, Q" z2 X9 p( v& R
----------------
! y8 h/ R* `$ _' S: D( l更新:2017年6月3日 v6  0 `8 c3 h8 O4 n/ }& r
7 b# B% @  N# J/ l+ Z: y) _
1. 纠正导入地名时误导入的包含中文的地名,如 “/青山道Castle Peak Road” 等十个,感谢 @idict 帮忙校对。9 a' N( X& O8 A' S8 J
- T' l0 e% S  _& ]) ^* c* k- w: j
2. 纠正导入某些外来词汇时,某些单词前后包含多余空格,中间包含超过连续两个空格,导致查出重复的词来。
6 r# S7 Q* f- [" k! S+ a" [# x网友反馈:in measure 这个词能查出两个来,按理我设计的词典数据库同样的单词只有一条记录,经过检查发现,原来是两个单词:3 x6 X2 i/ Q- x) L, f2 I. K
in(一个空格)measure 和 in(两个连续空格)measure ,导致查词的时候同时查出两个 in measure 来,搜索了一下这样的词大概有7000个,: ?5 o7 Q8 x, A. J
经过纠正并删除多余后,问题得以解决,不会再有两个一样的词了,也不会存在连续两个以上的空格。7 S) k0 @4 n9 w$ u# a1 Y
; y: e4 G) ~5 p. a) J
3. 修正某些单词中文释义欠缺,只有一个句号或者逗号,应该也是导入或者抓去网页的时候数据来源的问题,如 adepted,be granted 等,
9 u4 i+ `/ w& D7 i共计两千多补全了其中800 找得到中文或者英文释义的单词,感谢 @idict 帮忙校对。7 a+ R# k2 \; K

9 |  K/ n. B) E* ]" o8 P& z4. 使用必应覆盖前 40万短语释义,之前主要忙着覆盖单词释义,短语只更新了少量。这次更新了40万短语,选择范围是:/ p4 s" B  G) x; N
短语词频词典(20万)+增强版早期76万版本的所有短语(27万),两项合并去重后,差不多是 40万,常用的应该够了。! [7 Q. u0 g/ }) V, D+ p
( T) N6 n7 T5 i
right now(旧):5 x8 J3 w+ `6 K  n  a$ }( D  p
就在此时
# d- T& {1 x! q2 m: m
- a- R7 K$ Y4 \right now (新):; `6 c2 C9 C2 l2 M3 E, h
[rait nau]
) U! S( d. y& c1 A; n9 T$ A) H3 pna. 目前;方才
, h$ P) c) P- O; r1 T[网络] 现在;马上;立刻

3 {  d  L) D( V+ [$ b
; {: a0 W5 _+ }( p4 \right of abode (旧):
! Z) [9 U% g. t; l* `- B居留权
. `3 T& t, w. @2 M8 ~$ O# O& i" d: B0 U- f. p' C
right of abode (新):
0 _2 e& J# f; t! u- J1 G2 v[rait &#596;v &#601;&#712;b&#601;&#650;d]) ]: O' s) q) I- z7 ^
n. 居留权
0 }# y, u- z0 Z4 ~0 V6 J[网络] 居住权;居港权;香港居留权

' W3 T- t3 w, }& i% G
' ]: r' z6 A: V# Z: ]6 y8 Z' K( D/ B4 A0 |8 ^; B, a3 d' N- l
这样短语释义应该会比之前好不少。* d% o# |+ V" G1 \  r+ N
' P; U; I2 g" I
----------------2 V; f2 {" v1 S+ ~. C% Z" q
更新:2017年6月5日 v6  CSS 版本 ) J9 u8 Q! r, U' S" _

' {9 h" G2 T& `( I3 \9 V& q5 l经过最近一个多月修复了数十个小问题后,本词典质量上应该不那么山寨了,也是时候逐步完善各种不同的版本,7 H5 ]5 b. O  z4 Z
感谢 @idict 的指导,帮我做了一个 css模版,我再其基础上又拆分补充了一些样式,效果见下面截图:
0 z: D7 h  A9 P* L/ x
+ E8 M- ~! `2 e7 Iperceive:
2 z; Y- e& G' K/ B0 C3 u
/ W! R3 S  T6 ?7 B0 o' C* G3 C# G* O% @% R) b
gosh:4 G4 X& t' L: ^
; Z; o* A5 Y* l! o1 ?

/ ~; A- ^# E8 gornate:( D' k5 \& R5 W0 e$ m5 ?( T/ a  p, Q0 h
6 R% Q' b. l! F/ U& M

' `# E2 V  y1 L/ q# WYoga Pants:0 z+ `5 k4 j- Z7 f( H
0 o/ g5 H. ~  u6 j! n
4 r* |( m% A. |% j$ T" Q
right of abode:! n0 N1 P# u% m2 s5 [1 p

, z8 j, t. x4 Y5 U1 ^: ]! S8 X% g5 z1 h, z' I/ }' ]2 q
追求视觉效果的同学们,如今 CSS 版本和其他排版好的词典放在一起,不会那么丑了吧?
3 L. F* c. j8 _, l; \- U9 c& Q% o5 t' h( r4 H6 S0 i

6 x- K- r1 _3 b" j----------------  Y0 y8 X6 b8 r' X) v* j
最终词条数:432 万
' J! Z. J( b  T* x
! J" s5 R, N" u# C' V下载地址:9 h+ |6 k. k" V: w/ a# T
http://pan.baidu.com/s/1hsopeRy (6月3日 v6,包含 Kindle 版本 + CSS版本)
, Y7 y, P: a, \* phttp://pan.baidu.com/s/1kUVRzGN (5月21日 v5,包含 Kindle 版本)
9 k6 R' w5 S) t' e/ Nhttp://pan.baidu.com/s/1o8hq8BK (5月20日 v4)
, a9 T3 }& C# a' z, T. Khttp://pan.baidu.com/s/1c19eHhu (5月13日 v3,包含 kindle 版本)
0 b# Y1 Z  p" H# _$ j4 y; jhttp://pan.baidu.com/s/1o8oHJsQ (5月11日 v2)
% q% W. J' V4 }) |3 A- nhttp://pan.baidu.com/s/1dEFifst (5月9日 v1). ^% W, H, Q7 i5 {/ _

! J8 l. e1 w3 j  G  n# k0 |+ L(照旧包含:mdx格式,stardict格式,欧陆格式,v3 新增 kindle 版本,v6增加 css版本)
; c% \8 C4 w, ^1 _- f(原有无 CSS版本并没有删除,包含css版本的 mdx 在压缩包:简明必应版-css.zip 内)+ }1 M" |' C0 m3 Y' h: X( L
2 I. |' T0 T5 Q8 \
欢迎勘误,如果发现释义有问题,或者其他欢迎回帖,以便后续修正。1 L6 K. Q$ m& q, U3 M5 l9 z2 Z
-------' v- ]+ @0 k: I1 h

评分

40

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

 楼主| 发表于 2018-5-16 23:57:59 | 显示全部楼层
发布一年多了,感谢大家支持,公布本词典源数据,提供 CSV 格式和 SQLITE 格式,给有需要的人
& u- A* z+ U9 L2 D/ J3 ~; g* B同时增加备用下载地址:
' S4 X  V( G. F" P
8 B) \& [- u3 e2 E/ o! }* d, [https://github.com/skywind3000/ECDICT-ultimate/releases; `! f1 O* M2 X3 n  W
4 O9 q* i4 b9 y# Z" W$ F
有备无患
. k' m1 ]8 v/ f' U3 O9 r  t& I/ N  A0 A& }  Y$ z
数据各个字段的含义以及用法见:  b+ @! q. a5 [  J' p
0 l6 S  B8 b/ k% w) @% F
https://github.com/skywind3000/ECDICT

评分

2

查看全部评分

  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2017-5-9 10:51:07 | 显示全部楼层
    本帖最后由 Saxons 于 2017-5-9 10:59 编辑
    - j1 T0 R5 z/ v8 M6 }- \1 o0 U, [- n* T( E$ @* K4 C- ]
    楼主在这个帖子的标题上加个收词量,像简明增强版一样的增加冲击力。/ S$ _6 O$ Z) E- K( [
    另,我有一个思路提供给楼主参考,可以无限制增加英汉词条,只不过不够严谨,而且释义会错误百出。
    . d+ Z6 Z. P! ^这个思路源于别人的留言,有一天看到别人说不懂的就用Google翻译,突然就有了这个想法,因为连线翻译是方便,但文明不总是在任何地点任何时间都起作用,离线是一种后备和保险。当时没提出来供楼主参考是怕被别人说吃着碗里还看着锅里,不尊重别人的劳动,所以就没有说。今天借楼主的新词典发布,顾虑少了,也就说说。
    7 H6 R( N$ |% r: F; C思路是这样的:! U  t, @& P$ ]! M& i8 y/ b9 C, A
    凡是没有中文释义的词条,英英释义全部用Google翻译,即可得英汉对照的词条,为了和其他严谨的中文释义相区别,可以把Google翻译的词条标明from google即可分辨。
    ' k3 i! w' n7 _& y8 H  r) U当然也可以用百度翻译或者其他在线翻译,只要标明出处就可以了,Google只是要好一点。
    6 [  B4 |8 J$ m( y" d6 v这样就可以做成一本整个网络英汉收词最为丰富的词典。5 V: D  ~: z$ I
    它的优点就是可以无限制扩展英汉词条,不过缺点也非常大就是释义因为机器翻译的缘故,错误会不计其数。" a! e+ P* Z9 V4 e8 Q% G
    但我坚信一点:即使错误也胜过没有。
  • TA的每日心情
    开心
    2020-3-15 16:40
  • 签到天数: 402 天

    [LV.9]以坛为家II

    发表于 2018-4-2 18:51:33 | 显示全部楼层
    用 Opencc,根據 @skywind3000 於 2017-6-5 的 CSS 版本,做了一個繁體版。
    ) ]" K, s8 d( B* l8 n# O' h
    1 S1 ^$ R& s8 l$ x" |  J% t7 u, l, F1 _; R: d0 b7 s
    链接:https://pan.baidu.com/s/1R9QSIwIYnp51r9ipEOsiTg  密码:emg75 s1 n0 P3 {  @) C$ V0 l

    1 X7 Z; z+ x* A$ n6 w. l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2017-6-5 22:25:07 | 显示全部楼层
    本帖最后由 ly1316 于 2017-6-5 22:26 编辑
    0 D* d" u( ]$ |  I" S8 N
    # i+ b: v! o+ D9 {8 U  Z- R这本词典向来不是以华丽取胜,反之是以丰沛的内涵,成为众所瞩目的焦点。如今换上一袭新装,美丽与智慧集于一身,款款动人,叫人不爱也难!谢谢S大赋予这本词典丰富的生命!

    点评

    确实很好的解决了我对医学词典的需求。  发表于 2017-6-6 09:13
  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

    发表于 2019-9-18 07:09:39 | 显示全部楼层
    本帖最后由 lgmcw 于 2019-10-21 03:40 编辑 ' w& x# S7 g9 d- v( V. j

    1 i; K* I* [- X% K2 i更新:
    4 c1 b- k) @& P我已经把正确的词频信息加入这个单独的词典: 79W词频[BNC+COCA+iWeb]+1011m发音库
    - U; [( L' V1 X# ~8 D- K) a
    简明英汉这边可以改动css隐藏的词频信息避免重复。6 ]& a$ {" q2 h5 w* P) n
    ' {% v7 n( Q/ T6 V; p$ m
      ]) b" c% O1 P. y5 g/ R+ S- C

    : v( |5 |/ U  r4 j3 q
    1 p: b, ]* z- e9 _————————————————————————————————————————————原回答:
    8 ~( ]* z3 V) E4 O  S8 f2 |. N! z' Z
    非常欣赏这部词典,是我所有平台无脑置顶的选择。
    ' A; y# Z1 s/ u1 k在使用中我发现,柯林斯星级词汇有一些问题,非常多的词汇漏标和错标:比如take只标为1星(应为5星),will标4星(应为5星),MP、Corp、BBC、African、Senate、bag up(这个解释也有问题朗文译作用袋装)、band together、bed down、bid up什么都没标(应为4星),Chinese、White House什么都没标(应为3星),Celtic、Cold War什么都没标(应为2星),Englishman什么都没标(应为1星)。' ?: y- W3 a1 U
    另外柯林斯还有一个比1星词更高的档位叫0星词(或者理解为半颗星),我觉得很多单词十分有参考价值。0 a% N. A, i5 H$ @5 q/ s
    我把整理好的词表做成了excel,不知能否更正、更新一下词典:
    " j! \: U8 X1 chttps://github.com/lgmazure/ECDICT-ultimate/blob/master/柯林斯词频%205星至0星.xlsx
    # _+ z0 I9 C! i
    ; X) c- A3 j4 g! X8 H; R: f但是爱之深责之切,因为这本用的多,没有再使用别的带柯林斯评级的词汇表了,所以这一点瑕疵一直念念不忘。我在github里挂了一整年的issue,LZ可能太忙也没有回应。如果实在不行,我也只能自己动手整理一下了。还有,oeagrus这个词查不到。. c- d2 {2 Q8 n3 Z% S
    2 r1 Y$ H" V( p; Q; j9 |+ E

    ( {1 n* k8 y) K9 U' p' N  O% B# O8 Y" h
    ( B7 r8 K  v) Y/ Z* f) A- E5 ]( a
    : z/ {0 b# E+ ^. C
    下面是一些统计信息,原来在扇贝网上发过的:+ ~3 t3 X( |( D( X- c! o
    7 x9 f* O) l- \" P
    柯林斯五星词汇:1352
    ( [% h9 [# j9 s) ?4 Q柯林斯四星词汇:1388 : k# c" q1 y8 Z8 t2 x' n  |
    柯林斯三星词汇:1831 ! m3 v& U* O9 [8 q0 G/ m
    柯林斯二星词汇:3407 : ^/ A6 u: b2 I  p$ p, j
    柯林斯一星词汇:8228 - K  q% s/ L0 M$ `, o
    柯林斯零星词汇:17122 : k. g, O( `9 b3 g% R% ?$ d

    6 ~! O; {7 ~6 u& \积累词量:1 \4 H7 R& O- I% {% f5 ^. ~) G/ v) i
    柯林斯五星词汇:1352 ) b) o- K% A! q" t6 y
    柯林斯四星词汇:2740
    $ f" U+ n3 P$ F- p0 ^柯林斯三星词汇:4571# T, F+ H, Y* w( R, x5 F
    柯林斯二星词汇:7978 * b& F0 u* U5 J. |2 n
    柯林斯一星词汇:16206
    % m+ J) X7 @7 u- ~柯林斯零星词汇:33328
    4 K+ @( q5 C; l0 W! u0 V. v! D0 V9 }

    / u. x  f9 E; b; M柯林斯找出了英文中最常用的3万3千词,标记为5星至0星。这个词频统计非常实用,原因是柯林斯拥有庞大的并十分接地气的语料库。因此背完单词用不上的情况基本可以杜绝了。星级词汇提取自柯林斯Collins Cobuild双解第五版官方光盘。  k% \- U/ s4 H- G( q3 a$ R
    0 ~8 Q4 h1 T2 C( E3 g! k
    ★★★★★ 5星词汇,有很多动词短语。源列表5星词汇共有1352个,词频是最常用的0001~1353。
    + l6 w' C! L8 e# H) t# X+ p7 I5 L2 x$ I  J
    ★★★★☆ 4星词汇。源列表4星词汇共有1388个,词频是最常用的1354~2741。# J3 ~  O6 M& q

      o$ P7 c7 T8 ^! G! E, e; _. R★★★☆☆ 3星词汇。源列表3星词汇共有1831个,词频是2742~4572。
    : W* G' \- P5 j6 {6 x$ s) ?4 i5 M
    - J+ W0 A' p, H; k9 R★★☆☆☆ 2星词汇。源列表2星词汇共有3407个,词频是4573~7979。
    ) t! v# B  F0 K$ I; s
    + }( [. i1 ]& |* ]" L( Q★☆☆☆☆ 1星词汇。源列表1星词汇共有8228个,词频是7980~16207。
    4 \8 ~& R7 l* Z( N& {; d3 Y- `4 }, n6 B
    ☆☆☆☆☆ 0星词汇。柯林斯源列表0星词汇共有17122个,词频是16208~33328。! K2 Z; I+ L5 i7 H5 @
    因为选词很接地气,里面甚至有很多口语化,生活化,英美常识文化的东西,以及一些十分地道的固定搭配,新潮短语。是想达到35000水平却又不愿意背偏词怪词的同学们不可多得的词表。
    ' U* g) l2 a' q" Z6 [, S
    2 o; f0 d4 Z0 j+ C; D+ h4 }举例0星词里的a la carte,在其他词表无路如何都背不到的,但是在外文菜单上极为常用,意思是点餐时按菜单单点;对应的table d'hote,意思是按套餐点餐。1 E- v. r) e+ B8 P) e1 C4 M% j& s
    ; \# f. E; s6 l( m3 x  \6 x

    ' N% N! M4 z$ g9 c$ t

    - `2 v2 Q( v( c
    ! \% x1 C7 E. z3 `) X5 ?- `! m1 q+ Y$ l; e: }, N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    开心
    2019-5-26 15:04
  • 签到天数: 38 天

    [LV.5]常住居民I

    发表于 2019-4-1 15:12:14 | 显示全部楼层
    感谢楼主的满满干货!
    ' g8 P$ y' e; i$ z请问这部 “2. 对比《全医08总动员》,添加欠缺词条:58万” 是不是也修整了?可不可以链接分享呢?感激不尽!
  • TA的每日心情

    2021-7-31 20:58
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2018-8-29 17:36:12 | 显示全部楼层
    这个词典真的很棒,但是这个词典上的柯林斯词频和其它词典上的并不一样,比如take竟然是一星词,是原始数据出问题了吗?
  • TA的每日心情
    开心
    2021-5-18 09:34
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2019-2-19 09:48:46 | 显示全部楼层
    这个词典用的最多,适合快速阅读的时候用,特别是便听边看的情况下,我用在欧陆词典里,欧陆本身有音标,不知道能不能隐掉这个词典的音标

    点评

    可以的,有去音标版本  发表于 2019-2-21 13:19
  • TA的每日心情
    开心
    2018-3-25 21:05
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2018-3-12 12:17:56 | 显示全部楼层
    感谢分享,真的不错。嘿嘿

    该用户从未签到

     楼主| 发表于 2017-10-21 23:24:11 | 显示全部楼层
    更新:解决欧陆版 estate 无法查到的问题,) \1 A/ H5 y2 q2 l2 l
    欧陆客服反馈:这个问题主要是因为你的扩充词库里面包含了一个特殊的单词"Estārm"        ,所以导致检索失败。我们这边会改进下,下个版本可以解决。$ L% f& C- O7 x, R/ }4 W

    9 c2 D' X! K1 o8 D0 @  p$ ^& E结果等了好几个月,欧陆还是没有修正,所以我再欧陆版本里删除了所有西欧字符,主要是些地名,绕过了该bug,/ j* _6 L( h( R6 F
    estate 等词可以正常再欧陆里查询到,同时对欧陆词典源文件进行了排序,经过排序后,输出的词典大小有所减少(其实这部应该欧陆的词典生成程序来做的)。/ }6 D0 b" t- d
    # N$ o' S$ l0 u
    **地址还是原来的百度云地址。
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 1338 天

    [LV.10]以坛为家III

    发表于 2017-5-9 05:18:43 | 显示全部楼层
    谢谢楼主细致而又耐心的工作。每次你的新作都能让人眼前一亮。收词量大,解释权威,配合其他英英的词典,相得益彰啊。
  • TA的每日心情
    开心
    2019-8-11 07:55
  • 签到天数: 606 天

    [LV.9]以坛为家II

    发表于 2017-5-9 06:09:50 | 显示全部楼层
    谢谢分享辛苦了,感谢楼主!
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-5-9 07:20:30 | 显示全部楼层
    这次可以尝试加入CSS 布局

    点评

    CSS版本已经更新  发表于 2017-6-5 04:31
  • TA的每日心情
    奋斗
    2020-12-11 08:54
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-5-9 07:53:47 来自手机 | 显示全部楼层
    大神制作辛苦!无私分享。不设限,不要密码,无私,感动。感激涕零。
  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 1440 天

    [LV.10]以坛为家III

    发表于 2017-5-9 07:57:01 | 显示全部楼层
    制作精美,多谢楼主,感谢分享。
  • TA的每日心情
    开心
    2020-12-21 10:01
  • 签到天数: 522 天

    [LV.9]以坛为家II

    发表于 2017-5-9 08:05:33 来自手机 | 显示全部楼层
    迄今规模最大的英汉词典,谢谢

    该用户从未签到

    发表于 2017-5-9 08:09:15 | 显示全部楼层
    不必为了个生涩单字或专有名词而翻箱倒柜,也不必在网页中来回寻觅,到底英汉最大的图书馆就在这里。推帖!
  • TA的每日心情
    开心
    2018-6-23 16:30
  • 签到天数: 237 天

    [LV.7]常住居民III

    发表于 2017-5-9 08:28:17 | 显示全部楼层
    感谢分享好词典。
  • TA的每日心情
    开心
    2020-4-12 13:04
  • 签到天数: 453 天

    [LV.9]以坛为家II

    发表于 2017-5-9 08:48:07 来自手机 | 显示全部楼层
    赞。多谢辛苦付出及无私分享。
  • TA的每日心情
    难过
    12 小时前
  • 签到天数: 1097 天

    [LV.10]以坛为家III

    发表于 2017-5-9 09:03:36 | 显示全部楼层
    谢谢skywind3000分享!!!
  • TA的每日心情
    难过
    12 小时前
  • 签到天数: 1097 天

    [LV.10]以坛为家III

    发表于 2017-5-9 09:03:41 | 显示全部楼层
    谢谢skywind3000分享!!!
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 149 天

    [LV.7]常住居民III

    发表于 2017-5-9 09:22:08 | 显示全部楼层
    非常感谢楼主的分享
  • TA的每日心情
    开心
    2019-5-9 19:55
  • 签到天数: 266 天

    [LV.8]以坛为家I

    发表于 2017-5-9 09:46:11 | 显示全部楼层
    加楼主好友, 太牛了
  • TA的每日心情
    慵懒
    2019-8-24 09:30
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2017-5-9 09:56:34 | 显示全部楼层
    这样的全家桶一定要支持啊,实在太方便了
  • TA的每日心情
    奋斗
    2020-7-26 22:40
  • 签到天数: 112 天

    [LV.6]常住居民II

    发表于 2017-5-9 09:58:34 | 显示全部楼层
    多杰多杰,多杰混响!
  • TA的每日心情
    擦汗
    2021-6-6 01:38
  • 签到天数: 958 天

    [LV.10]以坛为家III

    发表于 2017-5-9 10:05:17 | 显示全部楼层
    楼主牛b!真心感谢您花费的时间与精力。为数不多的好词典!光看介绍就服了:-)
  • TA的每日心情
    郁闷
    2018-8-15 10:25
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    发表于 2017-5-9 10:20:17 | 显示全部楼层
    浩大工程,真是辛苦楼主了。
  • TA的每日心情
    无聊
    2018-5-11 08:33
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2017-5-9 10:33:20 | 显示全部楼层
    楼主又出新作了,感谢楼主的劳动与分享
  • TA的每日心情
    擦汗
    2019-10-30 23:50
  • 签到天数: 166 天

    [LV.7]常住居民III

    发表于 2017-5-9 10:40:30 | 显示全部楼层
    万分感谢楼主分享
  • TA的每日心情
    无聊
    2019-1-15 16:52
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2017-5-9 10:59:39 | 显示全部楼层
    感谢辛苦制作的词典。
  • TA的每日心情
    开心
    2020-3-25 10:36
  • 签到天数: 65 天

    [LV.6]常住居民II

    发表于 2017-5-9 11:03:34 来自手机 | 显示全部楼层
    楼主无敌了,辛苦辛苦
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI ( 美ICP 0000000字 )|网站地图

    GMT+8, 2021-9-21 19:51 , Processed in 0.058582 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表