掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 123416|回复: 554

[英汉] 简明英汉字典【增强版】 震撼发布,全网收词量最多,词频考试大纲标注,340万词条

    [复制链接]

该用户从未签到

发表于 2017-3-27 23:39:55 | 显示全部楼层 |阅读模式
本帖最后由 skywind3000 于 2017-6-5 04:23 编辑 " ]: i+ R8 R, @+ X- I( W% S

0 s" g5 b6 t  h$ X, h0 e8 q2017年6月5日更新:增加 css版本,感谢 @idict 提供的 css 模版,以及相关指导,我又学了一周多,做了这个 css 版本,直接见文末截图吧
1 s8 Q; g! S4 o, [2017年6月3日更新:再次更新,修正网友反馈的数个问题,比如有的单词包含超过连续两个空格,顾及是导入某词典源数据问题,共5000多个, 版本号沿用 26
0 y; `: P$ F% P/ ^& K' R" O$ ~4 P2017年6月3日更新:感谢 @idict 校对:修正两千多释义只有个句号的词条(可能导入某些专业词典时源数据有误),补充了找得到释义的 500词,及其他零碎修正
1 H$ ^3 w0 h% ?2017年5月21日更新:完成所有前 40万词的各种变形衍生关系整理,包括时态,形容词比较级别,名词复数三项 9 v$ O+ d# x# n
2017年5月20日更新:增加【原型】 【级别】等标注,规范整理格式,升级代码补充部分词条,增加 Kindle 版本 1 W2 \* H. V: J2 S
2017年5月3日更新:词典大瘦身,删除垃圾词条(o-pen, go? 这些),优化mdx结构,重新使用 MdxBuilder 特别版编译,从 90多MB下降到 80多MB " I  c3 M2 z4 g5 k. B( u' m
2017年5月2日更新:《汉英英汉专业技术词典》内容涉及化工,生物,食品,医药,天文,电子等几乎所有科技领域,整合欠缺 8.5万,达 325万词条 7 a5 z, Y2 O( l9 u4 w# @( W
2017年5月1日下午:小修正,导入香港地址包含大写全角空格,上版本忘记删除了,现修正,顺手修订数条释义,补充点扩展名数据
; B" E$ E$ l2 p+ h6 ?2 L* e2017年5月1日更新:扫《经济学人十二万词频》,《ANE/BNC/COCA 17万词频》,《朗6》《朗4》《牛津简明美语》等,达316万,能订版了么?   _* Y: d$ d( Q1 k7 q/ v# U
2017年4月30日更新:经提醒,居然把 @zhu1234 的《短语词组频率》搞漏了,这么重要的东西,补充5万短语,达311万,这次确定告一段落了
% c9 ?& m' m/ S2 q- }( n) b2017年4月28日更新:扫《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万达到 306万词条,绝对定版了
0 L  D: V% M% u3 R" C( e. e2017年4月25日更新:新方法重扫OED/wiki先前无释义的五万词,得一万新词,收录 @ly1316 提供的大陆台湾各地地名,新增500欠缺地名,真定版了
- ^( K4 q& |* F2 I7 l$ T5 G2017年4月24日下午:十分高兴的告诉大家,writemdict 模块的bug被我改好了,mdict兼容问题彻底解决, 发布一个v16的修正版
) z( y9 {% S8 I) Z/ r2017年4月24日更新:此版本差点见不着大家了,词条数增长到 270万时 MdxBuilder出现闪退无法编译,writemdict生成的手机欧陆无法打开,详细见文末
! r+ f  L$ Z3 a. \: q/ v2017年4月21日更新:添加5千短语,同时完成专业词典扫描,新增从经融到计算机,医学到光学,法律到历史,植物到动物等 10万词,总词量 236万
. d, |, [' {6 }( l' g2017年4月18日更新:最后再发一修正,删除1万误导入的乱码地名,增补4490短语,优化mdx,内容不变体积减少11MB,谢谢 kyletruman 大力支持
; ?% E  c% [) I* P# e2 g" P- Y2017年4月17日更新:发布一个修正版,补充1.5万俚语和5000短语,总词条 223万,正式定版,见文末更新说明 6 _4 K7 v& @8 s- N9 x+ B/ l
2017年4月16日更新:为彻底满足大家对收词量的要求,我这几天尽我所能的把词条数提升到了最终的 221万(103万单词,118万短语),见文末更新说明 $ d4 _9 w& |( }/ k% y+ r& W
2017年4月14日更新:对比 OED 50万索引和 COCA完整40万索引,补充词汇到160万,应大家要求,补足之前一直欠缺的短语,见文末更新说明 + r; O* z/ W+ n6 \
2017年4月13日更新:对比Bing本地词库4万索引,Vocabulary的17万索引,OED 近十七年更新历史,继续扩充,总词量到76万,见文末更新说明 & w9 |1 s$ r8 Q+ y' k; `1 S  k
2017年4月12日更新:收录四万新词以及 UrbanDictionary 所有热词,总词量到71万,见文末更新说明 - j; }% |0 h! W
2017年4月10日更新:词条不变,精简释义格式:vi./vt.两条相同内容合并为v.一条,adj.->a.,全角逗号和空格换为半角等格式优化,更精简统一
$ ^! `( ?2 r* S3 `% a* V* \2017年4月8日更新:对比 @fxsjy 做的《屌丝词典》,收录欠缺词条,升级 MdxBuilder,内容增加但压缩后居然还小了3MB , i! X4 A& [7 u2 N
2017年3月31日更新:更新的 COCA词频数据,我之前找的6万数据可能有些老了,这次网友提供了一份可靠很多的数据源,重新进行标注 5 r, J0 s; x: b' x: b
2017年3月29日更新:完成所有动词的校对,补全 BNC里出现过而没收录的最后 200多个动词,至此名词和动词的校对都完成了。
4 k2 O( p' f6 A" n2017年3月28日更新:增加 GRE词汇标注,修订了一些格式上的问题,收录网友提供的地名和历史名人的名字数据。
, R. K$ l- Z" I+ F- j* u; v3 L2017年3月27日更新:发布词典源文件和配套 Python代码,在文末,你可以导出成你想要的格式,或者 anki 卡片。
1 p& F, N5 Q- b; y3 m' f' B2 R
5 Q, U0 w" U& n" _$ Z: H你用 GoldenDict / mdict 配套朗道词典,简明英汉词典时是不是感觉很鸡肋?他们号称收词量 40万,但是很多词你仍然查不到。
8 n5 |, }8 p1 z6 B& k% r" b. ~5 M7 X1 r- }  l# T
【简明英汉字典增强版】 收词 340万,全网第一多. I% A2 D! R' w0 ]6 G' W$ ^$ ^( X( y
! Y$ s9 q+ ?- C
你再也不会因为本地词典查不到单词而被迫去使用线上字典了。网上有的它有,网上没有的它也有,参考下面:
6 O' S0 [5 [  w+ _- S8 E; G" E# ^) U4 S, f+ e& f
OALD8:7.2万词条: R% b) r* S5 m- L7 a
朗文5:6.2万词条
, H' W3 y( ~4 n8 K+ U* [' sMerriam-Webster's Collegiate Dictionary:11.9万# k/ l: n  k, w' G
柯林斯 Cobuild 5:3.4万$ ]2 q( [! s6 ^
21世纪:37.7万9 h" g, r. a, o

1 G) V2 _6 O9 f% ]( O整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用  NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。
( G" \: u# L7 {  o4 t# K& D8 D$ v
并根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。
: x' f7 I4 M, B: |* v/ v
, w6 p$ m$ a5 T7 ]% J3 ~+ f7 i0 D3 j, s, k

/ }* j! B! n% n* f直接上大图,请点击图片查看全图,缩略图两边都被截掉了,看上面 《简明英汉字典增强版》,请忽略下面的剑桥词典,
9 g8 G, n+ P2 S4 Q) t$ I上面单词,下面音标和解释,这些没有区别,关键标注有四处:% o1 T# I8 m% O: X! x

) U; a! Z" y9 @" o' p" g/ {1. 音标后面:K 代表是牛津3000核心词汇,2代表是柯林斯两星词。
. _& E- k. g( j/ H1 v5 q6 \( r2. 下面的衍生词:各类简明英汉词典都没有,我用 NodeBox + BNC 语料库分析生成的。
/ D- h3 z8 T9 B. f1 A* B) P- f3. 考试大纲词汇标注,是否是四级词汇?考研词汇?
4 @; o% O8 r- p2 |+ H; d4 T* z- x4. 大纲后面的词频标注:7131/8802 前面代表 COCA 词频(按COCA词频高低排序,第7131个单词),后面是 BNC词频。
+ M+ P0 T: M/ S5 p: P" ?! F+ W5 {/ Z, q9 b# O
+ ~$ h0 h+ N+ P; r# r

$ s% e! x2 b8 x, z3 l+ T5 [再来一张,perceive 不再牛津3000里,所以音标后没有K,但是还有2,因为他是柯林斯二星词汇。* g# T; E: e* f- [( Y: j
; u0 L" t7 |; l% g) j- b

, ^+ i) E! p. R, U  [7 S" y! p7 W3 v/ l) T# T
同时根据 COCA, BNC 的词频前20万单词进行校对补漏,兼顾现代和传统,比如 Taliban (塔利班)这个词,这个词在各类 “简明英汉词典” 里和其他大辞典里都很难找到。
, ^0 W/ I4 s$ N) N; ]' J9 @4 \BNC 前二十万词里没它,但是COCA(美国当代预料库)里排名 6089,简直是重点高频词汇。$ c4 r$ m; m. |% n9 }3 v
. b( r& q  `- f
有了 COCA词频就好,为什么还要提供 BNC词频呢?2 J( y9 h# G! o7 l! c$ c: ]) l

9 x& z. D3 P; |' l很简单,BNC词频统计的是近百年的各类资料,而当代语料库只统计了最近20年的。quay(码头)这个词在当代语料库里排两万以外,你可能觉得是个没必要掌握的冷词,* J! Y5 Z* B# P$ I' F1 n
而BNC里面却排在第 8907名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多。所以你要看懂5 W$ U0 U" a& Q' C
百年以前的各类名著,国外的什么帝王将相才子佳人,你会发现BNC的词频很管用;而新闻时政,COCA很管用。所以只看一个,未免有失偏颇,两者都提供,有个对比。
9 P$ i0 c. D, L% s
( V# ^% L7 K3 H/ s8 B7 h% R* i7 D" K$ O  B8 D
9 \3 S/ e( A4 q9 U) \9 T3 l" ~
同时制作了一个“免音标版” 删除了头部的单词名以及音标(柯林斯和牛津三千信息整合到最后一行),也许你 GoldenDict / 手机欧陆 里面已经有很多字典了,
+ Z# p+ d: F% G5 [3 Y也许你不会想我一样把它在 GoldenDict 里面排第一个,那么你可以用这个“去音标版”,来避免头部音标部分占用太大空间,和其他词典一起放手机里看着舒服,保持小巧紧凑,其他都一样。2 @4 s3 O, R1 {8 C; e5 m- J* G
9 k  t" [- `  r# J6 Z1 k) z
1 r" }6 Z; y# u" h1 ?% I
好了,最后上下载链接:
* Q; R) C' ?0 u/ t" HPC mdict 用户别用 mdict 1.3了,尽快升级 mdict  2.0,因为 mdict1.3不兼容最新的mdx。测试过 mdict2.0(包括手机 mdict),GoldenDict, 欧陆(PC、手机),
! {- ^: R6 `2 L7 f( Y1 r" wBlueDict,edwin 统统完美兼容,惟独 1.3 有问题,不知道是不是 1.3对大型 .mdx兼容不太好。详细见:https://www.pdawiki.com/forum/thread-20612-1-1.html
/ m, c1 Z0 a  a

" ^1 ]6 M" r0 ]; V' b% w8 }网盘下载:
4 @/ C' F8 a/ whttp://pan.baidu.com/s/1eSP6SSi (2017年6月5日 v26 ,包含 CSS版本)( j9 a/ r# ~, {! z6 C

" V( P1 o: K3 W+ B备用地址:
/ g) d6 V# N+ P; b4 x* N2 \https://github.com/skywind3000/ECDICT/releases
  @) D- V0 D/ O4 n2 U8 V
  z  P* H; Q' d9 r, k- [4 T- B- j文件包括:; o5 |4 A2 y2 ^
简明英汉字典增强版.mdx  
( a0 }5 v2 Q! c4 T' a' A: \, [简明英汉字典增强版-去音标.mdx8 Q/ ~9 ~( n% l) z
简明增强-欧陆.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)
  _: g  B; f1 {! S4 j& `简明增强-欧陆-去音标.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)
& T( P$ v) w3 Q5 e. L$ R简明增强-stardict.zip (有人觉得 stardict 格式在 GoldenDict 中性能不错,我这次也做了一份)
; J8 Y+ a- P4 ]* O8 d5 O简明增强-mobi.zip (Kindle 版本词典)6 ?) J0 Z6 D& J
简明增强-css.zip (支持 css 的 mdx 版本,v26以后包含)
, B2 w, C$ D! n# A7 g: N2 N; [. ~! A+ |9 `
原版《简明英汉词典》和《朗道词典》,都号称收词 40万左右,但里面光各种医学化学专用名词就超过20万,真正重要的词却经常搞漏,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。; m/ n* |7 g* k* A" H' D
# x* @3 R8 t4 ^$ m- f
国内词库制作之不严谨,由此可见一斑,朗道字典(GoldenDict / StarDict配套的那个),居然连 “learn” 这个单词都没收,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。
  p9 D$ t; [: U* Y- E& E6 {' M# h2 [$ n3 C0 l
包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。
9 m' X( N/ C/ C! X# Z0 v. i4 \
7 a  X. E( }& v& ^" b% }和其他牛逼的词典放在一起,可以起一个参考补充作用,当那些词大部头专业词典里没有的时候,这个词典还能给你解释一下,免得你再去看网页词典。
$ y2 j8 m! Q1 A) ]/ X' d: _! [% E3 x3 C6 D. p0 y
9 ]& g- S7 P8 C0 G
数据库最新版(持续更新),以及数据格式说明,还有相关配套 Python 接口,见 github:
/ l' |6 h0 d6 Ehttps://github.com/skywind3000/ECDICT
1 f  B3 U2 \/ d0 L$ J. e  H
1 E( F7 ^2 t% }" eLICENSE 为:MIT + Creative Commons 双协议- k6 K( {* O& p6 X

% w( k2 _0 a7 f$ l! o# {+ X/ w. g  O/ E0 ?+ T
源数据已经提供,因为我只会点简单的 HTML,如果有排版达人能改个更漂亮的版本就太好了。。。。
* V2 V8 X" w4 f6 }7 p* \6 m  g4 U4 ?
--------------1 a) Q, `+ F( x$ f( g. {8 w: E
2017年4月12日更新说明:总词量达到71万1 I% G( [/ z  p1 p% b

# L* |0 j0 F$ S5 I对比了 “mdx痴迷者” 提供的 40万 COCA词频字典,补充了4万多我找得到中文释义的词汇(google translate,bing,iciba),比如 ever-better。
# p6 l; ~2 i1 T% N+ i
2 q; h0 s) o9 I' O, `扫描了所有 Urban Dictionary 热词词头,对比了本字典,欠缺一万多,再次搜索中文释义,找到8000多来自 Urban Dictionary 的欠缺词汇的中文释义,添加进去,7 a2 h) z# n- u& [) e
各大翻译接口并非完全可靠,大到 bing、google都一样,比如 google translate 翻译的 bromance (兄弟情)的结果是“溴化物”,所以我找朋友一起校对了8000词,
5 D7 G0 K* M6 L. K  b选择了正确的释义,但是还有2000 Urban Dictionary 热词实在没有任何可用的中文释义,翻译引擎也是乱翻译的,这部分,选择了直接使用 Urban Dictionary 的
9 ^: _( T5 R, L) V4 @& C2 h" p英文释义,比如:
5 {+ y5 m2 [) s* r2 J% r! ^" @8 ~3 k8 e2 K
Yoga Pants# n, _/ p$ O( C( ]
& G% G8 a  Q2 \2 u
Pants that make anyone look like they have an ass.
7 Y( [8 q( \( [> "Damn when did Jillian get an ass".
# U/ J$ W* H4 p> "She doesn't, its just the yoga pants".
1 u6 B0 L4 B8 Z& y! V

( u$ z+ T( K6 R6 {dudevorce. g; h3 u4 S6 Y  X1 q

6 Z* _" M6 W$ I* K: gWhen two male best freinds officially end thier friendship over a lame disagreement, usually concerning a girl.2 R: u1 H0 c5 I  E+ r9 k
> Spencer and Brody got a dudevorce over Lauren.
$ r( I; K9 D& X

% J; [7 `1 z# @) wbig in japan. ~( W' r# k" i8 q

0 T' p0 J+ ?+ K" oTo say/pretend you are someone of stature somewhere else, meaningless and not verifiable where you currently are.
; s/ X' x: T0 ^5 q6 H0 r# N6 G: u> "Yeah, I am big in Japan"

0 W- C& z3 m3 n+ F; i! {( P3 }( r: L6 V# H3 w% m
这些直接用英文释义应该问题不大,至少你可以从这里查出这个词来。/ \1 y- n; y, L9 Z. _- H$ K9 @4 j. {

3 `# M. g3 f( m, c最终总词量从原来的 66万词条上涨到 71万词条,大家耳熟能详的俚语:
% ?: y8 G- O: k) {8 E, M0 Hno zuo no die+ d7 K/ U7 N. F. ~
you can you up0 C& Y( R' L+ A. C
bromance5 y2 D$ n, u4 T2 ^* u  v

+ J; i4 ^( [8 _) |0 W. ]4 z还有不少国内任何一个在线词典都查不出来的词,比如:- o7 }3 \& P" Z5 J3 c1 t
poorism  m& L0 P' n% w5 \+ B& q/ P: C

) s( E1 d! q% ^等等,都能查得出来了。3 A+ _* x+ |9 F& a6 b: A

/ f% D2 t7 p/ [--------------
8 j+ W5 A2 y8 `+ T7 E1 l! l' c2017年4月13日更新说明:总词量达到76万6 Z9 q, k$ n- _3 J$ b. @  m: q
; z2 e7 x; s# R- b/ r) F
Bing词典安卓版本有一个本地词库(有人放了一份),用里面四万常用词做索引,使用 mymemory.translated.net、google翻译进行释义补全。/ q. m0 c" B4 A. S
& j4 y* S8 L& b1 n) ]
继续使用 Vocabulary.com 的 17万常用词做索引,补全欠缺的4万单词。
  f+ @/ j$ E* s, z- _/ A0 y- b( V8 B) W% X- U" g* w0 l( O- }
此时,基本完成各大词典的收词比较,基本把市面上近十部常见词典索引比较了一圈,并将欠缺的词汇分别用各大翻译引擎给补充了。+ i7 u" C, P  S' Y9 O# Q
( H- U6 {/ S# \5 I* g8 O
目的是跟网络词典死磕到底,此时已经收录了很多你在有道,金山词霸里根本查不到的词汇了。: i" L' Z7 \4 ]/ B, S) i
" z: D+ L: d, ?9 `+ s
继续检索《牛津大辞典》近17年来收录过的新词汇列表:
& b) w' l3 w2 q2 c+ Phttp://public.oed.com/the-oed-to ... d/previous-updates/: {2 g6 P* ^% @! z" w8 Y( o

& w2 o) G* f6 O# ~* w9 ^0 \对比过后,继续收录欠缺部分,最终词汇量达到76万,此时很多 《牛津大辞典》收录的现代流行词汇,比如:
9 k9 K7 d5 h$ v! K# T1 z
7 v8 _8 H& _  Z9 LBrexit(英国脱欧)
/ N, @4 `0 A  W( `) o2 F+ ~8 Ppolytenize(聚拢)
  g" r& u; a# d0 D2 Chackathon(黑客马拉松)$ p- L8 O/ q- m
hackdom(黑客圈)
8 ~: d2 E1 p; L0 e! K4 V! Odiscman(随身听), V7 U9 O! q+ _+ [
veg(蔬菜,vegetable 在英国已经被逐渐简称为 veg了,牛津大词典于2008年收录该词)
1 V0 h$ x" D6 {! H4 C$ m1 \* m# ~4 b% m5 k; r
都可以查得到了,我试着在有道上随便查了一个词:Brexit 结果提示:1 Z$ y/ u) H/ r
您要找的是不是:
- A9 X) ]( ?2 G5 \2 `2 w4 w* _+ ubreit
8 j- v; ^, K9 c2 Pbreast n. 乳房,胸部;胸怀;心情 | vt. 以胸对...

* }& H6 q" F' G( e
) p1 y, a+ h' H. g% Y7 Q: e矫正工作(比较单词表,补充欠缺的单词)先后经历了:
7 z3 ^  I" h. n4 J# l1 w" q) ?1. 各大词典的索引矫正
# S% ]6 q. `  ]& \: [) C2. 词频矫正
: t  U0 h0 m6 T1 {8 |, s3. 考试大纲矫正
) V* i/ c( z7 S( k" ~/ U# W! v4 D4. 口语流行词矫正8 _7 ]. d$ o# z! H# ^5 c4 [( Q
5. 书面语流行词矫正
  A/ g6 R6 D) l( U* w/ s/ `+ {$ H+ d, G5 x3 U9 `
---------------------
, q. S/ K% m# ~& @  {  B2017年4月13日更新说明:总词量达到162万5 |# i3 i6 b% \+ Y* t1 q8 C9 s8 E

  E/ B0 s2 D/ C! p% u/ F9 t继续用 Bing + Google 翻译 对 OED所有 50万词汇 + COCA 40万词汇进行扫描,补全了接近20万欠缺的单词,总词量达到90万。
1 i5 I6 g, y2 L: {1 E/ M对比网友提供的一个收词110万的英汉词典,补全 10万欠缺单词,开了10个进程跑了一天一夜,先跑 bing (比较准确),/ S* u  k( K# t' I7 Q) D. w+ c
再跑 google 翻译 (缺音标,量更大,但是不太准确),总词汇量达到102万。7 ^3 Z" |9 B1 F( H2 o" W- j

6 W9 e0 F0 w  H( G; L本来想只做单词,但是很多网友一再要求添加短语,短语量真的很大,先添加 60万的短语,最终总词条数达到 162万
, ^2 f1 v$ `+ W! e# G9 l
* N5 s% F/ W$ u% z8 m/ ~  O6 E( k0 G, W( c& o
-------------------
! n6 U4 q4 @( s+ R; W2017年4月16日更新说明:总词量达到221万
: `& ~( S6 Y3 ^8 ^) E' c% ]7 ^2 Q% y% j8 R
终于彻底完成 OED 50万 / COCA 40万的所有单词和短语的索引对比,但凡有中文释义的词条都已经添加,新增词汇15万,
4 y/ v9 A4 J8 F& O, o* R+ _达到 175万。OED号称是收录前后一千年的英文单词,连莎士比亚用过一次的词语都不放过的词典,经过对照扩充后,
+ ^) |9 h: L3 v0 G6 [本词典对OED的覆盖率基本达到 92% 左右。, I' d. r7 g! B7 h8 x: g- z9 I
5 ?+ v% |9 m7 D. I" `! S9 m
彻底完成 wiktionary 的索引对比,虽然wiktionary 太偏门,但还是尽我所能,新增中文释义词汇 10万左右,达185万。
0 F. N: }  I+ d! Z4 ~& j8 I
7 ^8 d  [* c  N4 f之前一直打算补充的地名信息,一直拖着,我本打算要到 wiki和各种资料里面爬地名的,幸运的是有网友直接提供了这
% s( C7 S4 U2 h部分数据给我,因此这次得以一次性补充10万欠缺的各地地名,这次收录的所谓地名,不是伦敦纽约这些早已收录的大
3 n$ ]. v9 y; m城市名字,不是 Bari(意大利东部港口)这些各个各家稍微有点名气的二线城市,这些词早就收录了。
7 v9 T- n3 s5 h; v' T3 k1 e& R7 C' {# C. n7 q: A( e
这次收录的地名是指你把谷歌地图拉到意大利,将意大利东南部一角(不是整个意大利),放大到整个屏幕,才能看到
  Y. \3 V/ D5 z3 ~! f, Q2 Z的地名,比如:
: N  n# O3 Q  ]* r3 ^# `- b  k+ B5 G
Alberobello
0 L/ @2 f  J* M8 x; w8 K[地名] 阿尔贝罗贝洛 ( 意 )( }) I& h! X8 R
) y8 v: m6 O- d! Z
Cisternino
, b. o$ L1 U2 Q' V( J' k[地名] 奇斯泰尼诺 ( 意 )8 e9 O5 Z  y/ [2 R: P; m
; f- h6 o1 {6 _' Y, X
matera# @. ~7 ~+ p& w4 J' t
[地名] [意大利] 马泰拉
( E( O9 N' z3 p$ v5 K

6 V1 W, X; I( l/ Y( ?这些各个的三线小城市之类的地名,10万词条,世界上差不多200个国家,平均一个国家至少有500个地名,所有该类词条前面增加# C! b& x2 h( N
[地名] 二字,后面增加属于哪里,方便你区别,虽然缺少各地更多简介,但这里不是wikipedia,至少让你知道这是个地名,大概方位. B* \' u# D$ f) W+ T& {
在哪里。  W1 M( }) E1 g4 _

! _9 j( A# u" @$ C$ F上次发布释义征集的时候,有网友给我提供了10万带中文释义的稀有词条,刨除重复的5万后,收录5万欠缺的,总词量到190万。
, O) f1 \( I5 O, C/ i" F- i) P4 p. r$ N- ?+ O5 G
继续增加10万左右的商业财经类的单词,比如:; W1 z0 j0 X6 W* x) j

' b1 q+ s) Q% Areal estate company% m; C% `5 ]1 i0 R  v
[网络] 房地产公司;是地产开发商;委托地产公司
7 a* H/ q. A5 s4 l3 H0 {# R9 H

' P/ a& b5 M5 c! w* k) V这类短语以前没有的,各大字典也很罕见,这下可以查得出来了,总词量达到 200万。
1 O1 q2 M& A1 g' g/ @. n: J2 \# D) t* D# a
接下来尽我所能的收录谚语2万条,类似:
. |( P, q) E* L* U1 \
. u$ P, p# a  E) KIf you can't stand the heat stay out of the kitchen.
3 G( A$ Z7 i/ j" O/ G+ l[谚语]怕死,别上战场。
, \& h& l6 y; b* N/ U1 A# d. g6 t. i. ~! @1 U8 j0 M0 g
honey catches more flies than vinegar
. U( n+ f' P# H[网络] 投其所好;蜜蜂比醋抓的苍蝇更多;献蜜罐子总比送醋坛子管用

9 `" o" O2 ~1 T& m0 ]$ g) R9 L+ u, D2 Z" c5 R8 X* }/ x; H
这种,达到 202万词条数,这几天我把我所有词典索引都拿出来跑了,尽最大可能搜索中文释义,补充短语部分,
9 n# g* d5 D) G9 r网友不断的为我提供各种词条和索引,机器跑了三天三夜,所收单词,国内任何一个词典里面都查不到,最终: b: t. o1 R: o- O- \! S, V' ~
补充单词 7万个,短语12万个。
' f/ }$ M8 L1 Z
' t: Z5 ?. O3 S: ?% a+ Y# }结果统计一下,总词量 221万,包括 103万单词 和 118万短语,短期内我已经尽了我最大的努力,从最初的版本9 C0 V# v# p' ~
到现在,补全了大家一直要求的各类单词和之前一直是弱项的短语。如今这个词汇量,应该和各大网络词典属于
$ S, D; r& X- v; h同一量级的了。9 ]+ m& b1 n/ u

/ N' h6 ?: J$ e# j/ I-------------------
' K/ N% b8 W% _) @- }! y  l2017年4月17日更新说明:总词量达到223万" `, E: W* o# _2 T8 Z( A
9 G! ~0 n8 X2 W' N
这是一个小幅度的修正版,应网友要求补充 5000条短语,找到一份俚语的索引,对比后增加俚语 1.5万条,诸如:  P6 `1 a4 K& e8 P

) |  G) E- l) H9 T+ C2 `kisses off. J" e" o, E/ z' i* Q
n. 开除;〈俚〉(特指粗暴无理的)解雇
# S. @3 n1 v* N* X6 x; e& e

$ |9 V0 c5 _; ^( Z. |这些,俚语中文释义相当难找,google又是在乱翻译,1.5万俚语里面只有5000的中文释义,其他的1万条选用了
. a# q* I" ^1 ^0 AUrban Dictionary 的释义:, c2 c( G+ p% r& K
) l0 a, g6 q  r9 h" o
ghosted you9 f2 X0 R) W& Z; B; R2 H
When your in a relationship with someone and everythings good or so you think... than BOOM, one of the people in said relationship just leaves no word no goodbye nothing. ... He ghosted you& P- s5 Q& A# M# C
> My man wined and dined me and than he just stopped communication. He ghosted you

5 a  f- x# J& q
; q# N4 O7 |* ~* {8 N至此,本词典算是正式订版了,后续将进入定期更新环节。
6 E$ R& k# k! w5 u6 o( I- R+ t" V
% Q0 I9 o+ S* e% ^-------------------3 X6 u  u2 [3 c0 o+ R
2017年4月21日,总词量达到 236万& N+ A9 `; C) S$ o2 M& T
' R, j# s& t& ~  h& q
完成之前一直想完成的事情:专业词汇,尽管先前两百多万的收词量已经囊括不少领域的专业词汇,但还是怕有遗漏,这次
5 F$ g4 S/ a" u1 Z一次性找到了 45本专业词典的 mdx作为选词参考:
/ g9 u" ], t6 C$ n; ~3 t/ r  H" T  P# `* t
百科类:《大英百科全书》,《McGraw-Hill Dictionary of Scientific and Technical Terms》,% S- Q3 L& t  x2 K; z
历史类:《Oxford Dictionary of World History》,《圣经词典》
, h0 V& r+ O' }) c# O军事类:《美国国防部军语及相关术语词典2008》8 `, v3 m9 E9 q# L( I( V7 v
法律类:《牛津法律词典》,《The Lectric Law Library》,《英汉法侓用语词典》,《英汉法律词典》,《英汉法律缩略语词典》' L5 f6 x; }6 f
经融类:《彭博社专业财经词汇》,《英漢雙解路透金融詞典》,《英汉财经词汇手册》,《英汉汉英经贸大辞典》,4 }- Y2 F( l7 @# _6 Y7 ?( a
投资等:《Investopedia》,《英汉证券期货和金融术语》,《现代英汉汉英商务词典》
( d+ `" B% z+ @! i会计类:《注册会计师(CPA)专业英语词汇大全》,《英汉汉英会计金融词典》, @3 X8 E9 c7 @6 C, I+ {, t- A& B
科学类:《英汉汉英物理学词典》,《英汉地理大词典》,《人体生理学词汇》,《世界地名翻译大辞典》,《英汉医学辞典》6 p  g9 M8 X; h! f; h
军事类:《美国国防部军语及相关术语词典2008》8 ]$ \' O. O% z4 {7 o2 ~* a
计算机:《Microsoft Computer Dictionary》,《WeboPedia》,《NetLingo》,《What Is Tech Target》,《Computer Desktop Encyclopedia》,《Computer Hope》
% D4 C/ U! E  R机电类:《Glossary of Electrical Terms》,《英汉汉英电子工程词典》,《英汉机械大詞典》,《英漢漢英機械設計詞》,
$ U1 k+ f  X& O& D文学类:《Babylon English Idioms and proverbs Glossary (Phrasal Verb Dictionary)》,《The Jargon Lexicon》
9 n3 n3 U* i7 X: m2 R其他类:《Merriam-Webster's Elementary Dictionary 2016》,《英汉食品词典》,《12万字的专业英语词典》,《体育项目名词》,《英汉汽车词典》/ m$ [1 S0 J* w$ d

2 p, C$ K5 @- r3 J# ?; i( x! P0 Q也许你一辈子都不会碰到这些词,但是如果你碰上了其中几个,简明增强版就能为你节省不少线上搜索的时间。
2 W0 q# u( m: d1 _9 _
+ G7 P2 R* c7 J; C: J; q- c$ a" \-------------------. G+ a# h# j% r: ?5 j9 p
2017年4月24日,总词量达到 304万0 @7 ~0 |3 ]5 z+ \  N
# q" m/ T) L3 Q4 ^3 v& ~; m0 Z. ^
上一个版本收录专业词汇时,把所有专业词汇中的短语给漏了,我还说怎么才那么点,这下一次性补足前面缺失的专业短语,
3 S7 I5 ]* [* b# C3 Z词汇量增长到 272万,还好即时发现,不然接近40万的专业词汇就劝漏了。在 @ly1316 的强烈建议下,整合一本相当权威" d2 J. k" O, y5 q% f
的专业词汇《台湾国家教育研究院双语词汇》,这本词汇有多牛,看看本论坛和译术网的介绍:7 E% N6 Y" R- V
$ M: p/ R9 N2 I( ^9 A4 q4 D- G. U/ W
https://www.pdawiki.com/forum/fo ... hread&tid=15227& ]0 i% y2 u2 m' r: H1 W" a
http://www.all-terms.com/bbs/for ... hread&tid=20882# j9 k! g$ R2 M& X
, W/ r+ U$ Y7 a$ L& M. r5 c
150个分类,139万词条,十分权威的释义,又是台湾免费教育资源,可以说把这个词典整合了,各种专业词汇基本上就被我
4 [3 x' \( V$ T+ @们一网打尽了,整合过后新增 30万词条(只欠缺这么多,其他以前都收录了),并且精简了格式,删除了原来词典中同一个
3 G1 j+ _" N& [, ^8 p  O5 `1 ]5 n单词相同的释义(见上面截图,该词典同一个词有不少重复释义),简明增强版收词量达到 304万。
. g' k2 e% D% w# _6 ^% c% S' b+ _  t3 @& h* ?( A7 r' U. T3 w
可惜刚要导出 .mdx的时候,亲爱的 MdxBuilder 崩溃掉了,试了几次都这样,应该是词太多了,没法做了。MdxBuilder 3.0又# W" D6 J9 V: M- r
没有64版本,4.0有64位版本却又不兼容。万般无奈下找到 python 模块 writemdict,用64位的 python 来生成 mdx,GoldenDict' Y, L* J' m3 I4 A: A% j+ f- [
里面一试,成了!正准备上传最新版本,结果我放手机里,手机欧陆完全无法识别。3 J5 [6 D' @% r" [0 L) y* Q; T

# c0 k5 ]- x( s6 S一开始还以为手机欧陆词条数限制了,结果我用 writemdict模块编译了几个老的词典数据(上周的版本),发现手机欧陆还是+ D1 j2 ]& p  p; v+ A
无法识别,基本可以确认是  writemdict的 bug了。这下麻烦了,304万最新的数据不管用 MdxBuilder 还是 writemdx都无法生成
) A* N0 N9 q' k- ]" }# R正确数据,我在想,可能真的到了 mdx 的极限了,也许我们的简明增强版就要到此为止了吧。, {) D; z; n: i7 g: [  I

' `) ~! ?0 E% z' k( M把 writemdict的代码拿出来读了几遍,测试了一些自己觉得可能和 MdxBuilder行为不一致的地方,都不行,正准备彻底放弃,
* G' `0 d1 f! }% T* K突然想到它索引排序的时候好像没有忽略大小写,于是改了两行,生成的.mdx终于可以在手机上正确使用了,这个经我修改的正4 W, Y! s7 ]5 g" [
确版本,给有需要的人留个备忘吧,可以用它配合64位python,生成超大 mdx文件:
. Y/ [; A6 m3 D/ `https://github.com/skywind3000/writemdict
1 ], _  K, H+ m% u* v, B! u' O  }
可惜MDict索引暂时有问题,GoldenDict, 欧陆这些正常8 Y! ^% J/ C4 K3 o4 w+ F+ e

" T# ~: h- \, t0 j9 C$ [最终,负责任的告诉大家,各大网站查得出来的专业词汇这里有,查不出来的这里也有,专业词汇被我们一网打尽,
! K6 a) Z0 y, f) T你下载这个《简明增强版》等于同时下载了上面那么多专业词典,而且重量不会增加哦。
, ?: r+ B% r: p, a) S至此,专业词汇工作告一段落,后面进入本词典的查缺补漏阶段。
& }( E6 X. e& ]$ L$ u  Z; o+ O! c
-------------------6 T% v: w1 q% Q1 G$ T
2017年4月24日 下午
" J# k9 ?" x! h7 V: v4 z" A; b+ |# R; A7 v# ]0 w  ?( U, l& f
经过 MdxBuilder 生成的 .mdx 文件和 writemdict 生成的文件头对比,确认了引起 mdict不兼容的 StripKey选项问题(GoldenDict 自己做了索引,所以没问题),$ B) G- s+ L( D$ T% y1 `6 `
又请教了 rayman 关于  StripKey 的细节问题,终于吧 writemdict 改好,并且可以用64位的方式生成正确的 .mdx了:
0 I, j, F4 o( V, zhttps://www.pdawiki.com/forum/thread-20577-1-1.html" g5 m% n3 S6 o( e; m5 o( d# t

% k6 p6 M1 ~* M6 }  F; JMdx格式设计还是比较巧妙,对于词典软件,并不会因为词典词条增多而增加对词典软件内存等各方面的占用,也就是查词端并不会因为词典太大查不了词,3 x5 J' {5 o0 e: C1 U  Q
包括手机。但是却对制作端(MdxBuilder)的内存有要求,词条越多,释义约丰富制作时就需要越大的内存。+ Y8 O$ ~4 n& m* \2 R

, {( ^1 p9 a% t- r- a4 F如今这个 writemdict也可以留给后面需要的人使用, .mdx 今后想做多大就可以做多大了。
7 }7 T+ y1 w, t7 F0 ^* J, U( g& U) _' c. C1 _+ [
本词典今后也得以继续发展下去(虽然今后主要着重查缺补漏,大规模的收词量增加应该不多了)6 o% d. x3 q7 |$ n7 E4 s% y
* q! W7 v8 D8 b/ s
简明增强 v16的修正版已经发布,完美兼容 mdict, goldendict, 欧陆,edwin,欢迎更新。$ g' Z. C% u4 ]0 e) |

. ]$ ~1 w' I' w( \, Z8 v3 `! O. a-------------------* x3 P: y2 H8 q( u$ L1 o- N
2017年4月25日,总词量305万 8 c6 B7 Q$ D$ D& O' I7 [9 E

% R. [2 q" c) c# k5 G9 ]整合 @ly1316 提供的中国和台湾的地名资料,补充500多个欠缺地名,之前已经有很多地名了,不过全世界范围内的,对于& u1 z+ j. T* m1 |$ H* J2 X8 S5 s
中国而言,这次比之前更为详尽,同时用新方法重新扫描了之前 oed / wiktionary 欠缺的没有找到释义的5万单词,最终又
8 g+ ?1 \: e% F8 ?9 B. _; T! f得到一万新单词,如今 oed/wiktionary 的覆盖率已经很高了。) [: p4 g1 b; r. o+ f& G

: X! e* D# r7 ]# ^这回我手头的全部索引都跑了无数遍了,累了一个月,真的定版了。1 J5 C4 O, U1 T+ y7 M5 D+ z
# S$ M4 D/ t% w" T: Z  ]2 Z
-------------------
8 W+ u, Z$ C2 \! H2017年4月28日,总词量306万 7 ^1 w2 S/ D& N
《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万欠缺词条,总词量达到 306万词条,  t. `5 N6 X6 R7 A- V& @
同时按大家的反馈,更新 20多个词的释义,这次绝对定版了
+ ~! L2 @5 N9 o! }
3 i! l& d2 ~; m) m( A. U-------------------* |& j- W) J( V. c3 A/ n) {8 m
2017年4月30日,总词量311万 + [; N) M" y  @7 ]& |' e6 w; Z
补充 @zhu1234 的《短语词频词典》,总词量达到 311万词条,) A; X% R  g9 V* `
手头资料已经用完,真的告一段落了 - M$ I% V& p7 a1 u& x$ B6 m
1 P' A+ d5 O0 l5 z5 i# R9 a
-------------------# Z5 G8 ?3 C; C0 o' H7 y  K
2017年5月1日,总词量316万 * O, D) g( |4 o! ^
1. 扫描《BNC/ANE/COCA 十七万词频词典》,补充欠缺 8000词
: K! m6 F3 L# q# h! e- _2. 扫描《经济学人12万词频表》的欠缺词条 7000词。
% Y. a7 h* C1 _6 Y6 M2 n  A" \0 I3. 扫描《英语常用短语词典》,《朗文4》,还有一些短语谚语索引,增加 5000词
% N+ `0 f. @) \4 X+ ?0 `3 e) L4. 扫描 @langheping 大的《朗文6》,《柯林斯12》,《简明牛津美语词典》,新增近1万词
1 {9 q6 p) O, B/ A2 f- }5. 扫描 @langheping 大其他数十本词典,如《斯坦福哲学百科》,XX搭配语,Roget系列5本,美语企鹅词典,8本Idioms系列。。。。,新增2.5万词
9 y0 M& ?- w0 U6. 扫描常见缩写,新增6000多条
" Y- _0 x4 f3 X7 I; o# n$ j7. 新增香港地名:经常看到个香港英文地址蒙圈了吧?这下可以查中文对应了,细致到街道的,比如:Lai Chi Kok,Nathan Road,如此大陆和港台的细致地名都补充了。
8 W) q& t0 Z# Y8. 新增文件扩展名:可以查电脑里文件是什么类型,前缀是一个小写的句号,比如:.pcx, .txt, .psd, .pdf 差不多800多条常用文件扩展名记录。
+ x/ n: Q& s  g" o9. 修订 50多条基础词汇释义
/ Z" p1 Q/ Z( H% Y; {) b5 B/ {$ L  l" H  i0 N7 Z
这次究竟能不能订版了?  Y( @8 o& O" e' ]  p# T
0 p3 W0 X% O0 h2 ]" S9 p
-------------------
( }+ z" l$ i$ ~- x4 o6 W$ X5 r2017年5月3日,总词量324万 / m( ^' K2 I2 D" D
这次主要是瘦身,因为上一个版本已经有 91MB了,感觉作为一个简明词典,无限制的变胖不是件好事情,单词量还是要控制一下,如果
+ `; A, g  D4 P2 ]要加,还有50万的医学术语可以收录(医学名词是其他专业的几十倍),词典可能会变成 120MB,边际效用太低,不是所有人都用得上,! ]# \  ^5 {! u0 L2 b0 t1 J: a# a
因此,准备控制下单词量了,并且进行了一些瘦身工作:, p- J: D3 C' g& Z6 |

# @' u2 H0 Y7 ?! c! w7 ^7 N1. 删除先前 COCA 40万列表导入的一些垃圾词头:比如 o-pen (open),  gr?s?(应该是乱码吧)之类近 8000条,总词量从 325万下降到 324万
, d. ^2 S% U7 _7 q& t% Z2. 使用 mdx 配合 style 文件的方式,重新生成 mdx,writemdict不支持style,我用 MdxBuilder 特别版,崩溃5次成功一次,终于生成& H( V, k6 n$ _) C

# e$ v+ k/ g6 L* C+ V最终容量从 92MB 降回到 87MB,我是希望本词典最终大小能够控制在 80MB以内,再大就臃肿了。2 h: n% b. z+ l2 \* H

3 \# i& `- v( O& u; Z顺手整合了论坛里《美剧基础词汇》和电话号码区号
! B% q9 C5 \3 C' ~查询,输入 0755 可以显示是深圳的区号。: \/ o( q+ j7 K  W- i- f! q4 ]

* p, F( x( _/ B3 k! P7 b现在发一个版本差不多要花我 4个小时,因为打算这个版本后停一段时间了,所以这次干脆就做好点,同时生成了欧陆原生词典格式,
0 U* U; C  @% ~/ h9 H! ]3 M方便大家在欧陆上使用,欧陆用原生格式性能比 mdx好一些,特别是手机欧陆,没买XXX的欧陆只能同时支持3个mdx,这里可以给% S9 \: M3 ~" s: [
其他 mdx 词典腾点空间了。' e- _) o) w' B4 T0 k
1 k  O  D% Z* h
因为有人问,就发布了 stardict 2.4.2格式,纯文本没格式的词典,似乎在 GoldenDict 下面性能会好一些,同时有大量老的词典软件可以兼容/ _+ {. v, @# n& R9 u4 b
stardict 的 2.4.2 格式,这样支持的词典更丰富一些,包括一些老旧的 PDA在内了。
- r# J/ N$ v# X0 a: |! K
9 N2 O1 n/ a0 j. M- e$ D好了,做这么完善是真的准备订版了,每隔两天一个版本大家更新着也累。
5 D. z5 U* u/ X! K0 X" l4 G
: i# r, s0 [8 D7 L-------------------( a& b) s2 C, G4 _" b5 w
2017年6月5日,增加 CSS 版本 ; `2 M2 n; \, N
; U* K* B  |# W# y: s7 f1 P/ ~
经过最近一个多月修复了数十个小问题后,本词典内容上应该不像以前那么山寨了,感谢 @idict 的指导,帮我做了一个 css模版,/ O' _4 K( Q7 x: Z  B
我再其基础上又拆分补充了一些样式,效果见下面截图:6 C1 K3 y' H  `! z$ B' O. a
$ O! _. Q# r. Z5 N% t% ~
perceive:6 p; b' `/ M; `; K
$ P6 A# P- w- {9 w8 ]5 `/ ?

# O8 B* X4 ~2 B' v# Pgosh:; ~# z$ X8 I0 m# D% T6 i9 y
5 S$ n- D- g' p% G% i% B3 q* R
8 l! m3 Q3 z: t% @+ a$ Y2 s/ K. h1 k/ y
ornate:4 f: m6 z! ^7 K) u, D  R

) w! f; f5 r: {# @6 ]* s2 d# @7 _% Y1 L0 \
Yoga Pants:
6 A3 ^2 G  R0 F
: I3 @/ n9 Q  y
3 e4 H$ k- y  @9 X- V4 B8 P) T. Oa cup of tea:
8 c. {! X/ }9 c  e  @/ {
5 m  v* W: y4 P8 N
1 j4 k: a# Y6 e9 C" Z; v追求视觉效果的同学们,如今 CSS 版本和其他排版好的词典放在一起,不会那么丑了吧?
& x7 N% h& y3 y1 R7 |8 C2 Q5 t2 H$ L" K* I  y2 B
-------------------& P4 T: c7 e$ {% C- ]
后续更新说明9 t; a" X( m5 G# X$ b4 |- z4 g

+ l4 X8 T) {3 \# j& D$ s( N" }- @: z连续五周的大规模修订告一段落,后面将会定期更新收录新词,主要词汇都已经收录了,暂时会着重查缺补漏与错误修订。7 Z0 [) s: n. c, e# k8 e, T

% r$ H9 x" z( m  N- T8 ~- I希望如今的版本能极大的减少大家之前搜不到单词又不得不开网页,在不同词典网站查来查去浪费时间的问题。- Q- P; m+ ^2 P8 ~
对各种大部头的词典能形成一个有利的补充,我就达到目的了。# ~5 l- Y) U( q( Q7 L
! B$ ]$ }* C! a7 Q6 ^
喜欢本词典的话求大家给评个分。
$ Y( p' Y0 r" k4 t/ J% x1 u5 r1 }3 @1 h  X, V
和在线词典彻底死磕到底,欢迎给补充新词,旧词勘误,可以用:- E, s: {; j1 M

3 q' e5 S' _4 L! o. X单词1 [制表符] 释义17 P% N: }5 k% ~) {: S" ~
单词2 [制表符] 释义2
3 f2 Z: g: q. e# M6 d
* o( `/ R" ~3 Y, q的格式发给我。9 {/ _3 E5 {& @7 Y( h

; @6 H- V' q3 F5 g9 t3 R/ d
% B+ M' s! x& k5 r- y6 L

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

评分

55

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2017-5-27 05:06:16 | 显示全部楼层

" x: R* A9 f/ b) i4 O补充css显示效果的一点点经验.
% Z$ X9 T3 b. m0 M/ u) S- y& h
1 b, l! K: d& j/ Q% [使用<div>好像要比<span>好点, 如果的确不用换行, 可以固定使用<span>, 否则之后要换行, 那么断行点的设置有点搞不懂了. 好像只有block, inline-block, 不够用., F  J. g5 Q$ T$ v
如果<div>不想换行, 使用{display:inline;}效果与<span>一样.
; S# {2 |$ _& w5 \- }! Q3 g; }如果不想显示内容, 使用{display:none;}
4 X  j; V2 i' ~4 j2 ~! m0 w( b+ V" ^4 q  C4 S$ {% d( Y' Z
所以, 如果不想显示单词, 音标, 假设以ecdict.css内容.0 K+ R% L' e# N- }9 x5 H. W# [
在hwd, hrz, ipa的属性加上display:none;1 v) u* B4 m# }$ T. d7 G+ ]
如下:
1 c! a$ k# |; {  l8 b, ]7 x
  1. .hwd{font-size:120%;font-weight:bold;color:Crimson;display:none;}
    * V0 o$ f, D$ U1 }# k* z. D
  2. .hrz{height:1px;border-top:1px dotted Crimson;display:none;}- q% O: r1 u9 A) M4 D  a
  3. .ipa{color:Sienna;display:none;}
复制代码

8 q* ?3 q+ t: N0 s
" q8 H/ K8 _, |效果:% U6 m$ A/ J2 T/ }# O. a, e

) q/ t' R" a1 M$ R: {7 \* F+ M9 u+ F# A* G! N- q* L
这样, 可能可以减少工作量, 不用再生成另一个去音标的版本. 可以在css里显示效果. 当然文本大小没有减少.
  y* f1 o8 C. `9 X& J% U' R
+ W/ s7 F2 s; E, a5 |' E  r( |
$ j$ z5 Z8 t# e  t" {: O! T如想更加节省行数显示, 可将释文或时态内容并为一行显示.
; p5 }" Q0 @( t; D2 h因为css添加了块, 组, 区. 这些都是使用<div>标签嵌套, 所以只要最外<div>不改属性, 就可以确定会分行显示, 其他内里的<div>加{display:inline;}, 就可以并为一行显示.% |" m! L8 q" i4 X! P" f
如下:2 ~9 s- m# J7 C3 o
  1. .dcb{display:inline;}
    * {" h0 n( _, w- j# A) K6 P
  2. .fmb{display:inline;}4 p# t7 ~+ a/ B' G
  3. .orb{display:inline;}
复制代码
- x8 M% ]% g; @3 u! U( f2 H
) o1 Z( S3 @  J$ ?9 T% Q9 H5 ~9 n
效果:  b( h4 s, q  y2 L: h- [* v

% o" p+ V" M$ [6 v1 T* f/ V
" }0 C9 A. I3 k5 ^6 P3 I2 X再增加{margin-left:5px;}就可以区间开来. 一并对齐所有列.
" s! `1 T' Z+ q8 t2 n8 A如下:
: Q0 A9 t1 @# W9 Y; k6 S. F
  1. .dcb{display:inline;margin-left:5px;}. \" u7 p2 N$ D" T4 X6 I( a
  2. .fmb{display:inline;margin-left:5px;}
    ' J: x) T/ w' o; m& v
  3. .orb{display:inline;margin-left:5px;}
    : O: l0 {# K5 R& P' i' D# f: Y7 y
  4. .frq{font-family:Microsoft Yahei;font-size:90%;color:Purple;margin-top:5px;margin-left:5px;}
复制代码
7 c$ K; a" I: G, q7 s+ n
( z3 @/ v2 m, G" [
效果:
: a4 @: M' V* A* I: m; d/ Z) H
) `! h* b9 [- Z  j4 _  k+ ]
( V) V' R9 y5 V8 H5 \$ I目前就会这么多. 贻笑大方.
  C/ z$ R: i+ F5 l4 D再次多谢大神的制作. 谢谢.
2 r* P2 k$ Z, y/ c2 J# P! N, \8 T8 x

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

点评

多谢你的模版,我稍微修改了一下,CSS版本已经发布  发表于 2017-6-5 04:30
多谢,我周末照着弄一下。  发表于 2017-5-27 23:22

评分

1

查看全部评分

该用户从未签到

 楼主| 发表于 2017-6-5 04:13:25 | 显示全部楼层
本帖最后由 skywind3000 于 2017-6-5 04:35 编辑
+ e& i! r6 y0 B/ u2 f6 O8 J( ^$ ]5 {" f
更新:增加CSS版本- D' v+ E5 R6 A. L& ]* F
! a4 P+ {% b  ^/ C4 K1 T  O

评分

1

查看全部评分

该用户从未签到

发表于 2017-5-26 13:23:42 | 显示全部楼层
本帖最后由 idict 于 2017-5-30 12:48 编辑
0 T; v0 U0 ]. N9 {0 p  b
/ X, o7 G3 N1 m: l谢谢大神拨冗回复和指教, 谢谢.' ?0 u+ h9 B9 n
: H6 p7 o  ^* b- F$ R4 b) m8 G# ?
之前exchange里的标志, 全部处理成到时态里去了, 并且将f, b, z当作s, r, t, 如果重复就删除. 也是全部显示的. 现在系按照大神的指示处理的.' I7 L5 ^6 z% r
(在下之愚见, 如果可以, 希望是全部显示. 反正资料已经有了, 反正文件大小的差别不会太大.* h7 H* S6 P: O7 f# r
如above-face, 也一并显示复数. 有时候复数与第三人称单数是不同的, 如man. 以上不作考参.)
8 v/ x, q* m4 k- n3 L( G" R% K/ H- _2 d: I$ G$ s
" V$ y. h, G- q9 O

# W# k* {8 n9 Z- I4 S& ?) A& B) }4 t6 u* f

! y& ~+ v5 }7 g* ?8 L4 N1 k/ Y, M) N* @& K' |: `" V" S! {

2 J: ^* m& f6 y0 ^抱歉理解有误, 将时态和原型并在一行了.! |4 a6 r% y0 O5 K  h6 ~; f
现在已经分行显示.8 S; R. n  S# Z* ]9 V1 k8 |$ o% |
在下拙见, 还是按资料分块, 合块分组, 合组分区. 虽然标签会增加, 但css里容易排版显示效果. 相对简单(因为在下头脑不灵光, 高深的css不会啊, 只能简单化处理).
  N  `( ?3 W. ]) P虽然文件大小会增加, 在MDict PC 1.3, 简直就是即点即现. 即使是340万条记录. 文件大至116MB. 加载速度也是飞快.
. _$ ?, I9 ?8 {$ K% G

  1. " u& e) @+ C& j
  2.    <div class="gfm">
    3 W' o7 T& e! D' V7 V% ]+ k9 @) `
  3.     <div class="fmb">
    ) D1 K. w1 o- |) |! L( F
  4.      <span class="fnm">4 ~# G& a- F7 x1 ~* Q6 e
  5.       时态:
    1 J" W8 }/ e2 N- v# _
  6.      </span>- X. q9 g# n% k4 s5 Z9 g! t
  7.      <span class="frm" title="复数: saws, 第三人称单数: saws, 过去式: sawed, 过去分词: sawn, 现在分词: sawing">
    2 q, o8 D( G) y
  8.       saws, saws, sawed, sawn, sawing
    6 y- h! P$ o+ ^* [) e) F4 R
  9.      </span>8 z% f# P$ p7 J) e5 Y1 x
  10.     </div>: R' j4 @' k9 u( y# p$ q
  11.     <div class="orb">) d4 l' ]$ ?% \5 g; L. g. l* `
  12.      <span class="onm">
    - [* o% F2 j! q- t4 B7 R
  13.       原型:  ~2 N, ^8 S0 r) T
  14.      </span>1 L- u2 j' Q# c9 j6 ?, G
  15.      <span class="for">1 ]& [  L0 g2 Y0 G/ w- V
  16.       saw是see的过去式" }" P% L7 w- h1 q! L
  17.      </span>' A; C9 s+ W' j9 C" d
  18.     </div>; u( z2 u7 _, \5 X$ Y- x) z
  19.    </div># V# G: [/ W) w' O6 t7 b/ E0 A4 x; m
复制代码
" }' ^( Y3 e* j1 o7 K
! E, I  D& U/ x* W7 M

* f4 ?" _5 A* D. p' _- U+ b再次多谢大神的制作和分享. 谢谢.9 ^% ^3 c7 Y* Y) }$ [0 b

+ m: g: i- X/ n& V

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

该用户从未签到

 楼主| 发表于 2017-4-13 22:09:23 | 显示全部楼层
ghgh 发表于 2017-4-13 21:01- ?$ c' C" H7 O( |4 L$ c" F
感谢添加单词!已评分支持。0 B. W' h% B3 {, D
您可否把wiktionary2016(匿名原创,总词条:664, 419)中所有的谚语再对应 ...
: n! R, O9 c1 k/ L
可以,我后面弄,我现在在扫描COCA 40万和OED的50万索引,大概还有10多万单词要添加。0 _& g) ?: R* ~- s
然后我要弄短语,之前一直没有弄短语,对比了其他字典,欠缺差不多60万的短语,4 d- V/ O& \2 q* A9 H0 Q
弄完这两件事情我就来收录你要的成语。

点评

honey catches more flies than vinegar还是可以在必应词典网页版扫,必应词典的网络释义按网页数多少排序,使用频率越高的英汉翻译越靠前,添加这个短语意义重大!: )  发表于 2017-4-14 16:59
看了下bing对honey catches more flies than vinegar的解释,好几个意思让人摸不着头脑。怎么保证这些词的释义正确很难保证。如果不确定,留英文解释也比不确定的中文强  发表于 2017-4-14 14:27

评分

2

查看全部评分

该用户从未签到

 楼主| 发表于 2017-3-28 00:32:16 | 显示全部楼层
本帖最后由 skywind3000 于 2017-3-28 00:38 编辑
  ~* |( Z& e6 A. u( c: y) r
kyletruman 发表于 2017-3-28 00:14+ g/ B  ?  F: U) S0 W
希望大家积极评分表示感谢。楼主分享的词典应该是收录了不少新词,**** 本内容被作者隐藏 ****还跟楼主的差 ...

; [/ x' r0 d6 E6 T% ~3 U, E6 Y  W; [6 P/ N
耗时很久,参考包括并不限于:
& a5 M, _( t" P( N9 ~7 _4 }  D) @& E/ k) \! b$ L
各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm 等
( i  p3 W9 Y8 V6 A" M( w; t考试大纲        网上各种带释义的考试大纲词表
# _! n4 G& z( ^8 O% kNodeBox        自然语言工具包,带 11487个动词,4600个副词,2万个形容词及 11万个名词的资料
) A: G$ y2 v5 c2 QWordNet        普林斯顿自然语言处理资料库和工具包
  o0 @0 X% Z6 I. G( `Wiktionary        多种语言的释义维基百科资料,由各国用户贡献的各类词条
  }; C8 a4 {  ~1 lWikepedia        维基百科收录了大量词条解释
" a4 ~/ ?: V  r) B3 w$ ^- gCEDIT        中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义6 `$ W# C& G* u/ F0 h. g
TheFreeDictionary.com        多语言开放词典( a7 ~/ m9 J! y# [3 k& W' r
Google        Google Cloud Translation3 g! P4 d" U: y/ \
foldoc.org        Free Online Dictionary Of Computing: d0 n, N# _8 q! [) g: m9 m
linguee.com        数亿词条解释
: c3 i0 _& \+ W( G4 D7 e3 w  }Babylon        各类词条数据来源聚合$ ~) a0 {5 w- F
Urban Dictionary        俚语俗语释义
: i0 L: C8 g; ]; l6 IPlain Text English Dictionary+ A  n; t7 H  W! B* O

评分

1

查看全部评分

该用户从未签到

 楼主| 发表于 2017-10-27 16:51:00 | 显示全部楼层
更新:解决欧陆版 estate 无法查到的问题,* A7 [% _  k( T  n* T! g& A  o
欧陆客服反馈:这个问题主要是因为你的扩充词库里面包含了一个特殊的单词"Estārm"        ,所以导致检索失败。我们这边会改进下,下个版本可以解决。
0 g; r* y) v0 [) {+ m1 ]5 N- L' a) }5 J  a! L
结果等了好几个月,欧陆还是没有修正,所以我再欧陆版本里删除了所有西欧字符,主要是些地名,绕过了该bug,
# g0 R0 N5 V3 Aestate 等词可以正常再欧陆里查询到,同时对欧陆词典源文件进行了排序,经过排序后,输出的词典大小有所减少(其实这部应该欧陆的词典生成程序来做的)。6 S9 ^; A* Z0 f9 e: J; U
" {% s- m. A" Q! ^* F
**地址还是原来的百度云地址。

该用户从未签到

 楼主| 发表于 2017-6-4 02:11:14 | 显示全部楼层
本帖最后由 skywind3000 于 2017-6-4 09:42 编辑
; Z7 ^9 y7 n$ P
idict 发表于 2017-5-30 13:07& r5 n9 m" g5 l
由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.8 i- @6 B5 m3 Z- d  D4 D
偶然得到一些情况如下.
* ~" d+ H, F4 O/ G1 a6 s3 ?+ Blog01是没 ...
* `/ N3 @5 N6 O. S
& t+ r- R+ k% x2 E. J
已经修正,那些只有个句号的,可能是导入某些专业词典时错误,2000多个这些词汇里面,找得到中文释义的500多个,找得到英文释义的600多个,其他的没有仍和定义,所以修正了部分。; V4 ~2 S) U. G% o
青山道那个也改了。0 M! D  z! H; T) Y: V

+ T4 ^% m  D1 Q" {3 i, c9 {其次,网友反馈 in measure 这个词有两个,因为词典数据库本身限制了重复,所以不可能出现两个一样的单词,我检查了一下,发现
0 a3 V+ N; N( ]  ^一个是中间有一个空格的,一个是中间有连续两个空格的。于是检查了包含连续两个空格以上的单词,找到 5000个,所以刚好花时间
# ^1 J& q3 c9 k$ o" L% X# {, U处理了一下,版本还是原用 26 号,现在不会出现 in measure 这种情况了,于是我将所有单词的所有连续空格都归并成1个。( v6 o3 x3 z9 i
3 w- _5 s* V' n% S5 m

该用户从未签到

发表于 2017-5-30 13:07:59 | 显示全部楼层
本帖最后由 idict 于 2017-6-19 00:07 编辑
, e2 _: ]% z) c9 S) ~" F3 y3 I( a
# R& A' W) R6 E由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.9 A7 w* F- d7 f( R8 b
+ d6 K7 b! y* d5 P- k- J
另外, 词性的简写, 少了一个: interj.& s+ [+ ]( L1 Q! R+ x- j; o
比如what8 Z& j' q; T% ~6 t* M

/ X' f/ ~" I" x) y. i. @9 ~词条: /青山道Castle Peak Road
1 G" C, l9 r; t是否需要更正?
: j; ^9 k: N2 R7 a& n( x% o& M: l; m" q6 Y- [
4 r9 z: E& H& e# b* W& P1 q( s
1 L; [7 U* N: \: c* S" B
再次多谢大神的分享. 正如大神所说, 全网收词量最多!!!+ j9 _3 J( }* Y9 _- Q
谢谢!0 S& k* C: \, s! B: e

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

点评

或者你帮提个 PR ?  发表于 2017-5-31 11:08
多谢校对  发表于 2017-5-31 11:07
这些应该是 wiktionary 里面的一些生僻词,最近太忙,有空再更新,好在数量就几千,先当这些词不存在吧。  发表于 2017-5-31 11:07

该用户从未签到

 楼主| 发表于 2017-5-4 00:03:10 | 显示全部楼层
更新近期最后一个版本,自己顶一下

该用户从未签到

 楼主| 发表于 2017-5-2 21:56:11 | 显示全部楼层
更新,自己顶一下
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2017-3-27 23:48:31 来自手机 | 显示全部楼层
    哇塞,发现新词典了,多谢楼主。我先下载的看看
  • TA的每日心情
    难过
    11 小时前
  • 签到天数: 1162 天

    [LV.10]以坛为家III

    发表于 2017-3-28 00:03:32 来自手机 | 显示全部楼层
    谢谢skywind3000分享!
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2017-3-28 00:05:57 | 显示全部楼层
    试着查了下taliban这个词,我的词典库里有10本能查到,不过楼主的确实简单暴力,尤其这个词属于哪些考试的词汇范畴比较给力!
  • TA的每日心情
    无聊
    2018-5-11 08:33
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2017-3-28 00:06:47 | 显示全部楼层
    看简介好像比较有特色,试试看
  • TA的每日心情
    擦汗
    2021-8-10 10:05
  • 签到天数: 206 天

    [LV.7]常住居民III

    发表于 2017-3-28 00:09:26 来自手机 | 显示全部楼层
    这是楼主自己编的词典吗
  • TA的每日心情
    开心
    2021-7-10 04:32
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2017-3-28 01:08:12 | 显示全部楼层
    skywind3000 发表于 2017-3-28 00:325 ~/ K; ]$ B2 I0 ~
    耗时很久,参考包括并不限于:# u5 @! A! s6 g4 [: v
    , D9 r( x& P" J. o, d
    各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0 ...

    3 M/ a* f& r" s2 i+ q+ f5 z楼主有没有办法单独做一个css来控制排版呢?
    / h$ t1 F# s; Y(把排版的颜色、字体大小等其他可以用css来控制的加入HTML会让HTML的体积暴涨)
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 603 天

    [LV.9]以坛为家II

    发表于 2017-3-28 04:36:53 | 显示全部楼层
    牛!顶!很实用!
  • TA的每日心情
    开心
    2020-8-31 05:39
  • 签到天数: 550 天

    [LV.9]以坛为家II

    发表于 2017-3-28 05:48:59 | 显示全部楼层
    极其优秀!极其厚道!辛苦了!谢谢你!

    点评

    70A
    同感!  发表于 2017-3-28 06:42
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2017-3-28 05:55:06 来自手机 | 显示全部楼层
    多谢多谢,查得率才是硬道理!
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1016 天

    [LV.10]以坛为家III

    发表于 2017-3-28 06:22:50 | 显示全部楼层
    本帖最后由 70A 于 2017-3-28 06:30 编辑
    7 u( M' w6 f/ z  j1 @$ E+ Z$ t% ^4 a* T  T1 y  C+ w' c
    用来查词义,简明、实用、收词多,太棒了!  \2 ^/ j# U. g) p+ {  L
    & j) u8 v2 k5 S1 D! s" n
  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 1409 天

    [LV.10]以坛为家III

    发表于 2017-3-28 06:34:12 | 显示全部楼层
    楼主具有强大的考证精神,这本词典具有非常好的实用性!如果能有CSS文件的话就完美了!

    点评

    CSS版本已经更新  发表于 2017-6-5 15:36
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2017-3-28 06:56:52 来自手机 | 显示全部楼层
    查不到selfie哈。
  • TA的每日心情
    开心
    2018-8-15 07:35
  • 签到天数: 22 天

    [LV.4]偶尔看看III

    发表于 2017-3-28 07:45:08 | 显示全部楼层
    太震撼了! 非常感谢楼主无私的分享。
  • TA的每日心情

    2019-11-30 13:43
  • 签到天数: 276 天

    [LV.8]以坛为家I

    发表于 2017-3-28 08:41:53 | 显示全部楼层
    看来是时候把21世纪换掉了,整合标注了这么多的词频信息,堪称词频标注的精品
    ) T* z8 \# c1 v9 n! h
  • TA的每日心情
    开心
    2018-9-3 12:49
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2017-3-28 08:51:34 | 显示全部楼层
    震惊了,感谢楼主,这个查词率真是可以了。
  • TA的每日心情
    开心
    2020-5-14 18:49
  • 签到天数: 81 天

    [LV.6]常住居民II

    发表于 2017-3-28 09:09:15 | 显示全部楼层
    楼主的词典收词确实很全,不过用以比较的词典是朗道和简明英汉这样的词典,这论坛里使用这两个词典的貌似不会多。
  • TA的每日心情
    慵懒
    3 天前
  • 签到天数: 525 天

    [LV.9]以坛为家II

    发表于 2017-3-28 09:14:14 | 显示全部楼层
    收词量惊人啊,谢谢楼主
  • TA的每日心情
    开心
    2021-1-14 13:16
  • 签到天数: 141 天

    [LV.7]常住居民III

    发表于 2017-3-28 09:14:53 | 显示全部楼层
    看起来很厉害,支持一下
  • TA的每日心情
    开心
    2019-8-8 16:36
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2017-3-28 09:22:36 | 显示全部楼层
    这个是精品,感谢楼主
  • TA的每日心情
    奋斗
    7 小时前
  • 签到天数: 665 天

    [LV.9]以坛为家II

    发表于 2017-3-28 09:40:36 | 显示全部楼层
    谢谢楼主制作分享。

    该用户从未签到

     楼主| 发表于 2017-3-28 10:56:52 | 显示全部楼层
    kyletruman 发表于 2017-3-28 01:08; g7 T& @! f# w* \2 X
    楼主有没有办法单独做一个css来控制排版呢?
    7 W# ~' X( Q4 A/ z(把排版的颜色、字体大小等其他可以用css来控制的加入HTML ...

    ; z3 J8 D9 |5 ]! b" J% e+ g! u% T不会弄css啊,只会点简单 HTML。等我研究一下。

    点评

    尼玛,10年老程序员也有不会的?建议六级考研gre标注做成 http://www.pdawiki.com/forum/thread-19932-1-1.html 他这种样式  发表于 2017-4-17 10:28

    该用户从未签到

    发表于 2017-3-28 12:17:13 | 显示全部楼层
    数大便是美啊!感谢楼主慷慨!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI ( 美ICP 0000000字 )|网站地图

    GMT+8, 2021-12-2 18:20 , Processed in 0.058643 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表