掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 132382|回复: 559

[英汉] 简明英汉字典【增强版】 震撼发布,全网收词量最多,词频考试大纲标注,340万词条

    [复制链接]

该用户从未签到

发表于 2017-3-27 23:39:55 | 显示全部楼层 |阅读模式
本帖最后由 skywind3000 于 2017-6-5 04:23 编辑 ! E) K% n0 X1 H2 F/ ]( y% J- {

6 v' t  Z! G8 P/ A1 [! S  K7 z2017年6月5日更新:增加 css版本,感谢 @idict 提供的 css 模版,以及相关指导,我又学了一周多,做了这个 css 版本,直接见文末截图吧 % v4 }% B+ e/ r: i) T, W; e
2017年6月3日更新:再次更新,修正网友反馈的数个问题,比如有的单词包含超过连续两个空格,顾及是导入某词典源数据问题,共5000多个, 版本号沿用 26# ?0 L+ K6 G8 ^/ n
2017年6月3日更新:感谢 @idict 校对:修正两千多释义只有个句号的词条(可能导入某些专业词典时源数据有误),补充了找得到释义的 500词,及其他零碎修正 & G- t  O0 O8 j# ]: I8 n! s
2017年5月21日更新:完成所有前 40万词的各种变形衍生关系整理,包括时态,形容词比较级别,名词复数三项 7 F, {# P2 G" F+ y8 b9 s/ b
2017年5月20日更新:增加【原型】 【级别】等标注,规范整理格式,升级代码补充部分词条,增加 Kindle 版本 . u' J/ `$ w  W& N4 x; S
2017年5月3日更新:词典大瘦身,删除垃圾词条(o-pen, go? 这些),优化mdx结构,重新使用 MdxBuilder 特别版编译,从 90多MB下降到 80多MB ) m8 b) e$ y1 c% u1 m2 O
2017年5月2日更新:《汉英英汉专业技术词典》内容涉及化工,生物,食品,医药,天文,电子等几乎所有科技领域,整合欠缺 8.5万,达 325万词条 # I( a/ i7 n; ]2 c: l" L
2017年5月1日下午:小修正,导入香港地址包含大写全角空格,上版本忘记删除了,现修正,顺手修订数条释义,补充点扩展名数据 $ b. L1 K" \2 p1 H0 O5 R" k" Q
2017年5月1日更新:扫《经济学人十二万词频》,《ANE/BNC/COCA 17万词频》,《朗6》《朗4》《牛津简明美语》等,达316万,能订版了么? : T# ^5 c# _% W( y: O& e( i
2017年4月30日更新:经提醒,居然把 @zhu1234 的《短语词组频率》搞漏了,这么重要的东西,补充5万短语,达311万,这次确定告一段落了 : X- C4 g. h1 r! x; i* l7 l
2017年4月28日更新:扫《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万达到 306万词条,绝对定版了 ! G, V0 s/ R* K! k! k3 C% W
2017年4月25日更新:新方法重扫OED/wiki先前无释义的五万词,得一万新词,收录 @ly1316 提供的大陆台湾各地地名,新增500欠缺地名,真定版了
: M* `* J. J- x. d2017年4月24日下午:十分高兴的告诉大家,writemdict 模块的bug被我改好了,mdict兼容问题彻底解决, 发布一个v16的修正版
; ?" S( z4 L7 D2017年4月24日更新:此版本差点见不着大家了,词条数增长到 270万时 MdxBuilder出现闪退无法编译,writemdict生成的手机欧陆无法打开,详细见文末   e' {! y7 p7 G8 N' a
2017年4月21日更新:添加5千短语,同时完成专业词典扫描,新增从经融到计算机,医学到光学,法律到历史,植物到动物等 10万词,总词量 236万 6 Y. e3 V  a& ]5 `& C: k
2017年4月18日更新:最后再发一修正,删除1万误导入的乱码地名,增补4490短语,优化mdx,内容不变体积减少11MB,谢谢 kyletruman 大力支持 , a+ N* z* L: O  K( y$ p- U$ F
2017年4月17日更新:发布一个修正版,补充1.5万俚语和5000短语,总词条 223万,正式定版,见文末更新说明
( ^5 T, W# Q' u- j  q1 R2017年4月16日更新:为彻底满足大家对收词量的要求,我这几天尽我所能的把词条数提升到了最终的 221万(103万单词,118万短语),见文末更新说明
' Y: J- F5 J: G% U4 b' K2017年4月14日更新:对比 OED 50万索引和 COCA完整40万索引,补充词汇到160万,应大家要求,补足之前一直欠缺的短语,见文末更新说明
6 _+ ^4 v! |: }8 w) i9 K2017年4月13日更新:对比Bing本地词库4万索引,Vocabulary的17万索引,OED 近十七年更新历史,继续扩充,总词量到76万,见文末更新说明 ' `# K% e6 _" e: D! v- T, o* ?' `
2017年4月12日更新:收录四万新词以及 UrbanDictionary 所有热词,总词量到71万,见文末更新说明
; n$ M7 ^4 [8 E. x/ D; f6 f4 i2017年4月10日更新:词条不变,精简释义格式:vi./vt.两条相同内容合并为v.一条,adj.->a.,全角逗号和空格换为半角等格式优化,更精简统一 : o* L9 A( f3 }0 n$ b5 `+ e) c
2017年4月8日更新:对比 @fxsjy 做的《屌丝词典》,收录欠缺词条,升级 MdxBuilder,内容增加但压缩后居然还小了3MB
! w' L2 e" }+ x! u3 p2017年3月31日更新:更新的 COCA词频数据,我之前找的6万数据可能有些老了,这次网友提供了一份可靠很多的数据源,重新进行标注
1 z8 N2 d6 S; W" p% T7 z2017年3月29日更新:完成所有动词的校对,补全 BNC里出现过而没收录的最后 200多个动词,至此名词和动词的校对都完成了。
" [. l% v' |. E" n6 S2017年3月28日更新:增加 GRE词汇标注,修订了一些格式上的问题,收录网友提供的地名和历史名人的名字数据。) w5 d7 ^: r  G
2017年3月27日更新:发布词典源文件和配套 Python代码,在文末,你可以导出成你想要的格式,或者 anki 卡片。) H; ?+ y$ M0 h8 c

5 y& G) _# W& t8 ~' V$ j你用 GoldenDict / mdict 配套朗道词典,简明英汉词典时是不是感觉很鸡肋?他们号称收词量 40万,但是很多词你仍然查不到。
$ {" n1 {  F' ^, K: M' b
- J: F7 Q( Z  W7 v2 [' I【简明英汉字典增强版】 收词 340万,全网第一多& W# q% e1 R5 o4 i" L" ]
" w( Z# D9 [) P( v& ?
你再也不会因为本地词典查不到单词而被迫去使用线上字典了。网上有的它有,网上没有的它也有,参考下面:5 R) W4 X+ t4 h- H

% A. j  ?2 w+ DOALD8:7.2万词条
' U* a& `" N: L) N. }' E* g! f+ l2 \朗文5:6.2万词条
5 X+ F! Y  F$ A0 _; rMerriam-Webster's Collegiate Dictionary:11.9万
6 `! X8 q! [5 \% H- N柯林斯 Cobuild 5:3.4万
  I0 Z* e: B8 i  @/ H1 r21世纪:37.7万% ~8 r, }4 Z: i

! n5 d( L" U. U7 a' y7 o* W整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用  NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。5 U) b$ C$ [' C5 o
0 X! [! I: Z! F" ?) ]
并根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。6 j0 ]0 i& a, P* T$ U
1 A7 ?6 i0 Z; g4 I' R0 s" ~
, W0 n6 ~9 d: [3 u8 f& U; m

8 [5 K* z  e* B& `直接上大图,请点击图片查看全图,缩略图两边都被截掉了,看上面 《简明英汉字典增强版》,请忽略下面的剑桥词典,
7 E9 n9 M* {1 g7 z8 U. {上面单词,下面音标和解释,这些没有区别,关键标注有四处:/ Q3 w( {' c  H2 Z

# \/ ]6 R0 F: ]1. 音标后面:K 代表是牛津3000核心词汇,2代表是柯林斯两星词。+ g: u! L2 w5 h0 H, s7 L
2. 下面的衍生词:各类简明英汉词典都没有,我用 NodeBox + BNC 语料库分析生成的。
! A; j* b4 d) k# W* j3. 考试大纲词汇标注,是否是四级词汇?考研词汇?
+ ^/ g7 @$ U$ h/ C% Y4. 大纲后面的词频标注:7131/8802 前面代表 COCA 词频(按COCA词频高低排序,第7131个单词),后面是 BNC词频。
& T% u7 l; X  ?# v0 e0 l2 v
+ o6 F. P9 P. j
: }& s0 c& m1 l, j: h# b0 `( j1 t/ o$ \* ^/ r7 f. ]
再来一张,perceive 不再牛津3000里,所以音标后没有K,但是还有2,因为他是柯林斯二星词汇。
) K& ]' L1 _+ c6 ~- g1 l# m: t6 ^; w7 u% f' l" c7 j: `  x$ d( _+ c
9 T9 O. Q# U. e1 B' p
  ^( n" X; A! L, H% c6 ^
同时根据 COCA, BNC 的词频前20万单词进行校对补漏,兼顾现代和传统,比如 Taliban (塔利班)这个词,这个词在各类 “简明英汉词典” 里和其他大辞典里都很难找到。
, y. p4 d# L+ G2 rBNC 前二十万词里没它,但是COCA(美国当代预料库)里排名 6089,简直是重点高频词汇。5 t$ F2 m! J1 E) X! {  r

1 _3 A: E0 d6 N 有了 COCA词频就好,为什么还要提供 BNC词频呢?; h- t7 N' F5 B+ \8 A$ ^

( s3 ^( m! U' A, C' p) C很简单,BNC词频统计的是近百年的各类资料,而当代语料库只统计了最近20年的。quay(码头)这个词在当代语料库里排两万以外,你可能觉得是个没必要掌握的冷词,
6 n4 u" s) _5 C0 [/ V* E而BNC里面却排在第 8907名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多。所以你要看懂' j9 ^2 \# {' c4 I* e( i
百年以前的各类名著,国外的什么帝王将相才子佳人,你会发现BNC的词频很管用;而新闻时政,COCA很管用。所以只看一个,未免有失偏颇,两者都提供,有个对比。
! a2 P9 V1 A- E7 M$ j# G& Y
; Q% k& J7 y& z% T/ q+ e4 Y6 s- w
: I7 R: w5 c6 I
7 Z9 e; t1 a$ H7 P3 X' z同时制作了一个“免音标版” 删除了头部的单词名以及音标(柯林斯和牛津三千信息整合到最后一行),也许你 GoldenDict / 手机欧陆 里面已经有很多字典了,0 j  I- B. `( ?3 I  X
也许你不会想我一样把它在 GoldenDict 里面排第一个,那么你可以用这个“去音标版”,来避免头部音标部分占用太大空间,和其他词典一起放手机里看着舒服,保持小巧紧凑,其他都一样。; z6 t+ v2 r. q' _# R

# G5 ]3 Q- i+ `9 y* N! c" d. k" x, ?: z& K$ k  g0 e
好了,最后上下载链接:
. e5 Y  r+ S+ [8 |6 U5 f. q0 EPC mdict 用户别用 mdict 1.3了,尽快升级 mdict  2.0,因为 mdict1.3不兼容最新的mdx。测试过 mdict2.0(包括手机 mdict),GoldenDict, 欧陆(PC、手机),) x0 D" q- q, O" o3 `# n7 m; ?
BlueDict,edwin 统统完美兼容,惟独 1.3 有问题,不知道是不是 1.3对大型 .mdx兼容不太好。详细见:https://www.pdawiki.com/forum/thread-20612-1-1.html

" O" ~/ s5 g: U  D" J* N
3 r% G+ O1 |- {6 j* k+ C9 m& c3 b网盘下载:7 C$ N- o/ S: W, \% v1 H% m2 g
http://pan.baidu.com/s/1eSP6SSi (2017年6月5日 v26 ,包含 CSS版本)
& K5 \; B: T0 k1 l. _, w# k) J0 [. n7 `7 v" v9 s8 R
备用地址:. E3 ]7 |5 z7 D, X. R4 N  o9 O# e5 W
https://github.com/skywind3000/ECDICT/releases+ J/ S& A, h; M2 T

; ]( x+ j$ o' d6 Q: q文件包括:
3 H% H% }" ^& Y' o简明英汉字典增强版.mdx  ; k+ R9 d, ~; J; R6 I
简明英汉字典增强版-去音标.mdx# V4 A6 d4 |" F: u6 H
简明增强-欧陆.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)( T+ m5 G# B! k& H2 K1 o7 p# j5 l  e
简明增强-欧陆-去音标.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)( s; x7 }  y; {
简明增强-stardict.zip (有人觉得 stardict 格式在 GoldenDict 中性能不错,我这次也做了一份)9 f% R; h, x( T7 }
简明增强-mobi.zip (Kindle 版本词典)1 U3 L$ f2 S4 h
简明增强-css.zip (支持 css 的 mdx 版本,v26以后包含)
9 [3 i; }! `: e2 M" @5 y0 Z  t# T/ B! `
原版《简明英汉词典》和《朗道词典》,都号称收词 40万左右,但里面光各种医学化学专用名词就超过20万,真正重要的词却经常搞漏,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。
. a" X$ X+ z3 x6 a8 e5 o" H; |! Y+ ^6 ~5 o: ?' D) P7 x0 g
国内词库制作之不严谨,由此可见一斑,朗道字典(GoldenDict / StarDict配套的那个),居然连 “learn” 这个单词都没收,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。
- p1 l$ N' u! A6 h, s0 _) z# F3 \$ F% _) W
包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。
  q/ O+ p3 S4 D) @/ T/ {+ {" T
6 L9 e/ N& |9 E( j  I& O* O& Q" k和其他牛逼的词典放在一起,可以起一个参考补充作用,当那些词大部头专业词典里没有的时候,这个词典还能给你解释一下,免得你再去看网页词典。# l6 E* {! U  g  T

/ V! s% P% n1 A2 A8 b
" N4 J! F# Z# \& ^) S" ^, Z数据库最新版(持续更新),以及数据格式说明,还有相关配套 Python 接口,见 github:
. h+ K$ G. D+ [* R" `https://github.com/skywind3000/ECDICT2 q4 L! U5 ?% j- ^
2 w! U+ q( a6 X6 r" A- y3 D
LICENSE 为:MIT + Creative Commons 双协议
# ?/ r; T, ]/ M! a4 b5 A) f/ Y" t2 J' K% I& ^' Z

! E" I2 t/ O  z- F5 M1 U* J3 V源数据已经提供,因为我只会点简单的 HTML,如果有排版达人能改个更漂亮的版本就太好了。。。。
. D4 }- I( \& {$ ]# V1 k2 n
( K' z! p1 K" _2 n5 z. M: ^--------------
( A7 ^" j4 a) B/ e5 H  y2017年4月12日更新说明:总词量达到71万; u8 v) t! s2 V" O! N, p

# |2 f2 }+ X/ s: h" S对比了 “mdx痴迷者” 提供的 40万 COCA词频字典,补充了4万多我找得到中文释义的词汇(google translate,bing,iciba),比如 ever-better。+ |1 V- F! x7 `# q+ @7 w: d2 \! t
) M% L* l0 Y5 C' M
扫描了所有 Urban Dictionary 热词词头,对比了本字典,欠缺一万多,再次搜索中文释义,找到8000多来自 Urban Dictionary 的欠缺词汇的中文释义,添加进去,
! [6 s* Z+ Y7 c  _3 ^各大翻译接口并非完全可靠,大到 bing、google都一样,比如 google translate 翻译的 bromance (兄弟情)的结果是“溴化物”,所以我找朋友一起校对了8000词,
& n& n9 W  n2 M  u0 O  m" I选择了正确的释义,但是还有2000 Urban Dictionary 热词实在没有任何可用的中文释义,翻译引擎也是乱翻译的,这部分,选择了直接使用 Urban Dictionary 的  X3 J0 p! N- \" p9 N! V+ A# z
英文释义,比如:; v: M* P# z( a
: L1 ~, p- K" H9 a% ^
Yoga Pants
- f5 ?7 L" M6 M$ R
  V- A- o0 @& R9 t* S  P3 cPants that make anyone look like they have an ass.
7 ]$ u9 c. i, t: B( U> "Damn when did Jillian get an ass".
" _: l; f2 _, a; @: T> "She doesn't, its just the yoga pants".

" w0 h/ L9 m8 `' y( }  {$ r2 T. O9 y: V' q' o: Q0 ?# ?' a) [
dudevorce
# a9 L& q3 X) i0 C# n2 b8 M4 y; W$ n$ l( Y
When two male best freinds officially end thier friendship over a lame disagreement, usually concerning a girl.3 l9 u& t  I/ v3 F% f
> Spencer and Brody got a dudevorce over Lauren.

: z$ W8 }1 s4 P* o4 C" [7 K2 }1 D( Y6 C0 L5 J& m
big in japan
( m3 ^$ o' x8 N6 Z% s! b- l3 d3 y' m' K$ D+ [
To say/pretend you are someone of stature somewhere else, meaningless and not verifiable where you currently are.0 ]  F6 N+ Z9 {. f/ A
> "Yeah, I am big in Japan"

/ K7 Z, B% V: c% o5 [9 w
# G" p9 k+ D' s+ B  d) v这些直接用英文释义应该问题不大,至少你可以从这里查出这个词来。9 G) n5 t% O& t( }5 X# {6 M
) z; m* M4 p6 l9 P. b
最终总词量从原来的 66万词条上涨到 71万词条,大家耳熟能详的俚语:
# d  @9 Q/ `, W- Y/ j. s8 H. N1 |no zuo no die* L( [* y& Q) L$ q; ~
you can you up
& @: H2 ^7 _/ r+ ]4 H/ Z8 ibromance/ F0 {6 k2 \5 @( d  B
- L1 ?  y5 @8 {0 \$ k+ G
还有不少国内任何一个在线词典都查不出来的词,比如:0 M/ Y9 A; L' m
poorism8 Y& r% B/ p+ T  u' ?# @- g

  V5 z+ @* O. h" ]' n  \等等,都能查得出来了。+ F" u. }; C" H1 w" P

$ N* ^% `3 h4 o8 {8 d--------------
6 V5 S8 f/ a* R2 g2017年4月13日更新说明:总词量达到76万. b2 S4 ?# C3 f8 Q4 `' b
4 s( V+ Z4 x5 s9 V9 M
Bing词典安卓版本有一个本地词库(有人放了一份),用里面四万常用词做索引,使用 mymemory.translated.net、google翻译进行释义补全。5 r( ^1 A6 T8 i* Y5 ^2 M. c' |$ e
  r2 ~: m+ O, R. r% j9 {
继续使用 Vocabulary.com 的 17万常用词做索引,补全欠缺的4万单词。) D  X/ _% T3 Z4 u$ N# O& @

. W; c# e# ~2 j- f' A0 r此时,基本完成各大词典的收词比较,基本把市面上近十部常见词典索引比较了一圈,并将欠缺的词汇分别用各大翻译引擎给补充了。" @3 i4 X# Y6 I$ {  q

1 _9 p+ e% U2 q) u目的是跟网络词典死磕到底,此时已经收录了很多你在有道,金山词霸里根本查不到的词汇了。
7 X( [$ {! r. Z4 _
; }, ]( e# M3 R继续检索《牛津大辞典》近17年来收录过的新词汇列表:
) t2 H( X( y+ B7 J7 ]http://public.oed.com/the-oed-to ... d/previous-updates/+ r8 d& K' x9 j5 t: g, I) p$ Y$ d
/ w2 Z! S/ G) l, {# w
对比过后,继续收录欠缺部分,最终词汇量达到76万,此时很多 《牛津大辞典》收录的现代流行词汇,比如:9 q2 {' c5 D6 H7 f! P7 b' l3 O- c

8 b3 M- b! U' `- JBrexit(英国脱欧)3 Q9 K7 ?; L: M7 Y
polytenize(聚拢)
: p! Y) K1 H0 C8 D9 T: h* ]hackathon(黑客马拉松)
" i6 s, F7 r* s7 x. hhackdom(黑客圈)
2 n  p  I9 D7 ?' ~' W& B8 D" O6 vdiscman(随身听)& Q+ \3 V6 [& j7 M) m; ^7 v% K5 M
veg(蔬菜,vegetable 在英国已经被逐渐简称为 veg了,牛津大词典于2008年收录该词)$ \: c3 Q: u" Y; O$ c, N- B
/ }% x) y' P9 B  H; c7 N* ]1 S
都可以查得到了,我试着在有道上随便查了一个词:Brexit 结果提示:9 a' t  c1 j8 j, @- C) s! M# P
您要找的是不是:' k3 O% I" K8 k! s- i0 X
breit: j4 y* W, s- B1 h
breast n. 乳房,胸部;胸怀;心情 | vt. 以胸对...

( x  b" q6 r5 y+ ~  n2 a
$ ]8 `1 C; u% L2 {! S% O矫正工作(比较单词表,补充欠缺的单词)先后经历了:
) S% p) U5 j9 O, u7 `5 k1. 各大词典的索引矫正
; i6 X$ k  _: ^2. 词频矫正
; q$ e" A* X. ^( X! H: ^3. 考试大纲矫正
* p% d, r! s- V9 c4 P4. 口语流行词矫正
( u$ ]4 u2 `; W6 ?8 S( u' N( d8 ^8 c5. 书面语流行词矫正
! P0 e0 o( F  ^0 g5 ~7 o7 n7 ^" l" P" }# p+ T2 ~
---------------------
" `) E  x. W# O4 B, z; \2 _2017年4月13日更新说明:总词量达到162万+ G5 Z$ c2 j; X( Q
5 P0 v  V! n1 b$ m6 Y" \# m8 m
继续用 Bing + Google 翻译 对 OED所有 50万词汇 + COCA 40万词汇进行扫描,补全了接近20万欠缺的单词,总词量达到90万。2 q- G/ q2 E/ B& F) p  U9 K, e
对比网友提供的一个收词110万的英汉词典,补全 10万欠缺单词,开了10个进程跑了一天一夜,先跑 bing (比较准确),' C8 ]9 G, |' B2 t
再跑 google 翻译 (缺音标,量更大,但是不太准确),总词汇量达到102万。
. V' q) R/ J* P9 |, x# e: R$ n+ ?5 B* y/ C& Z1 k2 e
本来想只做单词,但是很多网友一再要求添加短语,短语量真的很大,先添加 60万的短语,最终总词条数达到 162万4 {9 t4 ^- l& o2 ]8 p0 q

# T+ B* d; `7 H' J
5 o5 g6 D* V. ]/ {, T+ T. y: u4 F8 K; x-------------------7 p- j  A( f: C2 z$ s8 a+ H; H
2017年4月16日更新说明:总词量达到221万
# v6 c6 b) |( x8 w+ T: }, V2 p) |
终于彻底完成 OED 50万 / COCA 40万的所有单词和短语的索引对比,但凡有中文释义的词条都已经添加,新增词汇15万,
- i2 I, N5 `7 c  G达到 175万。OED号称是收录前后一千年的英文单词,连莎士比亚用过一次的词语都不放过的词典,经过对照扩充后,
. v1 ]# m, A3 h% q, Q本词典对OED的覆盖率基本达到 92% 左右。
( b" p  P9 C7 }# G" n: X3 n& R; t5 b, S0 |+ {' g/ A
彻底完成 wiktionary 的索引对比,虽然wiktionary 太偏门,但还是尽我所能,新增中文释义词汇 10万左右,达185万。
( n9 E) `8 T% F" {6 F2 N9 L
4 p# I5 O: B3 ?+ U5 h7 h之前一直打算补充的地名信息,一直拖着,我本打算要到 wiki和各种资料里面爬地名的,幸运的是有网友直接提供了这4 S/ h& x$ i' Z9 c' M, J* u
部分数据给我,因此这次得以一次性补充10万欠缺的各地地名,这次收录的所谓地名,不是伦敦纽约这些早已收录的大
3 r) W4 H1 n) L& c城市名字,不是 Bari(意大利东部港口)这些各个各家稍微有点名气的二线城市,这些词早就收录了。5 R5 j+ z, D6 Z+ X. j
$ o8 ~- M8 v2 V/ e8 g& s9 @
这次收录的地名是指你把谷歌地图拉到意大利,将意大利东南部一角(不是整个意大利),放大到整个屏幕,才能看到
" x: I$ [2 N2 g& i- P的地名,比如:
# H1 h% d( M5 |3 O# g4 v4 K! P" `7 ~- H
Alberobello& P! t# Y( [& y: w* l, E7 Q
[地名] 阿尔贝罗贝洛 ( 意 )! d- P# G7 {: ]3 f; j0 s- n3 A' T

- d- d% Z) n- K- q, ^. @* `9 {Cisternino8 ^; U7 B9 u( d1 F* ]* A9 ?
[地名] 奇斯泰尼诺 ( 意 )
$ ^4 \. t6 ~" E: I9 T6 O: h& F2 {8 @/ [( k! @  A+ W
matera; \/ w% s, H  b# \7 i
[地名] [意大利] 马泰拉

* j4 `, K% H" G& _6 C; ]" A, {0 y. J3 x
这些各个的三线小城市之类的地名,10万词条,世界上差不多200个国家,平均一个国家至少有500个地名,所有该类词条前面增加
9 Q, P( A# T+ r' e, j/ J& P/ c[地名] 二字,后面增加属于哪里,方便你区别,虽然缺少各地更多简介,但这里不是wikipedia,至少让你知道这是个地名,大概方位
! O4 S7 l$ B+ y8 q6 h6 M: _在哪里。) l" ?7 Z& e1 z; U6 v' ~$ ?, ^: t

6 ~" P) v& b7 E9 x上次发布释义征集的时候,有网友给我提供了10万带中文释义的稀有词条,刨除重复的5万后,收录5万欠缺的,总词量到190万。
8 Y) t! b$ w/ p, X9 x3 T/ i  X3 p5 ]
继续增加10万左右的商业财经类的单词,比如:* H2 G! t+ a# l

( c( a5 E( Z$ D( @, \3 L2 N' k5 ^real estate company
9 q8 ?/ Y+ c! u8 T" Z, F[网络] 房地产公司;是地产开发商;委托地产公司
( K& H  C( Z$ _* \" S+ }
# y. Z! t7 E5 R; a) h" Z
这类短语以前没有的,各大字典也很罕见,这下可以查得出来了,总词量达到 200万。5 W2 U( W* c, c

1 {4 k3 D  S! w0 G, |接下来尽我所能的收录谚语2万条,类似:; s! d/ |2 l7 P% u  G3 g
- G3 [) A: N" R
If you can't stand the heat stay out of the kitchen.
4 Y9 J9 M5 B# Z0 Y) [[谚语]怕死,别上战场。5 _, R2 N/ F3 H6 W7 s+ G

5 I- T* `& V' q3 Ghoney catches more flies than vinegar
, l8 p8 M9 v5 }8 }0 ^+ |[网络] 投其所好;蜜蜂比醋抓的苍蝇更多;献蜜罐子总比送醋坛子管用

# ~* M5 f/ E3 ?
! y+ s* h. X" i/ s这种,达到 202万词条数,这几天我把我所有词典索引都拿出来跑了,尽最大可能搜索中文释义,补充短语部分,: e! Q7 N; Q4 f, S6 a
网友不断的为我提供各种词条和索引,机器跑了三天三夜,所收单词,国内任何一个词典里面都查不到,最终
/ z8 f. H2 ]. j4 _7 g& d补充单词 7万个,短语12万个。8 }+ F8 G, e' ^
" a+ ~- M8 g% a5 C% _
结果统计一下,总词量 221万,包括 103万单词 和 118万短语,短期内我已经尽了我最大的努力,从最初的版本
+ @3 c: ?) S( {- w# N到现在,补全了大家一直要求的各类单词和之前一直是弱项的短语。如今这个词汇量,应该和各大网络词典属于
$ q5 O5 ]- B% P2 R6 N同一量级的了。
1 |) ?* a! T0 d! }
: {5 m3 w* q7 K3 }, \" F! t-------------------
9 Z4 z/ X, Z. D& u/ j# n6 l2017年4月17日更新说明:总词量达到223万7 W  r& F% Y" o
' z0 t; k* f3 s! w" L3 ^
这是一个小幅度的修正版,应网友要求补充 5000条短语,找到一份俚语的索引,对比后增加俚语 1.5万条,诸如:
) o% }, @& D1 c+ @! z
2 [# y* Y- ?/ P# F% qkisses off
. f0 q( P8 W! s# vn. 开除;〈俚〉(特指粗暴无理的)解雇
. j" I) |5 `$ }
5 M/ U4 ^+ I7 T  H5 A/ v
这些,俚语中文释义相当难找,google又是在乱翻译,1.5万俚语里面只有5000的中文释义,其他的1万条选用了
, T, @, K* u2 T$ I$ |! Z/ JUrban Dictionary 的释义:& t8 B% }( d+ @& O: @

8 v% D% ?+ _* y" Oghosted you
  J# t# V3 Y% {5 x' DWhen your in a relationship with someone and everythings good or so you think... than BOOM, one of the people in said relationship just leaves no word no goodbye nothing. ... He ghosted you
/ Q7 p- o: e# j# L& o> My man wined and dined me and than he just stopped communication. He ghosted you

1 ]2 Q+ i; o4 t/ o( y( ?3 X1 x% B& P. {
+ q* A& [. c2 k. _" ^至此,本词典算是正式订版了,后续将进入定期更新环节。
0 H# G  ?: x4 d+ c! T4 V" U
7 G+ L* o( i7 E% P2 m-------------------
; j0 d+ N3 g/ \) s4 I! x2017年4月21日,总词量达到 236万
8 ^' `5 k' Y1 ?; k3 h) D: R6 q  j- }
完成之前一直想完成的事情:专业词汇,尽管先前两百多万的收词量已经囊括不少领域的专业词汇,但还是怕有遗漏,这次% M3 j% c  ~) L" H! ^% n* ^
一次性找到了 45本专业词典的 mdx作为选词参考:! l4 g  ~& g) o7 k& {  a$ c; E* v

2 @6 ^$ ^9 l8 P  c百科类:《大英百科全书》,《McGraw-Hill Dictionary of Scientific and Technical Terms》,! l6 l" J3 s. Q9 p
历史类:《Oxford Dictionary of World History》,《圣经词典》& c& r% U* A3 S8 y9 b
军事类:《美国国防部军语及相关术语词典2008》
/ y, ^2 s% v7 \5 Q. Q; m法律类:《牛津法律词典》,《The Lectric Law Library》,《英汉法侓用语词典》,《英汉法律词典》,《英汉法律缩略语词典》
2 o" u$ f- S* x$ u& v经融类:《彭博社专业财经词汇》,《英漢雙解路透金融詞典》,《英汉财经词汇手册》,《英汉汉英经贸大辞典》,8 [# J8 R% x5 i+ q" V
投资等:《Investopedia》,《英汉证券期货和金融术语》,《现代英汉汉英商务词典》
2 D+ |! A. k: X) e3 u; w# D会计类:《注册会计师(CPA)专业英语词汇大全》,《英汉汉英会计金融词典》
2 d& X/ |- w- Q4 H( H, S  p# |科学类:《英汉汉英物理学词典》,《英汉地理大词典》,《人体生理学词汇》,《世界地名翻译大辞典》,《英汉医学辞典》  p  `! o, t9 P3 U) e% W
军事类:《美国国防部军语及相关术语词典2008》
2 g$ i7 V/ C! b' h0 a1 N5 F' R计算机:《Microsoft Computer Dictionary》,《WeboPedia》,《NetLingo》,《What Is Tech Target》,《Computer Desktop Encyclopedia》,《Computer Hope》
3 ]/ S! B9 h( b: c; y/ p! N# P机电类:《Glossary of Electrical Terms》,《英汉汉英电子工程词典》,《英汉机械大詞典》,《英漢漢英機械設計詞》," v5 X1 s' k! X1 h/ c( p4 l
文学类:《Babylon English Idioms and proverbs Glossary (Phrasal Verb Dictionary)》,《The Jargon Lexicon》
+ L6 L8 j& q" i+ @, p9 n其他类:《Merriam-Webster's Elementary Dictionary 2016》,《英汉食品词典》,《12万字的专业英语词典》,《体育项目名词》,《英汉汽车词典》- I. J1 u( L2 J: A

! L6 K& e3 V/ m8 F2 s# E/ N* ~. g& `也许你一辈子都不会碰到这些词,但是如果你碰上了其中几个,简明增强版就能为你节省不少线上搜索的时间。
+ ]3 `5 ]# e2 H! J1 z3 ^) E8 w3 x6 V+ @4 h& r
-------------------3 t0 W5 |# I( Z$ K! W, I" ?' r
2017年4月24日,总词量达到 304万8 ?5 B7 p$ t$ x8 ^
8 ~0 ]+ @( o0 F
上一个版本收录专业词汇时,把所有专业词汇中的短语给漏了,我还说怎么才那么点,这下一次性补足前面缺失的专业短语,
- s- B' B9 i: r% B' J1 C词汇量增长到 272万,还好即时发现,不然接近40万的专业词汇就劝漏了。在 @ly1316 的强烈建议下,整合一本相当权威$ |) W' l$ n+ B7 m
的专业词汇《台湾国家教育研究院双语词汇》,这本词汇有多牛,看看本论坛和译术网的介绍:
/ L- w5 P& F: ?, U  v: ~* S: C7 B) B$ K" B
https://www.pdawiki.com/forum/fo ... hread&tid=15227
6 g2 W$ A" m0 l. c$ ]http://www.all-terms.com/bbs/for ... hread&tid=20882
# U* ]4 }  Z/ C# b, x! T
9 j( q% T' o1 g8 N150个分类,139万词条,十分权威的释义,又是台湾免费教育资源,可以说把这个词典整合了,各种专业词汇基本上就被我
7 L1 v/ b1 k3 K9 A# [! \们一网打尽了,整合过后新增 30万词条(只欠缺这么多,其他以前都收录了),并且精简了格式,删除了原来词典中同一个' D5 V! |6 k3 v$ A2 l7 F
单词相同的释义(见上面截图,该词典同一个词有不少重复释义),简明增强版收词量达到 304万。7 i8 S3 T* C! E) T2 C0 ]8 F

5 B3 j4 e7 U* W% S$ ~5 e, \0 F- [可惜刚要导出 .mdx的时候,亲爱的 MdxBuilder 崩溃掉了,试了几次都这样,应该是词太多了,没法做了。MdxBuilder 3.0又
! b  S, i" n8 H' A( Y% F# I. V没有64版本,4.0有64位版本却又不兼容。万般无奈下找到 python 模块 writemdict,用64位的 python 来生成 mdx,GoldenDict+ U7 u# t2 N* j/ Q3 `
里面一试,成了!正准备上传最新版本,结果我放手机里,手机欧陆完全无法识别。
0 I5 p2 |! R4 K
, @7 u& x/ L" C+ n, W$ b一开始还以为手机欧陆词条数限制了,结果我用 writemdict模块编译了几个老的词典数据(上周的版本),发现手机欧陆还是$ X- {4 J- ^% Z& V8 B0 h1 C
无法识别,基本可以确认是  writemdict的 bug了。这下麻烦了,304万最新的数据不管用 MdxBuilder 还是 writemdx都无法生成
( Q0 g* O" M4 @4 M3 E正确数据,我在想,可能真的到了 mdx 的极限了,也许我们的简明增强版就要到此为止了吧。- s# P+ J- |( A* Z
" }" W$ V1 d! V, I4 J$ g# A
把 writemdict的代码拿出来读了几遍,测试了一些自己觉得可能和 MdxBuilder行为不一致的地方,都不行,正准备彻底放弃,
, I5 ^' ]  u" l2 j& `突然想到它索引排序的时候好像没有忽略大小写,于是改了两行,生成的.mdx终于可以在手机上正确使用了,这个经我修改的正
& f) O1 I8 z1 p* s( a* y2 o4 r确版本,给有需要的人留个备忘吧,可以用它配合64位python,生成超大 mdx文件:
9 H, _2 T% P5 N7 T5 F; h' p$ I' jhttps://github.com/skywind3000/writemdict0 e  o4 A* e" J5 _

# u  t% k6 T0 R2 W  a* i: E4 ?可惜MDict索引暂时有问题,GoldenDict, 欧陆这些正常( `6 z0 E- @" f( q2 W
2 g9 s8 g# ~: K+ `* y! C' X
最终,负责任的告诉大家,各大网站查得出来的专业词汇这里有,查不出来的这里也有,专业词汇被我们一网打尽,1 a. o: m/ i3 i
你下载这个《简明增强版》等于同时下载了上面那么多专业词典,而且重量不会增加哦。; }2 o9 C0 _8 O( Z
至此,专业词汇工作告一段落,后面进入本词典的查缺补漏阶段。5 h5 a4 _# W  L" ?! Z1 |
% C1 t& w+ L0 Q3 i* P
-------------------6 H" @; ^' i2 g
2017年4月24日 下午) R8 K+ y; r7 i; B
$ g/ m/ m& q4 k& K4 k
经过 MdxBuilder 生成的 .mdx 文件和 writemdict 生成的文件头对比,确认了引起 mdict不兼容的 StripKey选项问题(GoldenDict 自己做了索引,所以没问题),& r' x# S0 {# L. h# a. C$ T- ~
又请教了 rayman 关于  StripKey 的细节问题,终于吧 writemdict 改好,并且可以用64位的方式生成正确的 .mdx了:
6 I) |' @* Y; @) Z9 O1 h+ N/ Bhttps://www.pdawiki.com/forum/thread-20577-1-1.html& ~0 M( v: p* r" Q: S( Y8 ~

* G" O2 Z' [0 Z% I. ?, |) HMdx格式设计还是比较巧妙,对于词典软件,并不会因为词典词条增多而增加对词典软件内存等各方面的占用,也就是查词端并不会因为词典太大查不了词,
# a# T* i, P9 R. Z! g包括手机。但是却对制作端(MdxBuilder)的内存有要求,词条越多,释义约丰富制作时就需要越大的内存。5 l2 o1 w2 x, L- y( U

7 \; q* \1 J( d  U/ q- z& Z如今这个 writemdict也可以留给后面需要的人使用, .mdx 今后想做多大就可以做多大了。
0 b6 o  s% `, ]5 d' [
6 B8 K& S  X, t& x- U! I- c& D+ Q本词典今后也得以继续发展下去(虽然今后主要着重查缺补漏,大规模的收词量增加应该不多了)3 E* i% q1 a1 c$ c

3 [8 `  ~+ E0 m. _3 t7 d简明增强 v16的修正版已经发布,完美兼容 mdict, goldendict, 欧陆,edwin,欢迎更新。) E, X& Z7 C. h, S" e' ?& G# t* i
( x8 F3 i. Y5 p: P" U
-------------------
. l$ Q6 C3 s  N1 j2017年4月25日,总词量305万 ) P3 U; d7 M( Z' ^. }# S7 a

( _4 ~. |1 K1 I( b8 y7 H0 c3 o整合 @ly1316 提供的中国和台湾的地名资料,补充500多个欠缺地名,之前已经有很多地名了,不过全世界范围内的,对于
; @9 i# [  A" P$ B/ M$ B中国而言,这次比之前更为详尽,同时用新方法重新扫描了之前 oed / wiktionary 欠缺的没有找到释义的5万单词,最终又% F3 `+ S- w: U9 Y
得到一万新单词,如今 oed/wiktionary 的覆盖率已经很高了。
* M" M! i" L! J/ a0 l$ S" e9 t8 b$ B
, \- _% v; b( i7 c/ s这回我手头的全部索引都跑了无数遍了,累了一个月,真的定版了。' v+ J% _2 Z' w' Q% ]7 c

" U6 ]1 H# U. U/ n0 t& `: d+ z' l0 t-------------------
- k9 T  ]. N& W  |! E! h2017年4月28日,总词量306万
3 f% g. t/ Z3 R" g2 Q4 \& d8 f; i《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万欠缺词条,总词量达到 306万词条,
; v1 A6 p1 V- Q  F同时按大家的反馈,更新 20多个词的释义,这次绝对定版了 3 `" M- v4 W5 |

) L# x4 H" X6 b0 H4 e; D-------------------
# t$ }7 t2 W! C5 D7 s2 C, v2017年4月30日,总词量311万 2 d' T. X; t( v/ j  X. ]
补充 @zhu1234 的《短语词频词典》,总词量达到 311万词条,
! O! D6 ^- f+ q7 M% A. H" t5 _! I$ [手头资料已经用完,真的告一段落了
& P( G- p- y) P4 O, p# j: `( O4 @1 _1 Q2 M% k
-------------------5 m9 W( x+ ^' ]' j
2017年5月1日,总词量316万
% P' F9 k- x- C! i  q1. 扫描《BNC/ANE/COCA 十七万词频词典》,补充欠缺 8000词2 P* |* i; o) U8 J: D  L
2. 扫描《经济学人12万词频表》的欠缺词条 7000词。- H0 n2 N( ^2 z( Z
3. 扫描《英语常用短语词典》,《朗文4》,还有一些短语谚语索引,增加 5000词$ g! G6 c$ V# h4 @5 E9 X1 L
4. 扫描 @langheping 大的《朗文6》,《柯林斯12》,《简明牛津美语词典》,新增近1万词8 Y: F: |$ ]1 @7 [1 F% i4 `
5. 扫描 @langheping 大其他数十本词典,如《斯坦福哲学百科》,XX搭配语,Roget系列5本,美语企鹅词典,8本Idioms系列。。。。,新增2.5万词: M# l$ }$ }3 P$ L3 L
6. 扫描常见缩写,新增6000多条
+ _: ]4 ^( @4 _4 c& v# l7. 新增香港地名:经常看到个香港英文地址蒙圈了吧?这下可以查中文对应了,细致到街道的,比如:Lai Chi Kok,Nathan Road,如此大陆和港台的细致地名都补充了。
- T) `. U5 m! S5 Y. r$ Y; L8. 新增文件扩展名:可以查电脑里文件是什么类型,前缀是一个小写的句号,比如:.pcx, .txt, .psd, .pdf 差不多800多条常用文件扩展名记录。
4 v4 h, \; d0 V1 i* ~) o9. 修订 50多条基础词汇释义
' b) a. `. i' b4 x, N
( p4 J0 m6 k: l8 i( k7 v2 e这次究竟能不能订版了?; e1 Z9 J/ Z9 w' ?, h- ^+ w! v8 _

$ k' |' b: Y' ^! U-------------------! g4 \" W# ^) t" ~
2017年5月3日,总词量324万
, f! r6 j6 _1 ^+ t) {, \4 P这次主要是瘦身,因为上一个版本已经有 91MB了,感觉作为一个简明词典,无限制的变胖不是件好事情,单词量还是要控制一下,如果, g# M, k9 T0 K' n6 p
要加,还有50万的医学术语可以收录(医学名词是其他专业的几十倍),词典可能会变成 120MB,边际效用太低,不是所有人都用得上,
2 Q0 _4 c; r+ [* A# K4 Q因此,准备控制下单词量了,并且进行了一些瘦身工作:
1 R+ i2 i4 c- ?5 N* L' `/ @& f3 n5 p! R
1. 删除先前 COCA 40万列表导入的一些垃圾词头:比如 o-pen (open),  gr?s?(应该是乱码吧)之类近 8000条,总词量从 325万下降到 324万
8 [1 a; V1 N9 V; E( m2. 使用 mdx 配合 style 文件的方式,重新生成 mdx,writemdict不支持style,我用 MdxBuilder 特别版,崩溃5次成功一次,终于生成
4 d  K3 z0 D. M, Z: H& M' z
. q3 D, p$ A  V3 J# u8 g: {- o" i最终容量从 92MB 降回到 87MB,我是希望本词典最终大小能够控制在 80MB以内,再大就臃肿了。
& W) ?  P+ y% A* y2 e  {$ I' q( K0 p$ S3 U( }
顺手整合了论坛里《美剧基础词汇》和电话号码区号1 m  s5 p$ }5 ^; l
查询,输入 0755 可以显示是深圳的区号。% b0 E  r  k! [$ a$ j/ K
  `& R5 r/ P3 x! q+ o# h6 P2 B
现在发一个版本差不多要花我 4个小时,因为打算这个版本后停一段时间了,所以这次干脆就做好点,同时生成了欧陆原生词典格式,, y& A  P/ f+ K& O2 X& J/ i2 j
方便大家在欧陆上使用,欧陆用原生格式性能比 mdx好一些,特别是手机欧陆,没买XXX的欧陆只能同时支持3个mdx,这里可以给
4 \$ |( e5 I1 p! s3 o其他 mdx 词典腾点空间了。
- l" x  P3 m4 }3 j! ]( N# Y
! ^- r: L' |2 i2 }( u/ Y2 [因为有人问,就发布了 stardict 2.4.2格式,纯文本没格式的词典,似乎在 GoldenDict 下面性能会好一些,同时有大量老的词典软件可以兼容
; Z- v" ^: S0 j+ Q2 P  [stardict 的 2.4.2 格式,这样支持的词典更丰富一些,包括一些老旧的 PDA在内了。& E% R* y# @1 C0 Q
5 _. ]5 x6 a$ V! @( K. `
好了,做这么完善是真的准备订版了,每隔两天一个版本大家更新着也累。
: t6 t& ~4 R' R8 Z0 I; U: O! n& z" v# h& u' n6 a3 t- n& N
-------------------: r# X# ]8 H7 f  p: U( J; K
2017年6月5日,增加 CSS 版本 , y1 V( T0 ~4 U$ U$ y" _' c
" ^) u! E8 X! j. i
经过最近一个多月修复了数十个小问题后,本词典内容上应该不像以前那么山寨了,感谢 @idict 的指导,帮我做了一个 css模版,$ g2 l# }: `+ M+ l2 S
我再其基础上又拆分补充了一些样式,效果见下面截图:
5 w% u4 E$ i& Q! o8 F: B9 z
  q6 B4 L6 o. \- q- }+ }' |( |4 sperceive:
! U+ N; N4 t: j5 T) n4 ~5 A, o" u9 L& G9 X( n1 e
% c! Q3 R/ Z$ ?6 }+ `
gosh:+ H2 n3 V' D0 r, y8 |+ W9 Y" y
5 @( s4 a7 D3 [1 o
# y7 V2 s7 f5 G/ H
ornate:0 i, T: S6 `1 {
5 j' r+ W, C& Z; H3 y
8 D' `6 G, i3 ~" u2 w
Yoga Pants:, T+ Q. U6 o' D3 c0 K
6 t, i9 ~+ z' A
- p! j) j, E- B2 B+ K
a cup of tea:
. U* b! g& d  ]- ?! `% N) h. f! e* M5 Z$ p

5 u' {* w; s6 G% Q" _1 B追求视觉效果的同学们,如今 CSS 版本和其他排版好的词典放在一起,不会那么丑了吧?7 L* h! c( r" g# |7 ]

  g4 |8 g; P7 \$ `6 d-------------------5 g8 W" I' l: z
后续更新说明
; g: ~, N& [8 A& p* t1 I- v$ f$ f6 F7 M
连续五周的大规模修订告一段落,后面将会定期更新收录新词,主要词汇都已经收录了,暂时会着重查缺补漏与错误修订。
( l( Z7 Y# `9 K2 V0 X5 A) q: O  C7 r4 W
希望如今的版本能极大的减少大家之前搜不到单词又不得不开网页,在不同词典网站查来查去浪费时间的问题。8 k2 M/ j7 p3 T- K' [$ P$ K
对各种大部头的词典能形成一个有利的补充,我就达到目的了。3 h( {9 \6 C3 r, z) s

0 Y6 f- }& ?; ^2 k2 e/ z喜欢本词典的话求大家给评个分。4 m. w/ S2 H2 i" A# Y6 F

5 g1 t4 T9 U  u; q7 H) F/ i' ~7 v和在线词典彻底死磕到底,欢迎给补充新词,旧词勘误,可以用:, y3 @5 o# R9 M" [; X
5 p5 y( j6 L" @5 D$ ^+ B* h
单词1 [制表符] 释义1
( H: i5 B( i4 h" B3 T- q5 k单词2 [制表符] 释义2, d8 {$ N. c' C. R

, v1 {! v; J1 X# ^( ^3 s. D* t的格式发给我。. Y- A( p; ?+ t, V
. ^9 I1 e' |  t: O, e8 y) o" L

1 D& t5 W7 `; J. p/ K

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

评分

55

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2017-5-27 05:06:16 | 显示全部楼层

1 {7 g. D, Q2 N补充css显示效果的一点点经验.* p9 G$ {  X$ W5 ?5 {; f: Y
# f2 x8 c; f3 k# r0 M$ ~* ^
使用<div>好像要比<span>好点, 如果的确不用换行, 可以固定使用<span>, 否则之后要换行, 那么断行点的设置有点搞不懂了. 好像只有block, inline-block, 不够用.. n" s* t" c( f
如果<div>不想换行, 使用{display:inline;}效果与<span>一样.
& O/ Z$ K. f+ `, U. G& N0 a如果不想显示内容, 使用{display:none;}4 {1 d# N! a7 }: j5 b" N, t/ \
' U" E6 y" B( k! o2 h: W
所以, 如果不想显示单词, 音标, 假设以ecdict.css内容.
& h2 F; `0 X1 j( w/ u! ?在hwd, hrz, ipa的属性加上display:none;+ F" {$ G6 H: K0 e
如下:8 m9 j  Q8 [, e7 e- p; _* r7 A
  1. .hwd{font-size:120%;font-weight:bold;color:Crimson;display:none;}
    & N. Q* X6 K% H4 z  t& m: G& l
  2. .hrz{height:1px;border-top:1px dotted Crimson;display:none;}+ e. d* S" n" M. v: B( r! q
  3. .ipa{color:Sienna;display:none;}
复制代码
4 S+ f( L9 r) }0 y8 d; J

' y: v$ G" i* Z( b$ C6 u# f效果:! S; A$ {/ a0 n0 u9 [! S: B6 S
2 Z" u, x4 x3 e- T4 g0 \+ U
2 _- a: g/ _9 d! P* |$ X
这样, 可能可以减少工作量, 不用再生成另一个去音标的版本. 可以在css里显示效果. 当然文本大小没有减少.$ _8 B1 D# O* s" x" Q' M: X: U
  A, D1 K! D/ x+ G4 a
( \1 o, N  O; X6 V5 T
如想更加节省行数显示, 可将释文或时态内容并为一行显示.
- e+ I* R4 p; p. `/ r因为css添加了块, 组, 区. 这些都是使用<div>标签嵌套, 所以只要最外<div>不改属性, 就可以确定会分行显示, 其他内里的<div>加{display:inline;}, 就可以并为一行显示.
) j4 @. T% a/ \6 m+ E如下:% Q- I8 i3 Q& s+ r
  1. .dcb{display:inline;}) k$ \, O& l0 p0 v
  2. .fmb{display:inline;}6 ]1 d6 K1 s1 c: ?
  3. .orb{display:inline;}
复制代码

& J( S, s: a& {8 w) I$ i0 k5 b/ @# k& U* _- u
效果:
4 x" Z% J+ L( x4 i) V0 Q$ w% p6 b5 N4 {+ H, z
& _( l5 l: B& t  ^. F
再增加{margin-left:5px;}就可以区间开来. 一并对齐所有列.
7 Z" G( u' O! O' ~) ]/ U如下:
& }$ A# E8 Z( ]. T0 h
  1. .dcb{display:inline;margin-left:5px;}
    8 t8 V4 Q( B) F7 y: h" q# u" d  s
  2. .fmb{display:inline;margin-left:5px;}
    . N6 A, V+ q! @8 Y9 [4 x! i3 N
  3. .orb{display:inline;margin-left:5px;}$ C: j1 M, ^. {
  4. .frq{font-family:Microsoft Yahei;font-size:90%;color:Purple;margin-top:5px;margin-left:5px;}
复制代码
1 [: \8 M& V4 n( {3 m& W
9 o! _: a; C, _
效果:
# {- e' h" W, ~" s; h. F) A
& A5 ~  W% L$ i5 b+ s1 e3 p$ B+ K# J/ L* u8 g9 P: q4 ?
目前就会这么多. 贻笑大方.
0 q; a& e- F5 h5 |再次多谢大神的制作. 谢谢.- u. o2 ^' ^- O* @) r8 V& }

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

点评

多谢你的模版,我稍微修改了一下,CSS版本已经发布  发表于 2017-6-5 04:30
多谢,我周末照着弄一下。  发表于 2017-5-27 23:22

评分

1

查看全部评分

该用户从未签到

 楼主| 发表于 2017-6-5 04:13:25 | 显示全部楼层
本帖最后由 skywind3000 于 2017-6-5 04:35 编辑
+ C5 _& I: B+ T; Z* J/ d# C. f$ \  T- W* Q" `% D( J# m. D, P
更新:增加CSS版本
# }  n4 U, y3 U2 u' _3 M" u( z( V* O7 t7 [! Y! V, P

评分

1

查看全部评分

该用户从未签到

发表于 2017-5-26 13:23:42 | 显示全部楼层
本帖最后由 idict 于 2017-5-30 12:48 编辑
2 Q3 c( @4 B& ~/ O( L  B8 O" z- U
谢谢大神拨冗回复和指教, 谢谢.
+ F* y) `. y7 x6 m1 m8 T3 D' w# \! D7 n  T+ y0 t$ }' B
之前exchange里的标志, 全部处理成到时态里去了, 并且将f, b, z当作s, r, t, 如果重复就删除. 也是全部显示的. 现在系按照大神的指示处理的.
2 H- G# l; N( g, n, T(在下之愚见, 如果可以, 希望是全部显示. 反正资料已经有了, 反正文件大小的差别不会太大.
* G5 e- Q; z0 G4 a& H如above-face, 也一并显示复数. 有时候复数与第三人称单数是不同的, 如man. 以上不作考参.)& O( E; E& K% x

- \9 z* m( f: y- T* T0 w
  N5 ^( _- k/ h* j' y+ D- _$ z5 D

+ e( J7 a  ]+ p) F, c9 Y) _4 y% a0 ^2 ~* h
: O3 Z" c" @7 s0 l" a

$ u. ?; ^+ v% O抱歉理解有误, 将时态和原型并在一行了.
; p0 e3 m# C, k" |现在已经分行显示.) h* p+ `' r1 n0 n1 W
在下拙见, 还是按资料分块, 合块分组, 合组分区. 虽然标签会增加, 但css里容易排版显示效果. 相对简单(因为在下头脑不灵光, 高深的css不会啊, 只能简单化处理).
* J  k( p& [+ }" n虽然文件大小会增加, 在MDict PC 1.3, 简直就是即点即现. 即使是340万条记录. 文件大至116MB. 加载速度也是飞快.) x# O8 g6 @/ U* H1 k
  1. 2 Q  h  k( ]- E' Y) z' z9 u
  2.    <div class="gfm">1 n+ }6 S* Q" i9 w% y# }2 z
  3.     <div class="fmb">" m( _0 p; w' Y$ C8 `# |5 ]
  4.      <span class="fnm">" B# J# u1 `% z- j: [6 W
  5.       时态:) j) `0 T$ ^$ ]  ]0 X3 |
  6.      </span>
    9 I2 u6 t3 \( @# m3 L$ J/ l
  7.      <span class="frm" title="复数: saws, 第三人称单数: saws, 过去式: sawed, 过去分词: sawn, 现在分词: sawing">
    $ y9 d6 |$ Z6 d) }' W
  8.       saws, saws, sawed, sawn, sawing
    7 c7 H+ D! L& c0 @/ m. p
  9.      </span>7 F/ D1 C1 e0 ?9 I# `9 V
  10.     </div>
    2 w* t# U, Q7 P
  11.     <div class="orb">
    : \# m5 k& Z6 {, I0 i
  12.      <span class="onm">
    * h; |* o  E) r% {  @2 L1 b/ m. z4 ~
  13.       原型:. o  v" [0 x; P3 w% `8 O* w
  14.      </span>9 |- K0 k% r0 C6 G4 t3 y1 a
  15.      <span class="for">
    7 G' m% Q) J$ F
  16.       saw是see的过去式" Z: q. s- O7 R$ r  `+ `( [
  17.      </span>
    ) N; O1 C) S4 D9 W( O
  18.     </div>6 J& G8 t( b6 @* d, @& x
  19.    </div>
    1 J- ?4 M( {6 B- G  S
复制代码
/ p, \; s, H5 a7 w  d1 }3 o  g
* Q: J: g& H' M. l' {- H$ J: y

8 S4 j0 }: q. a& c/ M9 m) s再次多谢大神的制作和分享. 谢谢.2 o/ A7 u0 k! T5 s8 b: T7 U" v% v1 h+ ~

* b7 s% \6 t" V$ D

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

该用户从未签到

 楼主| 发表于 2017-4-13 22:09:23 | 显示全部楼层
ghgh 发表于 2017-4-13 21:010 F* s5 m$ S, n
感谢添加单词!已评分支持。" B. ^# k3 A# M3 ^9 k) C0 u& Q" V) R
您可否把wiktionary2016(匿名原创,总词条:664, 419)中所有的谚语再对应 ...
/ A0 Q7 E  j. T/ s- v
可以,我后面弄,我现在在扫描COCA 40万和OED的50万索引,大概还有10多万单词要添加。& I& ~/ U/ x7 T0 q
然后我要弄短语,之前一直没有弄短语,对比了其他字典,欠缺差不多60万的短语,; \3 A4 t, U7 W, w* E2 K
弄完这两件事情我就来收录你要的成语。

点评

honey catches more flies than vinegar还是可以在必应词典网页版扫,必应词典的网络释义按网页数多少排序,使用频率越高的英汉翻译越靠前,添加这个短语意义重大!: )  发表于 2017-4-14 16:59
看了下bing对honey catches more flies than vinegar的解释,好几个意思让人摸不着头脑。怎么保证这些词的释义正确很难保证。如果不确定,留英文解释也比不确定的中文强  发表于 2017-4-14 14:27

评分

2

查看全部评分

该用户从未签到

 楼主| 发表于 2017-3-28 00:32:16 | 显示全部楼层
本帖最后由 skywind3000 于 2017-3-28 00:38 编辑 , h" `/ _* ]( m7 ]
kyletruman 发表于 2017-3-28 00:14
: \) k$ _" N' E: X希望大家积极评分表示感谢。楼主分享的词典应该是收录了不少新词,**** 本内容被作者隐藏 ****还跟楼主的差 ...

5 B# T0 d7 j. _7 Y
; y) o% A* R4 t/ m耗时很久,参考包括并不限于:
9 ~& i: d) b- v+ _+ j  [
+ M* B4 a/ }3 y3 N9 a! R4 f各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm 等; l& s- M! b! B1 M, c7 x
考试大纲        网上各种带释义的考试大纲词表3 {) `2 p/ }& Y& k0 Y# l, _, R
NodeBox        自然语言工具包,带 11487个动词,4600个副词,2万个形容词及 11万个名词的资料
8 ^7 k: s8 I# s0 pWordNet        普林斯顿自然语言处理资料库和工具包$ r2 P! v# O9 k/ j, b  `
Wiktionary        多种语言的释义维基百科资料,由各国用户贡献的各类词条
+ }2 e7 {, i2 O& ]4 i7 V+ W! SWikepedia        维基百科收录了大量词条解释3 i$ `& @5 ]- X2 |% w
CEDIT        中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义* d6 K/ B) P% ?  ~
TheFreeDictionary.com        多语言开放词典
( z; z3 n7 x; ]! z2 y" zGoogle        Google Cloud Translation
+ U' T& V( T/ S3 @0 A& nfoldoc.org        Free Online Dictionary Of Computing! k( M7 e4 E) m1 E0 F! Q
linguee.com        数亿词条解释$ ?; h9 C  Z5 F. X7 n& c
Babylon        各类词条数据来源聚合
8 T: c  x( ]- n* I& D( HUrban Dictionary        俚语俗语释义
+ [# u% _9 V/ n, {0 Z' m& x, `Plain Text English Dictionary2 J7 t# i/ p5 i! @6 G$ R; v/ I3 v5 x, z6 m& ?

评分

1

查看全部评分

该用户从未签到

 楼主| 发表于 2017-10-27 16:51:00 | 显示全部楼层
更新:解决欧陆版 estate 无法查到的问题,! O. p# _/ @# _6 A- d: d& j
欧陆客服反馈:这个问题主要是因为你的扩充词库里面包含了一个特殊的单词"Estārm"        ,所以导致检索失败。我们这边会改进下,下个版本可以解决。
# z; f7 ^' k3 x4 D, V8 W
) W: P% |6 _, i9 t结果等了好几个月,欧陆还是没有修正,所以我再欧陆版本里删除了所有西欧字符,主要是些地名,绕过了该bug,
" X' S6 T. s  b7 Testate 等词可以正常再欧陆里查询到,同时对欧陆词典源文件进行了排序,经过排序后,输出的词典大小有所减少(其实这部应该欧陆的词典生成程序来做的)。  P" t" \$ c+ T1 a

: \* `7 }8 r8 x" `4 R% ?**地址还是原来的百度云地址。

该用户从未签到

 楼主| 发表于 2017-6-4 02:11:14 | 显示全部楼层
本帖最后由 skywind3000 于 2017-6-4 09:42 编辑 ' b8 _, I3 \5 U3 C% K6 z
idict 发表于 2017-5-30 13:07
# O. x+ y3 |4 S8 ~9 x由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.( W6 X, q# n& ^2 U
偶然得到一些情况如下.
! R$ S8 b; N0 ?0 q' l. f: u. tlog01是没 ...
2 K  [9 H1 g! S, t" O) i

, H6 g2 E+ D, N7 e8 E( ~. z已经修正,那些只有个句号的,可能是导入某些专业词典时错误,2000多个这些词汇里面,找得到中文释义的500多个,找得到英文释义的600多个,其他的没有仍和定义,所以修正了部分。) f( P( o! T3 `6 E( a; P
青山道那个也改了。
3 e9 p( r- D5 Q# Z7 F; k
5 g* ]; q3 X4 i( ~其次,网友反馈 in measure 这个词有两个,因为词典数据库本身限制了重复,所以不可能出现两个一样的单词,我检查了一下,发现3 E1 P: c4 G: a
一个是中间有一个空格的,一个是中间有连续两个空格的。于是检查了包含连续两个空格以上的单词,找到 5000个,所以刚好花时间
. E% S, ^* X8 C6 I2 u处理了一下,版本还是原用 26 号,现在不会出现 in measure 这种情况了,于是我将所有单词的所有连续空格都归并成1个。- ^" r/ Y& S5 D

2 G: c( [2 v/ U. ?

该用户从未签到

发表于 2017-5-30 13:07:59 | 显示全部楼层
本帖最后由 idict 于 2017-6-19 00:07 编辑
7 @( V: S% A% H: T
; j8 U- {0 x' k0 T" A2 D6 P/ x由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.
& Z" M. b$ W' i1 x
! x4 O3 O1 T3 H2 `0 f2 x( v另外, 词性的简写, 少了一个: interj.
5 B1 K; |/ ^8 {5 {比如what
8 r0 A3 B# c; r. a8 |$ W9 p* |# t2 X- X% D( f0 R) l0 W8 P
词条: /青山道Castle Peak Road0 [. N- f( `. E. u7 Z8 U0 G9 c& J
是否需要更正?
% H0 a# d- B0 u( c/ [& ^' N3 x- u2 O' r
6 H7 R! f0 ?# c6 ^" f" j
( q0 y! R+ u2 V2 @  |
再次多谢大神的分享. 正如大神所说, 全网收词量最多!!!
" Z$ R* t' C4 q4 @5 k  `1 e谢谢!
; r8 g% H* q# L& {) e: [8 n

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

点评

或者你帮提个 PR ?  发表于 2017-5-31 11:08
多谢校对  发表于 2017-5-31 11:07
这些应该是 wiktionary 里面的一些生僻词,最近太忙,有空再更新,好在数量就几千,先当这些词不存在吧。  发表于 2017-5-31 11:07

该用户从未签到

 楼主| 发表于 2017-5-4 00:03:10 | 显示全部楼层
更新近期最后一个版本,自己顶一下

该用户从未签到

 楼主| 发表于 2017-5-2 21:56:11 | 显示全部楼层
更新,自己顶一下
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2017-3-27 23:48:31 来自手机 | 显示全部楼层
    哇塞,发现新词典了,多谢楼主。我先下载的看看
  • TA的每日心情
    奋斗
    前天 09:14
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2017-3-28 00:03:32 来自手机 | 显示全部楼层
    谢谢skywind3000分享!
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2017-3-28 00:05:57 | 显示全部楼层
    试着查了下taliban这个词,我的词典库里有10本能查到,不过楼主的确实简单暴力,尤其这个词属于哪些考试的词汇范畴比较给力!
  • TA的每日心情
    无聊
    2018-5-11 08:33
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2017-3-28 00:06:47 | 显示全部楼层
    看简介好像比较有特色,试试看
  • TA的每日心情

    2022-3-25 16:19
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2017-3-28 00:09:26 来自手机 | 显示全部楼层
    这是楼主自己编的词典吗
  • TA的每日心情
    开心
    2021-7-10 04:32
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2017-3-28 01:08:12 | 显示全部楼层
    skywind3000 发表于 2017-3-28 00:32
      e' I! X/ B" A0 j/ ~  \! t耗时很久,参考包括并不限于:
    ; o8 R, ^/ L* @# b% y% }5 E5 x) C' z! t6 c3 b4 ~3 k0 m
    各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0 ...
      x% B5 X7 `+ z( N& x7 O
    楼主有没有办法单独做一个css来控制排版呢?
    * [7 ~2 A. A; {% h0 X4 \(把排版的颜色、字体大小等其他可以用css来控制的加入HTML会让HTML的体积暴涨)
  • TA的每日心情
    开心
    2022-2-13 10:20
  • 签到天数: 622 天

    [LV.9]以坛为家II

    发表于 2017-3-28 04:36:53 | 显示全部楼层
    牛!顶!很实用!
  • TA的每日心情
    开心
    2020-8-31 05:39
  • 签到天数: 550 天

    [LV.9]以坛为家II

    发表于 2017-3-28 05:48:59 | 显示全部楼层
    极其优秀!极其厚道!辛苦了!谢谢你!

    点评

    70A
    同感!  发表于 2017-3-28 06:42
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2017-3-28 05:55:06 来自手机 | 显示全部楼层
    多谢多谢,查得率才是硬道理!
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1073 天

    [LV.10]以坛为家III

    发表于 2017-3-28 06:22:50 | 显示全部楼层
    本帖最后由 70A 于 2017-3-28 06:30 编辑
    8 w6 U3 e/ u1 x; x" B- K# }! L3 }0 l  o# M
    用来查词义,简明、实用、收词多,太棒了!$ }* G  B( ]: c! K3 t' l% u

    ; [5 e2 @3 n4 u: `: D) m
  • TA的每日心情
    开心
    2022-11-5 05:55
  • 签到天数: 1664 天

    [LV.Master]伴坛终老

    发表于 2017-3-28 06:34:12 | 显示全部楼层
    楼主具有强大的考证精神,这本词典具有非常好的实用性!如果能有CSS文件的话就完美了!

    点评

    CSS版本已经更新  发表于 2017-6-5 15:36
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2017-3-28 06:56:52 来自手机 | 显示全部楼层
    查不到selfie哈。
  • TA的每日心情
    开心
    2018-8-15 07:35
  • 签到天数: 22 天

    [LV.4]偶尔看看III

    发表于 2017-3-28 07:45:08 | 显示全部楼层
    太震撼了! 非常感谢楼主无私的分享。
  • TA的每日心情

    2019-11-30 13:43
  • 签到天数: 276 天

    [LV.8]以坛为家I

    发表于 2017-3-28 08:41:53 | 显示全部楼层
    看来是时候把21世纪换掉了,整合标注了这么多的词频信息,堪称词频标注的精品
    3 [5 {2 _, ~# s2 u3 }3 e+ Y
  • TA的每日心情
    开心
    2018-9-3 12:49
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2017-3-28 08:51:34 | 显示全部楼层
    震惊了,感谢楼主,这个查词率真是可以了。
  • TA的每日心情
    开心
    2020-5-14 18:49
  • 签到天数: 81 天

    [LV.6]常住居民II

    发表于 2017-3-28 09:09:15 | 显示全部楼层
    楼主的词典收词确实很全,不过用以比较的词典是朗道和简明英汉这样的词典,这论坛里使用这两个词典的貌似不会多。
  • TA的每日心情
    慵懒
    2022-11-7 17:35
  • 签到天数: 535 天

    [LV.9]以坛为家II

    发表于 2017-3-28 09:14:14 | 显示全部楼层
    收词量惊人啊,谢谢楼主
  • TA的每日心情
    开心
    2021-1-14 13:16
  • 签到天数: 141 天

    [LV.7]常住居民III

    发表于 2017-3-28 09:14:53 | 显示全部楼层
    看起来很厉害,支持一下
  • TA的每日心情
    开心
    2019-8-8 16:36
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2017-3-28 09:22:36 | 显示全部楼层
    这个是精品,感谢楼主
  • TA的每日心情
    奋斗
    前天 09:27
  • 签到天数: 867 天

    [LV.10]以坛为家III

    发表于 2017-3-28 09:40:36 | 显示全部楼层
    谢谢楼主制作分享。

    该用户从未签到

     楼主| 发表于 2017-3-28 10:56:52 | 显示全部楼层
    kyletruman 发表于 2017-3-28 01:08
    & _; z3 B. r% z楼主有没有办法单独做一个css来控制排版呢?
    ) e& B. S9 N' x8 A2 @7 D* O(把排版的颜色、字体大小等其他可以用css来控制的加入HTML ...
    0 D; n* B" `1 ]) F) R
    不会弄css啊,只会点简单 HTML。等我研究一下。

    点评

    尼玛,10年老程序员也有不会的?建议六级考研gre标注做成 http://www.pdawiki.com/forum/thread-19932-1-1.html 他这种样式  发表于 2017-4-17 10:28

    该用户从未签到

    发表于 2017-3-28 12:17:13 | 显示全部楼层
    数大便是美啊!感谢楼主慷慨!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2022-11-27 07:00 , Processed in 0.113343 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表