TA的每日心情 | 擦汗 2021-3-8 17:59 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
本帖最后由 lixun305 于 2014-1-9 19:25 编辑
- n' a+ u/ N/ _2 A0 N$ z9 X6 v- Y! F" y* `9 ~/ l
http://pan.baidu.com/share/home?uk=2718706185#category/type=0 这是连接地址,只是抛砖引玉.9 N$ M2 j6 E( D" \ @$ i
mdb词库:: Y1 _$ G7 X3 {% ]* t
1. 现代汉英综合大辞典
; c! A* y' S' v. b: z7 D9 y: ?8 \) L2. 21世纪大英汉词典_微调版本
i2 R3 | t( j. c9 N3. 牛津英汉简明词典修正版
8 ~$ @7 j: c T& t4. 朗文当代英语词典5版
1 |2 R7 k" s; Q7 H5. 诗词总汇
* V2 g% y9 u8 F. y6. 牛津英汉词典
/ d$ u8 A; C- D A1 X7 l7. 牛津高阶学习词典英汉双解第7版OALD7 w( _9 L% y+ @2 e/ M! h* ], B6 f& y
7 P( ?4 P+ B* n# n. x l- H分析有偏颇,不当之处,请谅解。7 G; ~$ x; D/ {5 c% ?
; h: \; f$ A# I3 e9 Lmdx词典日渐丰富,仔细看来,下面列举的都是相通的:
. X5 y, K3 ]# n2 l1. chm (hlp) 文件 可以查找,复制,有索引。查找索引或内容或。。。. Z' t9 ~* Z8 o9 a
2. 网上百科 例如百度,维基,内容海量,查找甚爽。
3 j6 Z/ e+ Z) S/ a% w; ?: ]6 I4 e3. dict(startdict)这个研究不深入,仅可以读取它的内容,相比查找方式和mdx差不多。
T" {$ j' ~) f7 C- k$ F: e4. 有些软件生成的exe文件,也有内嵌的查找功能。 也包括大型的词典软件(例如牛津出的光盘版),一般小民也无福,无M消受啊。
' a) w6 N" j1 a& A9 v" I( c8 {5. pdf 文件,可有索引,查找索引或内容。$ E3 |5 s+ N; G6 l
6. xls文件 Excel格式,可以直接打开看,当然查找再方便不过了,不过,记录数不成超过65536(现代英汉综合大辞典,21大英汉辞典,牛津英汉简明词典。。。被pass了)。 单个条目不能超过32767个字符。这些限制可能excel2007以上都已解决,但我是一直windowsxp + office2003的ghost系统,谁想再重装一次恶心人的office2007呢。 唉,这个格式限制甚是恶心啊。$ ` t6 Z: h6 S. Q0 X, u
7. mdb文件 这个是微软access的主打格式,小型数据库文件,但接口方便灵活,规模较小(甚至绿色版都可以)。对记录总数和单条的限制几乎没有,对一般p民来说足够用了。
# j; b [5 F* u/ T% [' n( S 网上许多软件其实就是mdb的外壳,查找,编辑等一体,当然,为了保护知识产权,加了密的居多(但可以破解2003, 2007格式,其它未知,:p)。' T; K% J2 I, n* j, ]. a2 ^
9 g a1 I u( c8. mdx mdx的词典丰富,内容紧凑,尺寸小,查询快速(只是快速,但这确实很重要),可联合查找,手机pc都可以用。。。优点不一而足, 我就不细说了,只说其缺点,这里绝无贬低之意,只为探讨,学术性的,:p...: o; ]* B t) D* ]+ r; ]8 x9 H
(1) 只能对索引进行查找,因此基本上就是索引,内容两部分内容,更多的信息只能存于内容中,靠html的格式进行格式的编排。
( ^5 n) a/ F) G; x. x. {) }/ x2 S (2) 对索引的查找无法精细化,例如:
( Z- x7 k) @5 H; S; D' }* n 大小写敏感 dog DOG, CALD cald,在很多时候还是有区别的.7 X. c( Q8 P4 y$ L% Y& L
查找个数无法限制,有时真的不需要找到很多,一个足以,或者三五个就行,可是出来一堆很头大。
& M r1 a' A0 O) I( ^/ ] 没有匹配方式 例如: 这些匹配方式有时真的很有用,特别是有几十万个词条的时候,出来成百上千个查找结果,情何以堪。
8 }5 s$ Q' T8 L, e 精确匹配 dog dog, dogmatic,dog's head, 只dog可以
* n, W0 T6 q1 R2 h+ T7 ^6 E 单词匹配 fat fat, fat salary, fat job均可) g4 w9 ~5 {$ j# T/ S
模糊匹配 fat fate, stepfather 均可
' [# E7 s) x+ } 从头匹配 fat fate, fat job可以,stepfather不可以。 只有从头开始是fat的才可以。 s9 w+ |) l1 |9 v, {+ T
(3) 无法高级查找(多个条件查找)例如:
3 k, p; D& L: a: w 查找成语:要查 ?三?四组成的成语(不三不四,朝三暮四,丢三落四,低三下四。。。),其实就是含有通配符,需要满足有 三 四 关键词的查找方式。1 g0 o3 {/ u6 Y: P, y* ?8 O8 U5 w9 |
查找诗词库中李白写到黄鹤楼的诗词:(望黄鹤楼, 与史中郎钦听黄鹤楼上吹笛, 李白见崔颢《黄鹤楼》有感)。 其实就是要求词库中至少有作者,题目(或内容)两个字段,然后查找条件: 作者为李白且 题目=黄鹤楼(模糊匹配,不从头匹配)。
! G' A* M& k+ g7 c6 U0 ?4 K (4) 无法对多个查找内容综合到一个窗口内并且对查找内容二次查找。8 M5 ?. v7 A5 t0 I
例如诗词库查作者李白,出来984条记录(这是中华诗词总汇中收录的李白诗词)。 这么多诗词,包含作者,题目,年代,题材,类别,内容,感想,出处等信息,通过一个简单的分割条放置在一起,导出成txt或者html文件,不就是一本:《李白诗词大全》吗? 如果仅仅在pc上查找,出来984条记录也挺头大的,于是二次查找很有必要,例如:就在这个结果中查找出现 “庐山”的诗词,并且逐一定位,很有必要啊。
, W/ x* ` s; |! F (5) 无法对词库进行编辑/ O1 T$ j- W- B3 v! ~8 ^7 f
包括删除,添加,更新,查补(用其它来源的词库文件对现有的进行查漏补缺)。
9 _% ]8 {3 J* W- h' B 例如,安装了英汉词典,只有36691个词汇,好多查不到,但又不想用动辄30多万甚至上百万的词汇量,于是只对自己感兴趣的若干词条导入到其中,很有必要。
: q3 V7 y7 c; p f* I. a' d. a/ O 再例如:看到错误或疑问,是否可以对源词库进行更新:例如孩子问杨万里的宿新市徐公店怎么背, 诗词总汇呀,赶紧查,(作者 杨万里 and 题目 宿新市徐公店),出来了:篱落疏疏小径深,孩子撅嘴了,不对,我们语文课本上是篱落疏疏一径深,怎么回事,可不能与国家教育部的相悖啊,赶紧上网再查,果然,两个版本都有,没办法了,只好以国家出的为权威了,于是,需要更新这首诗,省得以后孩子再查的时候又错了。 但mdx不好办啊。
- Y8 w# t- V% u, }' c" g 再比如:诗词,高鼎的村居(草长莺飞二月天),孩子又忘了,结果,诗词总汇居然没有高先生的诗词,于是添加进去吧。 但mdx不好办吧。
) {& X# J4 t, p (6) 无法做到一些完美的查找。
7 N0 u/ w, N' l& u 例如,有了汉语字典库, 里面,部首,划数等都有了,做到新华字典的部首查字法不难吧,但mdx就word, content(一堆)两个字段,难呢。但对含有多个字段的词库来说,只要文件在手,编程不愁,部首查字有何难哉。 不就是定义一个部首,划数联合查找吗( 部首=??? and 划数=?)。9 w$ J* S4 w) a) W. Z! n9 l
再比如:四角号码查字法,虽然鲜有人用,但是,本人上初中,家里有一本《四角号码新词典》,商务印书馆的,熟记了口诀之后,有时查的还是挺快的,好吧,不说了,为了回忆一下以前, 这个汉字库中有一个字段就是汉字的四角号码,有了这个,不就是一个不同字段的查找吗( 四角号码=??)3 [3 E5 f/ e) G( D
(7) 无法保存查找结果。
; h" Z, I9 G8 M# v7 g" Y2 \9 o 两个方面。 一,查找的结果可以导出成txt或htm文件 二,查找条件(关键词,查找范围,匹配方式等)和哪个词库,哪个字段保存下来即可,想看一下历史查找记录,将这些查找条件调出来即可复现,关键是你得能调出来呀。
% p' D7 q1 ^0 K' I" R+ t' [; O (8) 无法浏览整个词库
7 d% A3 x, D. o, Z$ [$ h9 V 例如,诗词库,就像excel的表格一样,在一个界面下,按照字段,记录的二维表格方式浏览。当然,这种浏览更多是为了方便,直观的编辑词库。 如果词库太大,就不说了把,光打开一次就头大。
. j1 S* x" Z" b; D. Z 说道这里,如果词库太大,对他的编辑可以逐条进行。/ i3 B4 w7 L& I6 Y. {* |) p7 p
(9) 待发现,呵呵。。。。。。
/ G! d( J( w. i3 Z
- G. q3 |! Y/ L5 g) t& [ 以上问题,总有相应的词典软件或者词典库能够解决,但想都做到,并且做的通用性和专用型于一体,还真难啊,但如果有了词库文件,知其格式,不愁编程,这些又有何难哉?
?; `7 H" j/ T3 z/ v, L3 q 但,也不是所有问题都要靠编程解决的,我觉得,可以通过将各种词库文件进行相互转化(尽量做到无损,无误转换)来达到,因为,可以利用现有的各种软件,找自己趁手的就行。
+ ]% A m! ?# j7 \* R9 L$ a( A3 S 本贴子就是想达到这样一个目的:实现各个词库之间格式的相互转换。 我认为,手里有了mdb格式的词库文件,还愁什么。 这个格式,太多的代码,文献资料,接口程序,通用软件可用。 而其它的,例如mdx,直到现在,我也读不出来,网上也找不到opensource,唉,词库如此丰富,用人如此之多,难道真像windows一样,也是个不公开格式? 废话不说了。: x8 p# q0 K# v
具体:
: |+ g: q% j u, t! d" D$ G 1. 实现 mdx dict txt xls 到 mdb格式的转换.# v: j- r% C) b7 H$ \+ T- X0 l
已经实现,陆续会有一些mdb格式的文件传到网盘上。目前只传了一个 牛津英汉简明词典修正版.mdb。
* d) d6 R- r) _5 o5 J. {2 q 2. 利用GetDict得到mdx文件的 startdict格式或者UTF-8或者mdx源文件格式,将其转换成 mdb或者脱了html格式的txt文件。 UTF-8和html格式均可。' S- ^5 ?- W: t) P' O1 @
已经实现。 但目前对一些音标(unicode字符或者金山拼音格式Kingsoft Phonetic Plain字体) 和比较复杂 unicode格式的转出文件会有乱码出现。& s! A7 A8 D$ _( k
为了压缩体积,可以剔除转出文件中的html格式(就是一堆<font><br></font>...),因为,如果不剔除,转换成的mdb文件很大。 剔除了,音标就乱码了或者只有金山拼音格式。 因此,仅仅保留音标的html格式也可以考虑。
$ ?( c4 N% n9 i& A. o 3. 利用 GetDict转出的dict格式的词库,实现 dict 到 mdb xls, txt格式的转换。 h' O3 U3 Z& ~! s' m- _
已经实现。
( q' l" A+ E" O Z& @$ @+ O$ ` 4. 自定义简洁 txt格式(文本),作为可以打开的词典文件。 例如,本人定义如下:4 F' p6 f$ h/ \5 D$ \' L7 [' V0 g
dog
: L8 |% O! T. e' O9 l: P n. 狗,一种动物。
6 C6 m" @3 ] J; |0 x fat9 W7 `8 F: f1 d6 f& A3 l* A) d
adj. 肥胖的。 S6 N- Z Q! |. v$ l0 ]2 x
.....
9 C2 G; d& Q. l& R 就这样,一个词条占据两行。
9 |8 y6 o# z- A& k8 v! K8 t 5. 将mdb xls格式的词库导出成二维文本格式。5 b7 X9 @8 a% t2 C' t
例如:+ H# G1 a/ Q+ Q2 t: c9 A `7 r5 P- O
【word】 【explain】 【spell】
, o" t8 F/ H, c1 G+ e dog 狗 [dCg]
6 [! u9 P0 X. X7 V. q& {: l hotdog 热狗 4 D1 t, g; g4 V6 `! Z' R' I
..........4 Y& ~9 e6 r1 {8 m' k" Q
, J6 k2 R2 X7 x5 P
待续。。。。。
) O) w9 X* k! I8 }9 Y$ B. [' o
7 b) `1 I1 _4 ~+ _
; J% M/ Q' b# b; Y ( h% c0 v4 R. @7 D6 w
! ?- Y+ ?+ N- U! F# ]" i
' u* A" g% V- M / j, A" @; H9 Q- J( n& w7 ~5 I' U
4 v9 ?1 b. h. z: E* z
& E$ E7 @8 j/ C; D
: d4 ?0 o3 x+ Y# I& r# [ 0 L# Q; U/ b) q w
: A5 u( _1 I3 E6 |: C- }; m
4 g! ^& m% H& t6 y. j& @' E4 Q! r* \( \ |
|