mdb xls mdx dict词库格式相互转换

lixun305 · 发表于 2014-1-8 18:21:47

本帖最后由 lixun305 于 2014-1-9 19:25 编辑

http://pan.baidu.com/share/home?uk=2718706185#category/type=0  这是连接地址，只是抛砖引玉.
mdb词库：
1. 现代汉英综合大辞典
2. 21世纪大英汉词典_微调版本
3. 牛津英汉简明词典修正版
4. 朗文当代英语词典5版
5. 诗词总汇
6. 牛津英汉词典
7. 牛津高阶学习词典英汉双解第7版OALD7

分析有偏颇，不当之处，请谅解。

mdx词典日渐丰富，仔细看来，下面列举的都是相通的：
1. chm (hlp) 文件  可以查找，复制，有索引。查找索引或内容或。。。
2. 网上百科例如百度，维基，内容海量，查找甚爽。
3. dict(startdict)这个研究不深入，仅可以读取它的内容，相比查找方式和mdx差不多。
4. 有些软件生成的exe文件，也有内嵌的查找功能。也包括大型的词典软件（例如牛津出的光盘版），一般小民也无福，无M消受啊。
5. pdf 文件，可有索引，查找索引或内容。
6. xls文件  Excel格式，可以直接打开看，当然查找再方便不过了，不过，记录数不成超过65536(现代英汉综合大辞典，21大英汉辞典，牛津英汉简明词典。。。被pass了)。单个条目不能超过32767个字符。这些限制可能excel2007以上都已解决，但我是一直windowsxp + office2003的ghost系统，谁想再重装一次恶心人的office2007呢。  唉，这个格式限制甚是恶心啊。
7. mdb文件这个是微软access的主打格式，小型数据库文件，但接口方便灵活，规模较小（甚至绿色版都可以）。对记录总数和单条的限制几乎没有，对一般p民来说足够用了。
网上许多软件其实就是mdb的外壳，查找，编辑等一体，当然，为了保护知识产权，加了密的居多（但可以破解2003, 2007格式，其它未知，:p)。

8. mdx  mdx的词典丰富，内容紧凑，尺寸小，查询快速（只是快速，但这确实很重要），可联合查找，手机pc都可以用。。。优点不一而足, 我就不细说了，只说其缺点，这里绝无贬低之意，只为探讨，学术性的，:p...
(1) 只能对索引进行查找，因此基本上就是索引，内容两部分内容，更多的信息只能存于内容中，靠html的格式进行格式的编排。
(2) 对索引的查找无法精细化，例如：
大小写敏感  dog DOG, CALD cald，在很多时候还是有区别的.
查找个数无法限制，有时真的不需要找到很多，一个足以，或者三五个就行，可是出来一堆很头大。
没有匹配方式  例如：  这些匹配方式有时真的很有用，特别是有几十万个词条的时候，出来成百上千个查找结果，情何以堪。
精确匹配  dog  dog, dogmatic，dog's head, 只dog可以
单词匹配  fat  fat, fat salary, fat job均可
模糊匹配  fat  fate, stepfather 均可
从头匹配  fat  fate, fat job可以，stepfather不可以。只有从头开始是fat的才可以。
(3) 无法高级查找(多个条件查找）例如：
查找成语：要查 ?三?四组成的成语（不三不四，朝三暮四，丢三落四，低三下四。。。），其实就是含有通配符，需要满足有三四关键词的查找方式。
查找诗词库中李白写到黄鹤楼的诗词：(望黄鹤楼, 与史中郎钦听黄鹤楼上吹笛, 李白见崔颢《黄鹤楼》有感)。  其实就是要求词库中至少有作者，题目（或内容）两个字段，然后查找条件：作者为李白且题目=黄鹤楼(模糊匹配，不从头匹配）。
(4) 无法对多个查找内容综合到一个窗口内并且对查找内容二次查找。
例如诗词库查作者李白，出来984条记录（这是中华诗词总汇中收录的李白诗词）。这么多诗词，包含作者，题目，年代，题材，类别，内容，感想，出处等信息，通过一个简单的分割条放置在一起，导出成txt或者html文件，不就是一本：《李白诗词大全》吗？如果仅仅在pc上查找，出来984条记录也挺头大的，于是二次查找很有必要，例如：就在这个结果中查找出现 “庐山”的诗词，并且逐一定位，很有必要啊。
(5)  无法对词库进行编辑
包括删除，添加，更新，查补（用其它来源的词库文件对现有的进行查漏补缺）。
例如，安装了英汉词典，只有36691个词汇，好多查不到，但又不想用动辄30多万甚至上百万的词汇量，于是只对自己感兴趣的若干词条导入到其中，很有必要。
再例如：看到错误或疑问，是否可以对源词库进行更新：例如孩子问杨万里的宿新市徐公店怎么背，诗词总汇呀，赶紧查，(作者杨万里 and  题目宿新市徐公店)，出来了：篱落疏疏小径深，孩子撅嘴了，不对，我们语文课本上是篱落疏疏一径深，怎么回事，可不能与国家教育部的相悖啊，赶紧上网再查，果然，两个版本都有，没办法了，只好以国家出的为权威了，于是，需要更新这首诗，省得以后孩子再查的时候又错了。但mdx不好办啊。
再比如：诗词，高鼎的村居(草长莺飞二月天)，孩子又忘了，结果，诗词总汇居然没有高先生的诗词，于是添加进去吧。但mdx不好办吧。
(6) 无法做到一些完美的查找。
例如，有了汉语字典库，里面，部首，划数等都有了，做到新华字典的部首查字法不难吧，但mdx就word, content(一堆)两个字段，难呢。但对含有多个字段的词库来说，只要文件在手，编程不愁，部首查字有何难哉。不就是定义一个部首，划数联合查找吗（部首=??? and 划数=?）。
再比如：四角号码查字法，虽然鲜有人用，但是，本人上初中，家里有一本《四角号码新词典》，商务印书馆的，熟记了口诀之后，有时查的还是挺快的，好吧，不说了，为了回忆一下以前，这个汉字库中有一个字段就是汉字的四角号码，有了这个，不就是一个不同字段的查找吗（四角号码=？？)
(7) 无法保存查找结果。
两个方面。一，查找的结果可以导出成txt或htm文件  二，查找条件（关键词，查找范围，匹配方式等）和哪个词库，哪个字段保存下来即可，想看一下历史查找记录，将这些查找条件调出来即可复现，关键是你得能调出来呀。
(8) 无法浏览整个词库
例如，诗词库，就像excel的表格一样，在一个界面下，按照字段，记录的二维表格方式浏览。当然，这种浏览更多是为了方便，直观的编辑词库。如果词库太大，就不说了把，光打开一次就头大。
说道这里，如果词库太大，对他的编辑可以逐条进行。
(9)  待发现，呵呵。。。。。。

以上问题，总有相应的词典软件或者词典库能够解决，但想都做到，并且做的通用性和专用型于一体，还真难啊，但如果有了词库文件，知其格式，不愁编程，这些又有何难哉？
但，也不是所有问题都要靠编程解决的，我觉得，可以通过将各种词库文件进行相互转化（尽量做到无损，无误转换）来达到，因为，可以利用现有的各种软件，找自己趁手的就行。
本贴子就是想达到这样一个目的：实现各个词库之间格式的相互转换。我认为，手里有了mdb格式的词库文件，还愁什么。这个格式，太多的代码，文献资料，接口程序，通用软件可用。而其它的，例如mdx，直到现在，我也读不出来，网上也找不到opensource，唉，词库如此丰富，用人如此之多，难道真像windows一样，也是个不公开格式? 废话不说了。
具体：
1. 实现  mdx  dict  txt  xls 到 mdb格式的转换.
已经实现，陆续会有一些mdb格式的文件传到网盘上。目前只传了一个牛津英汉简明词典修正版.mdb。
2. 利用GetDict得到mdx文件的 startdict格式或者UTF-8或者mdx源文件格式，将其转换成 mdb或者脱了html格式的txt文件。  UTF-8和html格式均可。
已经实现。但目前对一些音标（unicode字符或者金山拼音格式Kingsoft Phonetic Plain字体）和比较复杂 unicode格式的转出文件会有乱码出现。
为了压缩体积，可以剔除转出文件中的html格式（就是一堆<font><br></font>...），因为，如果不剔除，转换成的mdb文件很大。剔除了，音标就乱码了或者只有金山拼音格式。因此，仅仅保留音标的html格式也可以考虑。
3. 利用 GetDict转出的dict格式的词库，实现 dict 到 mdb xls, txt格式的转换。
已经实现。
4. 自定义简洁 txt格式（文本），作为可以打开的词典文件。例如，本人定义如下：
dog
n. 狗，一种动物。
fat
adj. 肥胖的。
.....
就这样，一个词条占据两行。
5. 将mdb xls格式的词库导出成二维文本格式。
例如:
【word】    【explain】    【spell】
   dog 狗 [dCg]
   hotdog 热狗
   ..........

   待续。。。。。

hmh986 · 发表于 2014-1-8 22:22:16

高手，说说方法嘛

lixun305 · 发表于 2014-1-9 19:24:30

hmh986 发表于 2014-1-8 22:22
( I) g4 C& }2 w+ j" |6 ^6 p g高手，说说方法嘛

无他，就是用GetDict转换出来的源文件，用vc编程，写入数据库 mdb 中。当然，其中大量的判断和处理还是很挠头的。毕竟我不了解html脚本，不知道mdx格式，就是看出来的算法。

vbnet · 发表于 2014-6-8 13:49:27

本帖最后由 vbnet 于 2014-6-8 13:54 编辑

期待
日汉词典

tjzzw · 发表于 2014-6-28 19:14:23

楼主见解较高，思考缜密，多谢分享

tjzzw · 发表于 2014-6-28 19:20:06

希望分享楼主以前的程序：Sqlite2mdb
原链接已失效

lixun305 · 发表于 2014-7-3 15:29:13

tjzzw 发表于 2014-6-28 19:20
% M7 ]4 ^& ~( {% b+ T0 \希望分享楼主以前的程序：Sqlite2mdb
0 o. G. Q o+ D0 ?) z原链接已失效

一楼的连接一直有效啊。程序就在 mdx_ from mdb下。

lewpad · 发表于 2014-7-3 16:16:24

呵呵，学习了，等楼主的待续。

jiangws · 发表于 2014-7-5 19:46:20

不错的想法，希望你成功。

vbnet · 发表于 2014-7-7 21:22:30

本帖最后由 vbnet 于 2014-7-8 04:28 编辑

话说我也喜欢mdb格式的词库
配合单词表、真人wav、TTS 、图片
很便利

请问楼主
mdb中重覆词条如何合并比较快?
xls中我用vba做合并，但是太慢，跑一半还会溢位
txt用站上的RegEx Dotext，因正则不熟，所以没效果

偶然出手 · 发表于 2014-7-9 09:51:12

mdx 文件是不是这样的：

  内容上分成索引和内容；
  程序运行是索引读入内存；
  检索时根据索引再打开文件定位到指定位置读取具体内容？

偶然出手 · 发表于 2014-7-9 09:58:29

顺便请教下楼主，我正在写个图片词典软件。但是图片库是开放式的，所以没有办法做成类似mdd的资源文件形式，要不是放在目录下，一个图片一个文件，要么存在例如sqlite数据库里面。不知道哪个方案读取性能更优？

偶然出手 · 发表于 2014-7-9 10:01:33

网上有很多软件都可以直接读取 mdx mdd 文件，他们把文件格式破解了？

fghhfg · 发表于 2014-7-21 14:51:03

本帖最后由 fghhfg 于 2014-7-28 02:21 编辑

mdb? why not sqlite?

cc-cedict .sql:105MB .mdx:6.6MB .txt:57MB

ahd4-asicsfree: (.sql:116MB data:50MB) (.mdx:25MB .mdd:45MB) .txt: 95MB

LDOCE5-asicsfree: (.sql:508MB->.zip70MB data:10KB) (.mdx:80MB .mdd:5KB) .txt: 508MB->.zip70MB

		自动登录	找回密码
密码			免费注册

[讨论] mdb xls mdx dict词库格式相互转换