关于制作词典时的词条数量问题
本帖最后由 fedor 于 2014-1-1 21:43 编辑各位好,今天做了个词典,发现有个问题,一直没有搞明白。
词典原始数据在Excel表格中,显示的词条数是1426个,用星际译王词典编辑器制作词库显示词条也是为1426个,在文本编辑器中显示为4278个,也是正常的。但用MdxBuilder制作词库时显示的词条数是1420个,为什么缺少一些词条呢?
你用文本编辑器数一下</>, 这是固定的 Hugh 发表于 2014-1-1 20:51 static/image/common/back.gif
你用文本编辑器数一下, 这是固定的
数过</>的,也是1426个啊
MdxBuilder给出的词条数目不一定准确,我还遇到过实际几万个,但是报数1个的情况。可以用GoldenDict加载那个mdx看看实际的词条数。 Oeasy 发表于 2014-1-1 21:37 static/image/common/back.gif
MdxBuilder给出的词条数目不一定准确,我还遇到过实际几万个,但是报数1个的情况。可以用GoldenDict加载那 ...
谢谢回复,用GoldenDic加载了,显示为也是1420个。我制作过好几十部词典了,词条数目都是没问题的,今天头一次遇到,怎么都搞不明白了。
fedor 发表于 2014-1-1 21:50 static/image/common/back.gif
谢谢回复,用GoldenDic加载了,显示为也是1420个。我制作过好几十部词典了,词条数目都是没问题的,今天头 ...
你用GetDict.exe把1420条的mdx转为mdx源文件txt,看看</>够不够数。
如果从1420条的mdx转出的txt,</>只有1420个了,那就用DoText(https://pdawiki.com/forum/thread-11430-1-1.html)提取这个残mdx源文件的headwords,和最早的1426条的headword list对比下。 本帖最后由 fedor 于 2014-1-1 23:31 编辑
Oeasy 发表于 2014-1-1 21:59 static/image/common/back.gif
你用GetDict.exe把1420条的mdx转为mdx源文件txt,看看够不够数。
如果从1420条的mdx转出的txt,只有 ...
按你给的方法测试了一下,发现问题了。
源文件的词条数是1426个,这个是绝对没有问题的,但是用MdxBuilder转换后生成mdx文件,再用GetDict.exe将这个mdx文件转成txt,词条数目是1420,之后进行比对,少了6个词条。
词条数目确实应该是1426,难道转换器MdxBuilder的问题?为什么转换后会丢失词条呢?
我将两个文件进行对比,找出来其中6个缺失的词条,单独将其删除,按道理来说,剩余的词条应该是1420。用MdxBuilder进行转换mdx,又出来了怪事,显示词条为1414个了,用Goldendict加载也是显示1414个了,又是少了6个词条。到底是怎能回事呢?怎么一转换就丢呢?
单独删除的那6个词条,我单独用MdxBuilder进行转mdx,显示结果6个词条,说明源文件都是正常没问题啊。 呃这个 这个围观一下 fedor 发表于 2014-1-1 22:59 static/image/common/back.gif
按你给的方法测试了一下,发现问题了。
源文件的词条数是1426个,这个是绝对没有问题的,但是用MdxBui ...
丢失的那6个词条也有可能没有真正丢失。把1420条的mdx转为txt,试着全文搜索那6个词条,看看还在不在。
那6个词条有什么特别的吗?是不是位于源txt的起始位置?
方便的话,可以把你的源文件发上来,让大家(主要是Rayman,他有空的话)到事发现场勘察下,这才能解决潜在的问题。 1. 试试不要勾选"Strip keyword"。怀疑是有些条目关键字在去掉特殊符号后长度变成0了。
2. 还有种可能就是有隐藏的回车换行符,导致关键字被判断为空。可以在UltraEdit里先执行一次Unix换行转为DOS换行。然后再检查一下是否存在"</>\r\n\r\n" 本帖最后由 fedor 于 2014-1-2 10:19 编辑
Oeasy 发表于 2014-1-2 07:28 static/image/common/back.gif
丢失的那6个词条也有可能没有真正丢失。把1420条的mdx转为txt,试着全文搜索那6个词条,看看还在不在。 ...
词条是真正的丢失,全文搜索找不到的。
那6个词条没什么特别的,所处位置没有规律。找出这个6个词条并删除后,在转换MDX,还是丢失另外6个词条,而这次丢失的6个原来转换时是没有丢失的。
我又找出我从前制作的词典源文件,词条数是61738,其制作过程、方法与这个是一样的,转换出mdx词条结果显示还是61738,呵呵,就这个小词典出鬼了,搞不定了啊。
已经求助rayman老大了,将txt源文件发给给他了,希望能够抽时间帮助分析一下。 rayman 发表于 2014-1-2 09:20 static/image/common/back.gif
1. 试试不要勾选"Strip keyword"。怀疑是有些条目关键字在去掉特殊符号后长度变成0了。
2. 还有种可能就是 ...
搞不定啊老大,已经源文件txt发送给你了,抽时间帮忙看看怎么回事? fedor 发表于 2014-1-2 10:20 static/image/common/back.gif
搞不定啊老大,已经源文件txt发送给你了,抽时间帮忙看看怎么回事?
非常感谢raeman老大的热心,及时帮助我解决了问题。已经搞定了。
非常感谢!!! 原因是什么呢? ok927 发表于 2014-1-2 16:07 static/image/common/back.gif
原因是什么呢?
老大说的第二个原因
页:
[1]