starmars 发表于 2021-4-26 01:37:06

MdxBuilder 有 bug 无法让第一个词头正常显示?

这是一个基于虚拟词表的粗匹配图片词典100页的小样本。

用MdxBuilder将 新时代英汉大词典前100页.txt 压缩成 新时代英汉大词典前100页.mdx

发现页码导航中第1页在欧路等词典软件中无法打开。 试查 abase,再点击0001页,报告查不到。打开0001页的词头有两个:NewEra_0001_main 或 0001,直接在词典软件中输入这两个词头它们也查不到第1页。但2-100页都可以查到正常打开。MDX中肯定有NewEra_0001_main 或 0001这两个词头,在欧路或GoldenDict中浏览词典词头都可看到但就是打不开。检查源文件 新时代英汉大词典前100页.txt 或 新时代英汉大词典前100页.mdx 的解压文件,发现 NewEra_0001_main 和 0001 两个词头都在里面有的。

什么原因?MdxBuilder 有 BUG?

样本下载:

链接:https://pan.baidu.com/s/1npO7N62Uf443B8hUpu0TUw
提取码:jea1

starmars 发表于 2021-4-29 16:57:48

喬治兄 发表于 2021-4-26 15:24
starmars 兄:
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=43392&page=1#pid2287457



坚决反对洋和尚对粗匹的否认。
天下绝大多数人都不是词典制作狂人,不是为词典而词典,而是为查词为学英语而用词典。
小时候没电子词典的时候纸版词典一样用得好得很。查纸版词典绝大多数时间都花在定位到哪页了,粗匹已经定位到某一页了再从这页里把词的位置找到平均也就5秒,对绝大多数人来说这已经足够了!花十几小时,几十小时,甚至上百小时去做切图的所谓完美版词典对大多数人来说都是不现实的。就算你花九牛二虎之力做出来完美切图词库,但可能你一辈子查这部词典比不切图少花的时间累计起来都远远补偿不了当初做切图版词典多付出的时间。

而我即将推出的工具,用熟了半小时就可以做一部2000页粗匹词库,可谓性价比极高的工具。

我想起不少人,包括我,也有类似的经历:下载整理一大堆资料,最后绝大多数都没看过用过。看资料的时间远远少于下载整理。真是本末倒置!人生苦短,还是把时间花在更有意义上的事,不要事事求完美,能基本满足需求就可以了!

kapan000 发表于 2021-4-26 07:19:30

我还以为就我遇到这个问题。。。。
一直都是第一个词条查不到。。。

cja1994 发表于 2021-4-26 08:34:54

本帖最后由 cja1994 于 2021-4-26 09:11 编辑

这不是bug,你把文档问题设置成utf8-无签名就好了,我在教程帖子里专门说过这个
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=42888&extra=page%3D1%26filter%3Dtypeid%26typeid%3D654%26orderby%3Ddateline

喬治兄 发表于 2021-4-26 11:55:45

本帖最后由 喬治兄 于 2021-4-26 11:56 编辑

starmars 兄,我用 ultraedit 再存一次 utf8 no bom ,打開後沒你說的問題,這辭典規划的很漂亮,只是結構上似乎有點複雜
你這問題,好像只能用 ultraedit 就不會有此問題,什麼原因.....我也不解

喬治兄 发表于 2021-4-26 15:24:39

本帖最后由 喬治兄 于 2021-4-26 16:09 编辑

starmars 兄:
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=43392&page=1#pid2287457

粗略匹配是無奈下的產物,與其都是要花時間去搞,個人淺見是搞這個的適用性會高一些,比較不會受限,不會受限在ABC的排序上,僅能適用於ABC順序的辭典,且AI的判讀應該是會正確許多
且也可定位出字元的座標,相對來說也就是詞頭的座標了,你可參考一下,孤影大神的這帖就能感受到威力之強大

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=43713#lastpost

您的很多想法和觀點很先進,在下深感欽佩,只是希望仁兄在搞之前先把前瞻性評估一下,自然就會有更佳的答案,知道什麼才是值得該花精神和體力的....

粗配的坑也很多例外的狀況....用程序很難搞的完美,且花的精神不會比較少,排序過幾個也能知道,那些坑很多是書本編輯上的失誤....,這塊程序很難處理... ,依您的功力,在下覺得您多花點時間在 opencv 上,投資的報籌應該是會高些....

Bartleby 发表于 2021-4-27 23:28:24

EmEditor打开,另存为,选择UTF-8 without Signature
包好,包好,包好。

starmars 发表于 2021-4-29 17:01:17

谢谢大家回复。这果然是因为没有满足UTF-8 NO BOM的格式。我只能说软件作者不够体贴用户了,为什么不自动检测一下格式?而且为什么不提示有这个要求?够坑人的。。

喬治兄 发表于 2021-4-29 19:26:04

本帖最后由 喬治兄 于 2021-4-29 19:50 编辑

starmars 发表于 2021-4-29 16:57
坚决反对洋和尚对粗匹的否认。
天下绝大多数人都不是词典制作狂人,不是为词典而词典,而是为查词为学英 ...

starmars 兄,
您終於出現了,當你跳下粗配這個坑後會發現,粗配真的是不過如此而以,在過一陣子就會回神,孤影大神那個方法才是解決詞頭的終極殺手,那個一下去馬上就能豬羊變色,比風云變色威力更強的....AI,瞬間就讓豬變成羊,羊變成豬,所有辭典從此摧枯拉朽.....AI.....AI......

starmars 发表于 2021-4-30 00:33:18

鲁迅说“浪费人的时间就是谋财害命”。我不认为任何超过2小时的图片制作工具能成为粗匹半小时就能完成的杀手。无论那个工具最后做出来的东西有多美,只要它需要超过几个小时工作量就得大大减分。可能我一辈子查这个粗匹词典每个词多搜索5秒钟累计起来多花的时间也超不过那个号称杀手工具多花的做词库的时间多。
页: [1]
查看完整版本: MdxBuilder 有 bug 无法让第一个词头正常显示?