Oeasy 发表于 2017-4-29 10:57:21

[冷知识]扫描版PDF做不了mdx

本帖最后由 Oeasy 于 2017-5-2 09:17 编辑


隔行如隔山。很多新接触词典的朋友,对于一些“业内”、“行内”的常识不是很熟悉,这是可以理解的,我有时间就简单写几句,科普一下。
不是很严谨,欢迎补充。

[冷知识]扫描版PDF做不了mdx
-> [冷知识]扫描版PDF几乎做不了文字mdx

经常有朋友公开发帖或者私下来信,“我有某词典PDF,还是高清的噢,你能帮我做成mdx吗”。
eg. [讨论] 提供OCR的日语国语大辞典第二版PDF,有人愿意做MDX文件吗http://bbs.gxsd.com.cn/forum.php?mod=viewthread&tid=991790

- 首先,你能公开找到的 PDF ,其他人也能找到,说不定你那个 PDF 还是他分享出去的呢。当然班门弄斧、野人献曝的事情,我也经常干的。
- 其次,扫描版的 PDF ,是几乎做不了文字版的 mdx 的。OCR效果差,校对耗费时间太多。
- 再则,要做图片版的话,耗费时间也很多,我自己是不做了。
- 加一句,就算是文字版的 PDF ,做 mdx 也不容易。

[冷知识]mdx 词典不是人工录入或OCR的 https://pdawiki.com/forum/thread-20643-1-1.html

孤影 发表于 2017-4-29 13:33:00

可以做成图片词典一页几分钟(5-X 视难度而定)
新人们如果找人帮忙,就先请看看自己的付出的值不值别人为你进行上百工时的劳动。。

greatszh 发表于 2017-4-29 18:25:10

就事儿说事儿吧,计算机的强项是处理一些简单重复性的工作,如果pdf的格式是图片扫描的,目前的计算机处理起来确实有难度,但如果是基于文本的pdf,应该可以尝试。所谓的字典无非就是序言,正文,词头,解释。利用开源的nltk,完全可以理论上实现这一个过程。基于自然语言的模块很多,例如断句分词啥的都是基本的功能,能解析pdf格式的工具包也有的是,问题是把解析出来的东西转换成mdx可以认可的格式。目前nltk不能接受pdf格式的输入只能接受txt格式的,可以利用nltk扫描没个词头,句子段落啥的。如果该词头随后的一个或者几个句子都出现了该词头的相似词,肯定这个一群相似词所组成的句子是该词头的解释,如果该解释随后生成的nltk能识别的断句中又出现了好几个该词头的句子,肯定是该词头的例句。可能具体的文本类型的格式排版啥的有区别,但仅仅是个大概的思路,折腾计算机总比折腾人工强。

chigre3 发表于 2017-4-29 18:45:27

经常有朋友公开发帖或者私下来信,“我有某词典PDF,还是高清的噢,你能帮我做成mdx吗”。.
--------------------------
针对的就是这个事情。
页: [1]
查看完整版本: [冷知识]扫描版PDF做不了mdx