jazzmood 发表于 2016-9-2 10:16:30

epub格式与全文检索

本帖最后由 jazzmood 于 2016-9-8 10:21 编辑

一句话总结:在使用全文检索软件时,选择以及保留epub格式,是我目前的最佳选择。

1、李笑来的这篇文章让我重新关注全文搜索软件支持的格式。
如何在 MacOS Spotlight 里全文检索 epub 书库
http://mp.weixin.qq.com/s?__biz=MzAxNzI4MTMwMw==&mid=402187523&idx=1&sn=8bbd09c456dc921224863befa85c2d95#rd

以前都是把文档转为txt格式。然后压缩打包。(全文检索方式一般都支持各种压缩格式,这是从本论坛 spoony1971童鞋的帖子里学到的。)

epub的跨平台性比较好。

2、重新关注了一下最新版本的全文搜索软件,基本上都支持epub格式了(比如:FileLoctor, DocFecher,Archivarius 3000,dtSearch。)
grep类的搜索工具没测试,直接批量重命名epub为zip也可以。当然缺点也显而易见,检索时可能会有html,xml语言的标签。应该有什么语句忽略掉这些标签,对我这样的小白可能有点难度。

3、全文检索软件也支持mobi格式。但建立索引时是一个完整的的mobi格式,而epub则索引为n个xhtml/html文件。实际检索时n个小文件要方便快捷得多。
   我个人偏好使用 Archivarius 3000。所以这里所说的,是以Archivarius 3000为例。

4、当收集已然成癖,又有人不停问你,你都看了吗?我不看,我就想全文检索。
全文检索是干嘛使的?举个例子吧。
http://www.stph.com.cn/mybbs/Announce/announce.asp?BoardID=18&ID=157361

5、啰嗦一句,希望我没有误导,全文检索软件支持的格式非常之多。文本pdf,doc, xls,txt等等都支持,具体请查看软件的帮助文件。我想表达的是,我喜欢epub格式。

6、格式转换我用 ePUBee eBook Converter,速度快。

7、http://kindlefere.com/dict,这里收集了很多mobi格式的词典。可以试试转为epub格式,用全文检索方式查询。
比较适合网上没有现成的而又是自己专业需要,并且没有时间精力学习制作mdx词典的同学。
希望这些童鞋能理解,这样的全文检索不可能像mdict一样,直达词条,寻找或者二次/三次检索也是要花时间滴。



Further Reading: Epub格式电子书格式解析
http://blog.csdn.net/oldguncm/article/details/9708323

----------2016-09-08---------
继续补充,为知wiz笔记有导出epub格式的插件。试用了一下,效果很不错。
一直用wiz收集双语语料,比如金融时报,纽约时报啥的。
对wiz的了解又进了一步。

mofunzone 发表于 2016-9-8 20:36:01

感谢楼主分享经验,很受用!

zhu1234 发表于 2016-9-9 14:23:57

N年前,就给Archivarius 3000 发了email,希望支持 mobi,当时官方也回了信,说他们会考虑支持mobi,关注了好长一段时期,更新的版本从未提起支持mobi。不是楼主提起,真不知道Archivarius 3000 支持mobi了。多谢。
页: [1]
查看完整版本: epub格式与全文检索