belleyeah 发表于 2014-5-20 15:55:57

怎么焚书坑儒了!{:11_317:}

bt4baidu 发表于 2014-5-28 22:28:22

本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑

Cdasjkldjas 发表于 2014-5-15 13:43 static/image/common/back.gif
谢谢各位回复,机器已到。

最大支持600。


根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:
链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv


经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页


bt4baidu 发表于 2014-5-28 22:44:42

补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码

spoony1971 发表于 2014-5-28 23:55:14

赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。

bt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。

bt4baidu 发表于 2014-5-29 09:37:04

spoony1971 发表于 2014-5-28 23:55 static/image/common/back.gif
赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...

不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的

我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。

保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工

由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)

人生难免有今日 发表于 2014-5-29 21:19:29

支持楼主。。{:11_337:}开心的扭来扭去。。
我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!

wenlishahsa 发表于 2014-6-1 17:40:02

bt4baidu 发表于 2014-5-29 09:37 static/image/common/back.gif
不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的

我的想法是大家每人领取50页 ...

期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……

bt4baidu 发表于 2014-6-7 00:26:06

本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑

重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
欢迎使用


链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5

大熊部落 发表于 2014-6-7 02:33:36

bt4baidu 发表于 2014-6-7 00:26 static/image/common/back.gif
重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
欢迎使用



你这个工具好!不愧是高手!{:4_105:}

zhplren 发表于 2014-12-24 15:41:44

是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

zhplren 发表于 2014-12-24 15:41:53

是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

happlebao 发表于 2015-7-1 04:20:41

你好。我非常想弄一本英汉大词典的电子版。
但我人在海外。
我买一本邮给你,你传一份电子版给我如何?
邮件:[email protected]
页: 1 2 3 [4]
查看完整版本: 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?