belleyeah
发表于 2014-5-20 15:55:57
怎么焚书坑儒了!{:11_317:}
bt4baidu
发表于 2014-5-28 22:28:22
本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑
Cdasjkldjas 发表于 2014-5-15 13:43 static/image/common/back.gif
谢谢各位回复,机器已到。
最大支持600。
根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:
链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv
经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页
bt4baidu
发表于 2014-5-28 22:44:42
补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码
spoony1971
发表于 2014-5-28 23:55:14
赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。
bt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。
bt4baidu
发表于 2014-5-29 09:37:04
spoony1971 发表于 2014-5-28 23:55 static/image/common/back.gif
赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...
不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。
保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工
由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)
人生难免有今日
发表于 2014-5-29 21:19:29
支持楼主。。{:11_337:}开心的扭来扭去。。
我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!
wenlishahsa
发表于 2014-6-1 17:40:02
bt4baidu 发表于 2014-5-29 09:37 static/image/common/back.gif
不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
我的想法是大家每人领取50页 ...
期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……
bt4baidu
发表于 2014-6-7 00:26:06
本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑
重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
欢迎使用
链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5
大熊部落
发表于 2014-6-7 02:33:36
bt4baidu 发表于 2014-6-7 00:26 static/image/common/back.gif
重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
欢迎使用
你这个工具好!不愧是高手!{:4_105:}
zhplren
发表于 2014-12-24 15:41:44
是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意
zhplren
发表于 2014-12-24 15:41:53
是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意
happlebao
发表于 2015-7-1 04:20:41
你好。我非常想弄一本英汉大词典的电子版。
但我人在海外。
我买一本邮给你,你传一份电子版给我如何?
邮件:
[email protected]