【讨论】如果要把老神仙的《英汉大词典》弄出来，XML标记怎么约定？

belleyeah · 发表于 2014-5-20 15:55:57

怎么焚书坑儒了！{:11_317:}

bt4baidu · 发表于 2014-5-28 22:28:22

本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑

Cdasjkldjas 发表于 2014-5-15 13:43
+ O; z: W1 ]9 g; U: x+ H谢谢各位回复，机器已到。
- n! U, D7 v3 D" W- p! t3 K. J, [9 M) g/ |
最大支持600。

根据#49楼主给出的扫描结果，写了一个格式化工具，下载地址如下：
链接：http://pan.baidu.com/s/1hqmTwkG 密码：l4rv

经本人实测，只需要改正少量OCR识别错误，仅须不到30分钟即可校对完成1页

bt4baidu · 发表于 2014-5-28 22:44:42

补充一句：OCR识别文本一定要存成UTF-8编码，否则容易出乱码

spoony1971 · 发表于 2014-5-28 23:55:14

赞同犯人说，不如OCR后不加校对直接使用（多列转换成文本可能需编程解决），使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着，真正使用起来的话不久就完善了，而且绝无痛苦可言。

bt4baidu是编程牛人，不知能不能编个转换多列pdf(?)成单列文本的工具，这样的话词典立即就可使用了。

bt4baidu · 发表于 2014-5-29 09:37:04

spoony1971 发表于 2014-5-28 23:55
$ }! X) k/ g1 O/ o赞同犯人说，不如OCR后不加校对直接使用（多列转换成文本可能需编程解决），使用过程中发现错误再加以修正。 ...

不需要多列转换成文本，ABBYY可以保存ocr结果为txt文本，自动就是按词条的

我的想法是大家每人领取50页扫描图片，自己用ABBYY软件ocr，这样的好处是在ABBYY里就可以根据软件提示修改识别错误。

保存为文本后用我的工具格式化，然后校对确认无误后，再通过另外的工具（我可以写一个）整成mdx源文件，完工

由于我手头的ocr结果有限，可能有个别地方格式化工具不能对应，这个可以新开个校对专贴来反馈，我可以随时升级工具（保证向下兼容）

人生难免有今日 · 发表于 2014-5-29 21:19:29

支持楼主。。{:11_337:}开心的扭来扭去。。
我老了，上班的时候没有公网可以用。。。下班事情太多。精神支持！

wenlishahsa · 发表于 2014-6-1 17:40:02

bt4baidu 发表于 2014-5-29 09:37 8 j3 [0 p c" q( {6 G0 Q% o
不需要多列转换成文本，ABBYY可以保存ocr结果为txt文本，自动就是按词条的
6 M- C6 ~! }% l9 _4 E6 x8 {' q% s. Y( _: k) |. R
我的想法是大家每人领取50页 ...

期待楼主搞个MDX源文件整理软件，MDX源文件整理太难了，我制作出来的MDX都是比较丑陋的，没有加粗、没有图表、没有色彩……

bt4baidu · 发表于 2014-6-7 00:26:06

本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑

重写一个格式化工具，30分钟就能干完一页。且几乎不用录入多少文字。
欢迎使用

链接：http://pan.baidu.com/s/1hqrDaPe 密码：qzl5

大熊部落 · 发表于 2014-6-7 02:33:36

bt4baidu 发表于 2014-6-7 00:26
$ l& n) Q! P* I; g- \重写一个格式化工具，30分钟就能干完一页。且几乎不用录入多少文字。" j* G% c. W3 y5 Z5 B# q
欢迎使用

你这个工具好！不愧是高手！

zhplren · 发表于 2014-12-24 15:41:44

是的，出版社的利益没保证，以后大家就没吃点了，建议等到第三版上市后在放出文本化版本，和高清扫描版，虽然说起来盗版可耻，但是电子词典的方便性纸质版是没法比的，这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要，但是还是强烈建议等待第三版上市时候，在放出来吧，到时候第二版虽然还有价值，都是残余价值了，不太多的价值了，出版社不知道会不会介意

zhplren · 发表于 2014-12-24 15:41:53

是的，出版社的利益没保证，以后大家就没吃点了，建议等到第三版上市后在放出文本化版本，和高清扫描版，虽然说起来盗版可耻，但是电子词典的方便性纸质版是没法比的，这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要，但是还是强烈建议等待第三版上市时候，在放出来吧，到时候第二版虽然还有价值，都是残余价值了，不太多的价值了，出版社不知道会不会介意

happlebao · 发表于 2015-7-1 04:20:41

你好。我非常想弄一本英汉大词典的电子版。
但我人在海外。
我买一本邮给你，你传一份电子版给我如何？
邮件：[email protected]

		自动登录	找回密码
密码			免费注册

[讨论] 【讨论】如果要把老神仙的《英汉大词典》弄出来，XML标记怎么约定？

本帖子中包含更多资源

点评

点评