Oeasy 发表于 2014-5-15 14:29:40

Cdasjkldjas 发表于 2014-5-15 13:44 static/image/common/back.gif
原图在此:

链接: http://pan.baidu.com/s/1bnb6GZd 密码: nz9h


{:5_227:}

其它不说,OCR得到文本效果真是不错。希望楼主坚持下去,别人参不参加、有多少人会参加我无法预测,但我肯定是会支持你的。

Cdasjkldjas 发表于 2014-5-15 15:44:30



扫描工作已经开始进行了!

目前已经扫完前50页,这50页正在上传。

我期待校对工作立马跟上。

格式化工作紧随其后。

扫完的时候也是我们得到词典的时候,这是最美的结局。

希望各位前辈待会儿等我上传完前50页之后给出校对和标记标准规则。

这方面我完全没有经验,还请大家多多支持,多多探讨。

如果能给出范例、截图想必是更加有利于讨论的。

spoony1971 发表于 2014-5-15 15:55:51

本帖最后由 spoony1971 于 2014-5-15 16:47 编辑

Markdown 例子,词条: w3m#w3m
w3m is a text-based web browser capable of displaying tables, frames and
inline images.

##Tips
To display white background on transparent images change the following
setting (see README.img):

1.hit 'o' to go to Settings
2.Under 'Display Settings'
3.in 'External command to display image'
4.add '-bg "#FFFFFF"

Retrieved from
"https://wiki.archlinux.org/index.php?title=W3m&oldid=252649"

Category:

-   Web Browser效果见(可配备不同的css):
https://wiki.archlinux.org/index.php/W3m

yisdict 发表于 2014-5-15 15:56:18

效果很不错,支持楼主。

spoony1971 发表于 2014-5-15 16:04:21

本帖最后由 spoony1971 于 2014-5-15 16:14 编辑

spoony1971 发表于 2014-5-15 15:55 static/image/common/back.gif
Markdown 例子,词条: w3m效果见(可配备不同的css):
https://wiki.archlinux.org/index.php/W3m

只应该使用两条:
1。用空行表示分段
2。词条前加'#'

更简洁而且还能保持灵活性(css)应该很难了。像文本缩进,居中等等之类的应该通过css来完成,不需手工输入。

chigre3 发表于 2014-5-15 16:23:40

https://www.pdawiki.com/forum/data/attachment/forum/201405/15/162329mj6jrqrsrc6o8aa3.png

belleyeah 发表于 2014-5-15 16:57:45

ocr的效果惊人,超乎预料。{:11_324:}

Cdasjkldjas 发表于 2014-5-15 18:22:37

扫描结果每次在1楼更新,0001-0050页已经出来了。。

Cdasjkldjas 发表于 2014-5-15 19:25:44

本帖最后由 Cdasjkldjas 于 2014-5-16 16:52 编辑

Github for Windows使用图文教程:

http://www.cr173.com/html/15618_1.html

GitHub for Windows安装失败解决:

http://jingyan.baidu.com/article/fd8044fa924e8f5031137ac6.html

Cdasjkldjas 发表于 2014-5-15 20:56:43

本帖最后由 Cdasjkldjas 于 2014-5-16 23:09 编辑

001-0050:

plop 发表于 2014-5-15 22:50:02

感觉好强大,很清楚。

Cdasjkldjas 发表于 2014-5-15 22:52:25

本帖最后由 Cdasjkldjas 于 2014-5-16 23:11 编辑

0051-0100 上传中:

chigre3 发表于 2014-5-16 05:05:34

本帖最后由 chigre3 于 2014-5-18 20:32 编辑

2014.05.18更新:
ECD2校对参考指南.zip

--------------------------------------------------------
自定义语法高亮显示 (点击下图, 下载查看更清晰)
左边: 原图片    右边: 化妆后
https://www.pdawiki.com/forum/data/attachment/forum/201405/18/203010dl5lnq7veqkk3evc.png

Oeasy 发表于 2014-5-16 11:12:47

chigre3 发表于 2014-5-16 05:05 static/image/common/back.gif
1. 20140515_0_校对录入指南.pdf





{:4_104:}
辛苦了。
我随便一瞟,就发现几个打字错误{:4_93:} ,惭愧惭愧。

第1~20页的校对和格式化就交给我了吧。

meigen 发表于 2014-5-16 18:52:41

chigre3 发表于 2014-5-16 05:05 static/image/common/back.gif
1. 20140515_0_校对录入指南.pdf




原词典中的【】直接使用[ ]
建议【】用 {} 代替,因为原书中用方括号的有很多,大括号几乎没见到(如果有大括号就用全角)
方便以后替换操作

Cdasjkldjas 发表于 2014-5-16 19:12:23

本帖最后由 Cdasjkldjas 于 2014-5-16 23:14 编辑

101-200

Cdasjkldjas 发表于 2014-5-16 19:15:59












chigre3 发表于 2014-5-16 19:36:00

因为【】标签就那么几十个,替换成 [ ] 完全不影响。{}需要换档键输入不好。另外,图片打包压缩再上传吧。

reuse 发表于 2014-5-16 19:44:18

Cdasjkldjas 发表于 2014-5-16 19:15 static/image/common/back.gif


咋回事这是?

meigen 发表于 2014-5-16 20:11:53

边扫描边销毁 不错的想法 lol
我就第101-120好了 预计下个月完成

yisdict 发表于 2014-5-16 20:33:27

我校对和格式化1001~1020页。

Cdasjkldjas 发表于 2014-5-16 21:41:28

本帖最后由 Cdasjkldjas 于 2014-5-16 23:14 编辑

201 - 300

Cdasjkldjas 发表于 2014-5-16 22:37:10

本帖最后由 Cdasjkldjas 于 2014-5-16 23:15 编辑



我会继续扫描,但是在我考虑清楚版权问题之前不会公开。



meigen 发表于 2014-5-17 10:05:40

顺便提一下之前1100-1120这20页(21页)已经完成,后面领任务的不要重复了

Cdasjkldjas 发表于 2014-5-18 14:02:26



经过这几天和各位朋友的探讨,我发现我之前的想法有很多不成熟的地方。

O大的讨论帖:

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12590&fromuid=176107

我的本意是为社区贡献一份高清扫描版,用于制作英汉大词典的电子版。

但是我也反对不购买纸质版(200块钱不到你买不起我不信)就获得高清扫描。

经过和前辈们的交流,我体会到他们既成的工作模式有着非常现实、非常严肃的重要意义。

所以我决定不再公开高清扫描。

如果大家在购买了纸质版之后依然希望获得一份自用的《英汉大词典》电子版的话:

请移步至:

《英汉大词典》(第2版)文本化专贴》

https://pdawiki.com/forum/forum.php?mod=viewthread&tid=12601&fromuid=176107

协调人chigre是此贴楼主:

《【2014.05.04】《红葡汉词典》重新校对 (葡萄牙语) [还在进行中]》

https://pdawiki.com/forum/forum.php?mod=viewthread&tid=12529&fromuid=176107


页: 1 2 [3] 4
查看完整版本: 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?