bt4baidu 发表于 2015-11-7 15:28:41

mitkyg 发表于 2015-11-7 15:13
我刚截了24副图,对比一下,你用工具可以尝试下

http://pan.baidu.com/s/1pJ5WYzp

辛苦!
这样的图片质量,用工具处理完全没有任何问题
要的就是这个效果{:4_105:}

mitkyg 发表于 2015-11-7 15:54:55

bt4baidu 发表于 2015-11-7 15:28
辛苦!
这样的图片质量,用工具处理完全没有任何问题
要的就是这个效果

more than 3,000 illustrations{:4_111:}

duancj 发表于 2015-11-7 16:29:41

认领音标文字错乱,121-172条

woaini123 发表于 2015-11-7 18:15:26

BT大,图片文本化有585条?我看correct.xls里面只有几条啊

bt4baidu 发表于 2015-11-7 18:22:13

duancj 发表于 2015-11-7 16:29
认领音标文字错乱,121-172条

OK,已标注

bt4baidu 发表于 2015-11-7 18:28:10

mitkyg 发表于 2015-11-7 15:54
more than 3,000 illustrations

这么多{:4_105:}
2200页每页至少一张图?

dictionaryfan 发表于 2015-11-7 18:34:16

认领
   5、图片文本化
126至200
或分配后剩余图片的任意五十页以上


有OCR经验

dhs1001 发表于 2015-11-7 18:47:52

本帖最后由 dhs1001 于 2015-11-7 18:57 编辑

empenguin20 发表于 2015-11-7 04:05
鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
我想问下楼主,音标为何 ...

经过和
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=14587下载的pdf扫描版书对比后
发现文件名为 tbdot*的并不是代表t + b with dot。
而是代表ṭ,应该代表t下面带点。

具体可以参考以下截图:
文档14行如下:


GD中截图如下:


pdf中截图如下:


所以bdot代表的应该是在前面一个字母下加一个点。

我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。

tsiank 发表于 2015-11-7 19:01:51

已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray

css 发表于 2015-11-7 19:31:48

本帖最后由 css 于 2015-11-7 20:08 编辑

建议保留idotmacr作为图片形式存在。 原因如下。
目前有三种可以做到的方案:
1. i̅      //此种方案, 头顶是Overline, 故不可取。
2. ī (见Fuxy526 chiasma条目文本化结果)//此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
3. ī//同上。

另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。

试比较:

bt4baidu 发表于 2015-11-7 22:07:01

dictionaryfan 发表于 2015-11-7 18:34
认领
   5、图片文本化
126至200


都分配完了
等着后面校对的时候再参加{:4_105:}

bt4baidu 发表于 2015-11-7 22:09:08

css 发表于 2015-11-7 19:31
建议保留idotmacr作为图片形式存在。 原因如下。
目前有三种可以做到的方案:
1. i̅      //此种方 ...

这个i是比较头痛,用HTML实体也拼不出来
e倒是拼得挺像了
本人也尽量争取和原书完全一致


https://www.pdawiki.com/forum/data/attachment/forum/201511/07/220900islgzo4skscosh49.png

qazqwe 发表于 2015-11-7 22:48:37

本帖最后由 qazqwe 于 2015-11-7 22:51 编辑

bt4baidu 发表于 2015-11-7 22:09
这个i是比较头痛,用HTML实体也拼不出来
e倒是拼得挺像了
本人也尽量争取和原书完全一致

參考b大你的方式

http://www.fileformat.info/info/unicode/char/0130/index.htm
http://www.fileformat.info/info/unicode/char/304/index.htm

& #304; & #772;

İ̄ 還是可以合出來目前快完工了

qazqwe 发表于 2015-11-7 23:28:11

本帖最后由 qazqwe 于 2015-11-7 23:32 编辑

链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f

編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上

idotmacron İ̄ 使用下面兩個組合
& #304; & #772;

eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
& #x00E9; & #x304;

bt4baidu 发表于 2015-11-8 00:19:40

qazqwe 发表于 2015-11-7 23:28
链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f

編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...

i用& #0456;和& #0304;拼似乎效果更好

empenguin20 发表于 2015-11-8 01:11:22

dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...

多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

empenguin20 发表于 2015-11-8 01:11:34

dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...

多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

empenguin20 发表于 2015-11-8 01:27:46

qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

mitkyg 发表于 2015-11-8 08:57:08

本帖最后由 mitkyg 于 2015-11-8 10:20 编辑

bt4baidu 发表于 2015-11-7 18:28
这么多
2200页每页至少一张图?

{:4_94:}已经截了300张了,原来美图秀秀有批处理功能{:4_105:}

问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?{:4_102:}

zhlpen 发表于 2015-11-8 10:48:03

看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

bt4baidu 发表于 2015-11-8 11:49:18

mitkyg 发表于 2015-11-8 08:57
已经截了300张了,原来美图秀秀有批处理功能

问下这种情况怎么处理呢:同一词 ...

那真是极好的,科学技术是第一生产力

这种情况直接后面加数字呗,_1,_2。。。
如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

bt4baidu 发表于 2015-11-8 11:50:01

zhlpen 发表于 2015-11-8 10:48
看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

等着做正式发布以后的校对吧{:4_104:}

bt4baidu 发表于 2015-11-8 12:32:53

本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑

і̄=& #x0456;& #x0304;

https://www.pdawiki.com/forum/data/attachment/forum/201511/08/123248p0xkbpbjvf8d6wwf.png

houbible 发表于 2015-11-8 13:42:44

本帖最后由 houbible 于 2015-11-8 13:48 编辑

感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

bt4baidu 发表于 2015-11-8 13:56:31

houbible 发表于 2015-11-8 13:42
感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...

这回你来晚啦,没你的份了{:4_105:}
等着后面做校对吧
页: 1 2 [3] 4 5 6 7 8 9 10 11 12
查看完整版本: 【精校人员募集】World Book Dictionary, 2015 勘误专帖