bt4baidu
发表于 2015-11-7 15:28:41
mitkyg 发表于 2015-11-7 15:13
我刚截了24副图,对比一下,你用工具可以尝试下
http://pan.baidu.com/s/1pJ5WYzp
辛苦!
这样的图片质量,用工具处理完全没有任何问题
要的就是这个效果{:4_105:}
mitkyg
发表于 2015-11-7 15:54:55
bt4baidu 发表于 2015-11-7 15:28
辛苦!
这样的图片质量,用工具处理完全没有任何问题
要的就是这个效果
more than 3,000 illustrations{:4_111:}
duancj
发表于 2015-11-7 16:29:41
认领音标文字错乱,121-172条
woaini123
发表于 2015-11-7 18:15:26
BT大,图片文本化有585条?我看correct.xls里面只有几条啊
bt4baidu
发表于 2015-11-7 18:22:13
duancj 发表于 2015-11-7 16:29
认领音标文字错乱,121-172条
OK,已标注
bt4baidu
发表于 2015-11-7 18:28:10
mitkyg 发表于 2015-11-7 15:54
more than 3,000 illustrations
这么多{:4_105:}
2200页每页至少一张图?
dictionaryfan
发表于 2015-11-7 18:34:16
认领
5、图片文本化
126至200
或分配后剩余图片的任意五十页以上
有OCR经验
dhs1001
发表于 2015-11-7 18:47:52
本帖最后由 dhs1001 于 2015-11-7 18:57 编辑
empenguin20 发表于 2015-11-7 04:05
鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
我想问下楼主,音标为何 ...
经过和
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=14587下载的pdf扫描版书对比后
发现文件名为 tbdot*的并不是代表t + b with dot。
而是代表ṭ,应该代表t下面带点。
具体可以参考以下截图:
文档14行如下:
GD中截图如下:
pdf中截图如下:
所以bdot代表的应该是在前面一个字母下加一个点。
我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。
tsiank
发表于 2015-11-7 19:01:51
已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray
css
发表于 2015-11-7 19:31:48
本帖最后由 css 于 2015-11-7 20:08 编辑
建议保留idotmacr作为图片形式存在。 原因如下。
目前有三种可以做到的方案:
1. i̅ //此种方案, 头顶是Overline, 故不可取。
2. ī (见Fuxy526 chiasma条目文本化结果)//此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
3. ī//同上。
另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
试比较:
bt4baidu
发表于 2015-11-7 22:07:01
dictionaryfan 发表于 2015-11-7 18:34
认领
5、图片文本化
126至200
都分配完了
等着后面校对的时候再参加{:4_105:}
bt4baidu
发表于 2015-11-7 22:09:08
css 发表于 2015-11-7 19:31
建议保留idotmacr作为图片形式存在。 原因如下。
目前有三种可以做到的方案:
1. i̅ //此种方 ...
这个i是比较头痛,用HTML实体也拼不出来
e倒是拼得挺像了
本人也尽量争取和原书完全一致
https://www.pdawiki.com/forum/data/attachment/forum/201511/07/220900islgzo4skscosh49.png
qazqwe
发表于 2015-11-7 22:48:37
本帖最后由 qazqwe 于 2015-11-7 22:51 编辑
bt4baidu 发表于 2015-11-7 22:09
这个i是比较头痛,用HTML实体也拼不出来
e倒是拼得挺像了
本人也尽量争取和原书完全一致
參考b大你的方式
http://www.fileformat.info/info/unicode/char/0130/index.htm
http://www.fileformat.info/info/unicode/char/304/index.htm
& #304; & #772;
İ̄ 還是可以合出來目前快完工了
qazqwe
发表于 2015-11-7 23:28:11
本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上
idotmacron İ̄ 使用下面兩個組合
& #304; & #772;
eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
& #x00E9; & #x304;
bt4baidu
发表于 2015-11-8 00:19:40
qazqwe 发表于 2015-11-7 23:28
链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...
i用& #0456;和& #0304;拼似乎效果更好
empenguin20
发表于 2015-11-8 01:11:22
dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...
多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。
empenguin20
发表于 2015-11-8 01:11:34
dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...
多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。
empenguin20
发表于 2015-11-8 01:27:46
qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。
mitkyg
发表于 2015-11-8 08:57:08
本帖最后由 mitkyg 于 2015-11-8 10:20 编辑
bt4baidu 发表于 2015-11-7 18:28
这么多
2200页每页至少一张图?
{:4_94:}已经截了300张了,原来美图秀秀有批处理功能{:4_105:}
问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?{:4_102:}
zhlpen
发表于 2015-11-8 10:48:03
看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
bt4baidu
发表于 2015-11-8 11:49:18
mitkyg 发表于 2015-11-8 08:57
已经截了300张了,原来美图秀秀有批处理功能
问下这种情况怎么处理呢:同一词 ...
那真是极好的,科学技术是第一生产力
这种情况直接后面加数字呗,_1,_2。。。
如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长
bt4baidu
发表于 2015-11-8 11:50:01
zhlpen 发表于 2015-11-8 10:48
看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
等着做正式发布以后的校对吧{:4_104:}
bt4baidu
发表于 2015-11-8 12:32:53
本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑
і̄=& #x0456;& #x0304;
https://www.pdawiki.com/forum/data/attachment/forum/201511/08/123248p0xkbpbjvf8d6wwf.png
houbible
发表于 2015-11-8 13:42:44
本帖最后由 houbible 于 2015-11-8 13:48 编辑
感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!
bt4baidu
发表于 2015-11-8 13:56:31
houbible 发表于 2015-11-8 13:42
感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
这回你来晚啦,没你的份了{:4_105:}
等着后面做校对吧
页:
1
2
[3]
4
5
6
7
8
9
10
11
12