bt4baidu 发表于 2015-11-7 11:57:19

empenguin20 发表于 2015-11-7 04:05
鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
我想问下楼主,音标为何 ...

所有修改都有记录,可以慢慢来确认,一次就100%正确不太可能

那个带上横杠的 ė还有i、u̇等,实在是找不到啊。。。

用两个HTML实体字符似乎能勉强拼出来 ė̄=& #x0117;& #x0304;

bt4baidu 发表于 2015-11-7 12:00:04

qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

完工以后可以用HTML实体字符拼
比如ė̄ = & #x0117;& #x0304;

参考别人的写法,保持一致就行,后面可以全文替换

bt4baidu 发表于 2015-11-7 12:04:21

dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...

能找到对应字符的尽量用对应的字符,实在找不到的,可以先用类似字符代替,后面再想办法

bt4baidu 发表于 2015-11-7 12:08:08

mitkyg 发表于 2015-11-7 06:51
我又来了

认领 1、符号or插图: 11条,募集1人


如果能找到所有插图就完美了{:4_104:}

只要按词头+.jpg/.png后缀命名,很容易合进去
如果足够清晰,背景为单纯白色,还可以写程序把背景透明化

tsiank 发表于 2015-11-7 12:12:31

bt4baidu 发表于 2015-11-7 11:57
所有修改都有记录,可以慢慢来确认,一次就100%正确不太可能

那个带上横杠的 ė还有i、u̇等 ...

带橫杠的ē,ī, ū都是由两个字符(字母本身和UNICODE编码是\u0304这个字符)来表示的

bt4baidu 发表于 2015-11-7 12:23:38

tsiank 发表于 2015-11-7 12:12
带橫杠的ē,ī, ū都是由两个字符(字母本身和UNICODE编码是\u0304这个字符)来表示的

这种不是,这些都有对应的字符,xls里已经写了
带点+横杠的e,i,u找不到,似乎可以用两个HTML实体拼

mitkyg 发表于 2015-11-7 12:26:18

本帖最后由 mitkyg 于 2015-11-7 12:35 编辑

bt4baidu 发表于 2015-11-7 12:08
如果能找到所有插图就完美了

只要按词头+.jpg/.png后缀命名,很容易合进去



radical sign 书上是这样的,

对比wbd的preview版


把“根号16”也截出来替换下?后面也少了= the cube root of 27 = 3.

再一个fraction

书上是这样的

都截出来替换下?


另,图片得一张张截取,2200多页,也不知道有多少张插图,尽快完工吧{:4_104:}

bsqby 发表于 2015-11-7 12:35:24

贡献两个特殊字母:ǡ ȱ
e的那个找没有。。。

bt4baidu 发表于 2015-11-7 12:46:37

mitkyg 发表于 2015-11-7 12:26
radical sign 书上是这样的,

对比wbd的preview版


书还是PDF?一页一页拍照?那工作量可不小

如果是PDF,ABBYY好像在OCR的时候可以自动抠出来的

css 发表于 2015-11-7 13:13:27

ė̄ ǡ u̇̄ ý̄ ẏ̄ b̆ ȱ b̄ ṇ
暂时先改了这几个。 希望能有用。

fuxy526 发表于 2015-11-7 13:25:21

百度兄还有任务吗,我也想加入

mitkyg 发表于 2015-11-7 13:25:26

bt4baidu 发表于 2015-11-7 12:46
书还是PDF?一页一页拍照?那工作量可不小

如果是PDF,ABBYY好像在OCR的时候可以自动抠出来的

pdf的,试了下,还是人工截取吧{:4_109:} 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定吧,试截几张,看看图片堪用不






bsqby 发表于 2015-11-7 13:32:01

我再领取“链接指向错误”所有2~125,这一项应该还没人领吧

css 发表于 2015-11-7 13:39:07

qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

...ḗ 取代e DOT MACRONḗ 取代e DOT MACRON...

商榷: 如果实在没有可以办法, 宁可留存图片。
...y DOT MACRON 還有類似 ȳ́         ȳ̀ 的寫法# cJ9 t5 U( Q8 H9 g
這要統一做法還是看每個認領的人主觀認定....
商榷: 不存在主观认定的问题, 一切以原书/PDF内容的客观为准。
{:4_105:}

fuxy526 发表于 2015-11-7 13:39:07

我也想领取“链接指向错误”任务或者“图片文本化”剩下的也可以,百度兄可以吗?

bt4baidu 发表于 2015-11-7 13:47:15

mitkyg 发表于 2015-11-7 13:25
pdf的,试了下,还是人工截取吧 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定 ...

质量不错啊,辛苦啦{:4_104:}
既然人工截取,保存的时候记得文件名存为"词头.png",不然就没法一一对应了
慢慢来,不着急

shakahenryqht 发表于 2015-11-7 13:56:34


我来做音标文字错乱61-120,请楼主批准!!!

bt4baidu 发表于 2015-11-7 14:11:40

bsqby 发表于 2015-11-7 13:32
我再领取“链接指向错误”所有2~125,这一项应该还没人领吧

已分配,这个不太好改的

bt4baidu 发表于 2015-11-7 14:12:21

fuxy526 发表于 2015-11-7 13:39
我也想领取“链接指向错误”任务或者“图片文本化”剩下的也可以,百度兄可以吗?

图片文本化剩下的都归你了,具体看XLS

bt4baidu 发表于 2015-11-7 14:12:36

shakahenryqht 发表于 2015-11-7 13:56
我来做音标文字错乱61-120,请楼主批准!!!

OK{:4_105:}

bt4baidu 发表于 2015-11-7 14:31:28

本帖最后由 bt4baidu 于 2015-11-7 14:33 编辑

mitkyg 发表于 2015-11-7 13:25
pdf的,试了下,还是人工截取吧 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定 ...



只要使用美图秀秀增强一下对比度,就可以把背景全部去掉

mitkyg 发表于 2015-11-7 14:46:05

本帖最后由 mitkyg 于 2015-11-7 14:53 编辑

bt4baidu 发表于 2015-11-7 14:31
只要使用美图秀秀增强一下对比度,就可以把背景全部去掉

{:4_104:}好,等图都截完了,我再用美图秀秀处理一下

同时我没有截“星号”,这样显得更美观些{:4_105:}

865052004 发表于 2015-11-7 14:49:46

想报名参加,不过以前没做过词典,不知道会不会给你们拖后腿啊??

bt4baidu 发表于 2015-11-7 14:58:01

mitkyg 发表于 2015-11-7 14:46
好,等图都截完了,我再用美图秀秀处理一下

这个工作也可以用python做的,貌似增强对比度+图片去背景都可以用PIL图像处理自动完成
程序处理不了的再找你{:4_105:}

最关键的是文件名,这个不能和词头对应起来的话就只有手工了

mitkyg 发表于 2015-11-7 15:13:24

bt4baidu 发表于 2015-11-7 14:58
这个工作也可以用python做的,貌似增强对比度+图片去背景都可以用PIL图像处理自动完成
程序处理不了的再 ...

我刚截了24副图,对比一下,你用工具可以尝试下{:4_105:}

http://pan.baidu.com/s/1pJ5WYzp
页: 1 [2] 3 4 5 6 7 8 9 10 11
查看完整版本: 【精校人员募集】World Book Dictionary, 2015 勘误专帖