bt4baidu
发表于 2015-11-7 11:57:19
empenguin20 发表于 2015-11-7 04:05
鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
我想问下楼主,音标为何 ...
所有修改都有记录,可以慢慢来确认,一次就100%正确不太可能
那个带上横杠的 ė还有i、u̇等,实在是找不到啊。。。
用两个HTML实体字符似乎能勉强拼出来 ė̄=& #x0117;& #x0304;
bt4baidu
发表于 2015-11-7 12:00:04
qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
完工以后可以用HTML实体字符拼
比如ė̄ = & #x0117;& #x0304;
参考别人的写法,保持一致就行,后面可以全文替换
bt4baidu
发表于 2015-11-7 12:04:21
dhs1001 发表于 2015-11-7 10:43
把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
从empen ...
能找到对应字符的尽量用对应的字符,实在找不到的,可以先用类似字符代替,后面再想办法
bt4baidu
发表于 2015-11-7 12:08:08
mitkyg 发表于 2015-11-7 06:51
我又来了
认领 1、符号or插图: 11条,募集1人
如果能找到所有插图就完美了{:4_104:}
只要按词头+.jpg/.png后缀命名,很容易合进去
如果足够清晰,背景为单纯白色,还可以写程序把背景透明化
tsiank
发表于 2015-11-7 12:12:31
bt4baidu 发表于 2015-11-7 11:57
所有修改都有记录,可以慢慢来确认,一次就100%正确不太可能
那个带上横杠的 ė还有i、u̇等 ...
带橫杠的ē,ī, ū都是由两个字符(字母本身和UNICODE编码是\u0304这个字符)来表示的
bt4baidu
发表于 2015-11-7 12:23:38
tsiank 发表于 2015-11-7 12:12
带橫杠的ē,ī, ū都是由两个字符(字母本身和UNICODE编码是\u0304这个字符)来表示的
这种不是,这些都有对应的字符,xls里已经写了
带点+横杠的e,i,u找不到,似乎可以用两个HTML实体拼
mitkyg
发表于 2015-11-7 12:26:18
本帖最后由 mitkyg 于 2015-11-7 12:35 编辑
bt4baidu 发表于 2015-11-7 12:08
如果能找到所有插图就完美了
只要按词头+.jpg/.png后缀命名,很容易合进去
radical sign 书上是这样的,
对比wbd的preview版
把“根号16”也截出来替换下?后面也少了= the cube root of 27 = 3.
再一个fraction
书上是这样的
都截出来替换下?
另,图片得一张张截取,2200多页,也不知道有多少张插图,尽快完工吧{:4_104:}
bsqby
发表于 2015-11-7 12:35:24
贡献两个特殊字母:ǡ ȱ
e的那个找没有。。。
bt4baidu
发表于 2015-11-7 12:46:37
mitkyg 发表于 2015-11-7 12:26
radical sign 书上是这样的,
对比wbd的preview版
书还是PDF?一页一页拍照?那工作量可不小
如果是PDF,ABBYY好像在OCR的时候可以自动抠出来的
css
发表于 2015-11-7 13:13:27
ė̄ ǡ u̇̄ ý̄ ẏ̄ b̆ ȱ b̄ ṇ
暂时先改了这几个。 希望能有用。
fuxy526
发表于 2015-11-7 13:25:21
百度兄还有任务吗,我也想加入
mitkyg
发表于 2015-11-7 13:25:26
bt4baidu 发表于 2015-11-7 12:46
书还是PDF?一页一页拍照?那工作量可不小
如果是PDF,ABBYY好像在OCR的时候可以自动抠出来的
pdf的,试了下,还是人工截取吧{:4_109:} 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定吧,试截几张,看看图片堪用不
bsqby
发表于 2015-11-7 13:32:01
我再领取“链接指向错误”所有2~125,这一项应该还没人领吧
css
发表于 2015-11-7 13:39:07
qazqwe 发表于 2015-11-7 11:52
原本的範例裡面是用ḗ 取代e DOT MACRON,
有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
...ḗ 取代e DOT MACRONḗ 取代e DOT MACRON...
商榷: 如果实在没有可以办法, 宁可留存图片。
...y DOT MACRON 還有類似 ȳ́ ȳ̀ 的寫法# cJ9 t5 U( Q8 H9 g
這要統一做法還是看每個認領的人主觀認定....
商榷: 不存在主观认定的问题, 一切以原书/PDF内容的客观为准。
{:4_105:}
fuxy526
发表于 2015-11-7 13:39:07
我也想领取“链接指向错误”任务或者“图片文本化”剩下的也可以,百度兄可以吗?
bt4baidu
发表于 2015-11-7 13:47:15
mitkyg 发表于 2015-11-7 13:25
pdf的,试了下,还是人工截取吧 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定 ...
质量不错啊,辛苦啦{:4_104:}
既然人工截取,保存的时候记得文件名存为"词头.png",不然就没法一一对应了
慢慢来,不着急
shakahenryqht
发表于 2015-11-7 13:56:34
我来做音标文字错乱61-120,请楼主批准!!!
bt4baidu
发表于 2015-11-7 14:11:40
bsqby 发表于 2015-11-7 13:32
我再领取“链接指向错误”所有2~125,这一项应该还没人领吧
已分配,这个不太好改的
bt4baidu
发表于 2015-11-7 14:12:21
fuxy526 发表于 2015-11-7 13:39
我也想领取“链接指向错误”任务或者“图片文本化”剩下的也可以,百度兄可以吗?
图片文本化剩下的都归你了,具体看XLS
bt4baidu
发表于 2015-11-7 14:12:36
shakahenryqht 发表于 2015-11-7 13:56
我来做音标文字错乱61-120,请楼主批准!!!
OK{:4_105:}
bt4baidu
发表于 2015-11-7 14:31:28
本帖最后由 bt4baidu 于 2015-11-7 14:33 编辑
mitkyg 发表于 2015-11-7 13:25
pdf的,试了下,还是人工截取吧 图片清晰,不出错,符号or插图弄完了,词典插图争取三天内搞定 ...
只要使用美图秀秀增强一下对比度,就可以把背景全部去掉
mitkyg
发表于 2015-11-7 14:46:05
本帖最后由 mitkyg 于 2015-11-7 14:53 编辑
bt4baidu 发表于 2015-11-7 14:31
只要使用美图秀秀增强一下对比度,就可以把背景全部去掉
{:4_104:}好,等图都截完了,我再用美图秀秀处理一下
同时我没有截“星号”,这样显得更美观些{:4_105:}
865052004
发表于 2015-11-7 14:49:46
想报名参加,不过以前没做过词典,不知道会不会给你们拖后腿啊??
bt4baidu
发表于 2015-11-7 14:58:01
mitkyg 发表于 2015-11-7 14:46
好,等图都截完了,我再用美图秀秀处理一下
这个工作也可以用python做的,貌似增强对比度+图片去背景都可以用PIL图像处理自动完成
程序处理不了的再找你{:4_105:}
最关键的是文件名,这个不能和词头对应起来的话就只有手工了
mitkyg
发表于 2015-11-7 15:13:24
bt4baidu 发表于 2015-11-7 14:58
这个工作也可以用python做的,貌似增强对比度+图片去背景都可以用PIL图像处理自动完成
程序处理不了的再 ...
我刚截了24副图,对比一下,你用工具可以尝试下{:4_105:}
http://pan.baidu.com/s/1pJ5WYzp
页:
1
[2]
3
4
5
6
7
8
9
10
11