掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:131 I6 e/ {- r5 @! V/ q
我刚截了24副图,对比一下,你用工具可以尝试下 ' \9 l' M7 j7 H1 f7 t# a

9 l; a# G' W  H: d2 v7 ?9 Z. M4 i6 Shttp://pan.baidu.com/s/1pJ5WYzp
3 m- Z# Q/ i- Z! _
辛苦!
+ A% ^& n3 y/ D" D; ?% `5 M这样的图片质量,用工具处理完全没有任何问题+ D  i. g& V/ C6 ~8 M+ r( k
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
* P2 V+ n8 Y$ Q/ b6 V7 H辛苦!  s7 G( L1 N1 [( C" F3 k( M
这样的图片质量,用工具处理完全没有任何问题# t3 ?! |, k5 f# d* P* }5 L
要的就是这个效果

$ n$ [) c% v5 Q7 |9 c1 ^: L! Lmore than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29
    + R9 L+ V4 W1 c; ]* Y+ Q认领音标文字错乱,121-172条

    1 P& u/ B" R& y6 B* r  x; WOK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54: ~* @6 N0 I% j4 O( R9 X& j
    more than 3,000 illustrations
    , C% Q0 v" q2 d+ x
    这么多$ q5 P$ Q1 F3 h/ f
    2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领) A6 |3 K$ g* i. u, W0 ?
       5、图片文本化
      r6 H( T7 L7 X9 ?+ O$ Z! T* {126至2002 p, u) b( r. G+ a' c0 T! z# I
    或分配后剩余图片的任意五十页以上# i' ], D' X% S# n" C9 @; S

    ' _- @. W6 Q( Q' [1 H! \$ p2 l3 c" f* ^& k; {+ S/ q/ _% c& T
    有OCR经验
  • TA的每日心情
    慵懒
    2022-9-15 17:36
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑 9 ~6 S/ E0 u, Z& e5 z
    empenguin20 发表于 2015-11-7 04:051 i$ T$ K: y) o; |. m6 {
    鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
    * |" O& e) ?1 g) m9 P* S我想问下楼主,音标为何 ...
    % N$ D4 |3 s8 P/ B% c+ A: g

    % q  W; W4 o5 G  c( a! x; v经过和1 @3 Y1 l0 n' h
    https://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后( T/ `- N" Z3 F9 Y* Z/ R
    发现文件名为 tbdot*的并不是代表t + b with dot。
    ; }! U) ]2 }6 B而是代表ṭ,应该代表t下面带点。
    - s8 u+ S3 B( v+ Y) E' ]* Q) z4 k6 j
    具体可以参考以下截图:
    6 a! y  d& R- M: I) x# `! A文档14行如下:
      D- K" E) K3 S3 C( K# q& G; Y4 o7 v& K0 _6 X

    " g/ v" H) }, d7 @, j) c5 xGD中截图如下:
    ( l: o$ M, [. \9 e' f0 H2 C% v
    5 g# j5 X- x, b; g8 |  W4 O, u% d. r' f" A/ L* s
    pdf中截图如下:( w! Q3 l% s) t+ e
    / h2 K" @5 H2 S0 f  u6 A  X

    ; H1 v; s* u  z" w- g所以bdot代表的应该是在前面一个字母下加一个点。  |$ }* \8 Y6 g4 D$ f
    ) k$ q' f6 n7 N$ U+ @/ M
    我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。
    0 K# T. _& E* H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray& }2 X; i5 F7 ?7 x! H7 e) [

    6 g; b5 p8 R3 j( _. A  f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 # Z7 H; i. O2 U7 `& T5 {8 t

    % J2 R( N  y7 Q) q& D8 D( a5 ~建议保留idotmacr作为图片形式存在。 原因如下。
    & @4 C2 X: V' v( Z6 w: L  ^3 N+ k目前有三种可以做到的方案:
    ; H+ W! A4 B3 J- b, }( ^: F3 ?1. i̅      //此种方案, 头顶是Overline, 故不可取。& i" D. ^5 R* e5 @7 L
    2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
    # s; u7 s" M$ A* F3 W3. ī  //同上。
    / U/ U! o9 Y* L2 i2 L- G2 f1 m+ H( g0 G& L% ^( W9 U
    另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    ; U1 d+ B/ A2 S. |- B- N. A  Y& N& V
    试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34& s0 N) L3 z  ]
    认领3 E, p" A7 W! s- k- y$ z5 V
       5、图片文本化
    " c; k8 K! `7 k1 C126至200
    4 H5 W0 _2 C7 J( w( ?4 H! g: {
    都分配完了
    ) b+ P' z/ q+ M4 W' r5 h+ y等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31
    % I! U4 |8 l8 _6 w/ m! R建议保留idotmacr作为图片形式存在。 原因如下。
    2 o: }3 i7 ?+ }8 O目前有三种可以做到的方案:
    6 K( F% G! K' N4 }, u* ]- o! ?1. i̅      //此种方 ...
    7 P- D" M4 P; T* f: p/ N7 ~

    / G6 y; T% `$ Y' p7 T. m这个i是比较头痛,用HTML实体也拼不出来
    # ]3 b: Y: Y# I' Q5 y, Le倒是拼得挺像了7 Z+ R. G  t1 T
    本人也尽量争取和原书完全一致
    0 r+ U1 J% o5 w$ k$ g2 @- u  }/ E2 u! W9 Q

    ' E2 x# S7 c6 f4 m5 ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑 " r& z: u  [( ]8 `, R( Z! h
    bt4baidu 发表于 2015-11-7 22:092 q0 H$ x% s' ?9 L4 W: o. |
    这个i是比较头痛,用HTML实体也拼不出来+ `! O) P" F' M3 e4 c8 N5 c
    e倒是拼得挺像了2 s: D* K! Z  z! A/ N
    本人也尽量争取和原书完全一致
    9 k% O; @2 g  U) d% e2 j

    2 [6 e& _" d! S' b4 B參考b大你的方式- q$ o. q1 g$ O& \* a0 ~
    ( y9 n* `9 ~5 V5 o( X8 \0 L( G
    http://www.fileformat.info/info/unicode/char/0130/index.htm* U) w6 k! b. W$ f6 W
    http://www.fileformat.info/info/unicode/char/304/index.htm
    ( a6 ~7 I: g- j- u. O" }# m, S1 X! M% M/ O( C  H
    & #304; & #772;
    9 n- c( k- s4 {0 t4 I
    $ i7 u0 l" v7 f, [0 zİ̄ 還是可以合出來  目前快完工了- z; N5 G- b' |$ |
    , y; y2 l6 |$ m7 f) \' r! h2 T& p: ~
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑 ( ~& N, r; _9 \: W3 C6 u1 c+ w

    2 G2 {$ W1 ]! W  X2 _; k* C链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f& q( M# o! e0 s& `' {7 `1 g. m# V
    * M: G/ {( G4 l, O7 I+ B  _8 g. X; g
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上" _8 o/ \4 S" k8 N; w6 u" j( d
    ) W- `1 W5 E+ Z5 a* K# S: |
    idotmacron İ̄ 使用下面兩個組合* d3 A# a3 T+ S7 F, e
    & #304; & #772;. x  B0 H( h: m7 S' |$ |

    . |3 ]- J* D7 veacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
    6 a" u/ n/ i& K! h& #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28
    . b  S  l+ s$ G- g9 s链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f* r2 g* C$ B. k8 b# q- e% _
    0 f+ Y0 F6 b0 [( _% A9 r5 Y1 h
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...

    ; ]9 n& l! A- }& X( j$ Ai用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43% \, d8 [( ^  [* R
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。" U3 v9 L% s: t) p
    从empen ...
    7 _2 T1 [# s7 Q9 \2 ~
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    : L, v0 W( n$ J' U把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    1 h/ t* \7 ]$ f$ Z0 G' e  ~2 |/ O从empen ...
    $ \! c% B6 w& F5 [0 E8 f. s
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52
    4 ~* y1 ^* @, X, I7 i- g; P5 g4 b1 f原本的範例裡面是用ḗ 取代e DOT MACRON, , c3 _# h! I- M% g5 w9 n, V' t; L
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

    6 B  I9 q3 \8 b8 R我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑 ; j% f6 b& l; u5 P2 \
    bt4baidu 发表于 2015-11-7 18:28; y. z4 v$ O+ }8 J# D
    这么多8 `+ y- c; s- {. M( t& U) r9 Q5 n7 D
    2200页每页至少一张图?
    # B% o. N; z% }- b3 ~; |

    / ?) y" C8 q( M) |6 X9 n( N  已经截了300张了,原来美图秀秀有批处理功能 1 r/ B: M  y4 U" U# n: a

    # ~3 m$ A9 l+ v问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57
    ' V: q. G6 [8 A8 S8 P1 S) [# C( D已经截了300张了,原来美图秀秀有批处理功能 - J1 n: {/ u, `! @

    * h7 j2 k8 g/ m! c6 C$ K问下这种情况怎么处理呢:同一词 ...
    ! X+ o- Z: {9 q. z# }) Y, J9 v
    那真是极好的,科学技术是第一生产力
    , n$ A: g% `3 b0 R2 S! y9 L. m
    & h" ^7 s/ {0 r5 Q4 A/ K  B这种情况直接后面加数字呗,_1,_2。。。
    4 x+ N/ Q0 X- p( H! z如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48
    ( A% W% B0 h1 w) r" Z4 h看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    7 T$ X% a' y) T; c: w* H# n. N等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑
    % ~8 x7 {6 o' W2 L0 S: c- L+ W( w
    2 [+ v& e2 K6 S" Eі̄=& #x0456;& #x0304;0 H( \* p0 F& U# I3 O

    1 |/ m& X; z8 n- B! p/ q( R6 ~: z: `% w1 N. I
    ; Z3 m& V+ D8 Y. Q- M, f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑
    # m" S( J! W& [, s+ A0 x+ b$ d. g- h8 v% q# }
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42/ F/ c7 t; J" n
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...

    , Z* s2 O3 F1 y) w% }) H, z这回你来晚啦,没你的份了% \% u/ E+ w+ x# _& k: T  f* R
    等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-23 16:06 , Processed in 0.113429 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表