掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13) n/ `  a: K: F6 O1 m
我刚截了24副图,对比一下,你用工具可以尝试下
" O7 x+ I' p4 h4 J, q2 o5 \  \3 j+ |! I3 p; p# m
http://pan.baidu.com/s/1pJ5WYzp

" _. R/ H; h4 D! c8 O7 G辛苦!
4 g% @# I- V/ {' f2 T4 M这样的图片质量,用工具处理完全没有任何问题; n+ Z9 Y- z/ A" X# H, f9 h
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
& h9 }) S( K* _2 E3 a辛苦!0 I- G4 s+ R5 c1 u; ^& K
这样的图片质量,用工具处理完全没有任何问题( R. e/ s  S' i+ M2 w0 c. Z. i0 K+ N
要的就是这个效果

4 z" ^( s' H0 J# Mmore than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29
    $ |+ x/ a# o7 x  l% P认领音标文字错乱,121-172条
    4 g2 Z0 U8 i6 o% i! s# ^! Z4 H& U# z7 P
    OK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54, y0 B; [% P4 j7 l" i
    more than 3,000 illustrations
    5 n( ]3 ]2 k  {  j6 b/ i+ z
    这么多
    . W+ d  y  ^# x: b  \' z) c4 f2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领
    2 P- D9 }) X2 ?# R   5、图片文本化
    4 g& ?9 y3 @1 Y/ h( Y. N7 J126至200( I! m( H6 u7 N* ]3 b+ h$ v- g; M
    或分配后剩余图片的任意五十页以上5 m. ?/ d3 G9 R3 M! V0 e' d" i) d
    5 Z$ }( L; i* Z
    9 Y# j: c2 Z2 y( R, _
    有OCR经验
  • TA的每日心情
    慵懒
    2022-9-15 17:36
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑
    + M2 t% l# T2 z+ h! z
    empenguin20 发表于 2015-11-7 04:05
    " |( g: H5 ?5 s鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
    , V% ~" v. P2 Q! K& s1 U我想问下楼主,音标为何 ...

    0 Q% W& b. ?& I5 e. W* j" E/ A6 D0 R& H
    经过和8 @$ P; |4 K" @' C9 |( J0 }
    https://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后; f4 q  m; V3 X. _9 m: }$ Q. O
    发现文件名为 tbdot*的并不是代表t + b with dot。: V  G( I7 A! B* O2 m% m. w
    而是代表ṭ,应该代表t下面带点。
    + |  P, G9 I& T2 a/ f7 H0 T1 f- x( j, A) ~
    具体可以参考以下截图:  l# \% \, a. a, d$ S" T& r& O; N
    文档14行如下:
    + q- ^) M* h0 z. x* ?, K3 Q: B( U5 O; C  z
    ; a/ y7 f1 i# \: x% F+ ^. a
    GD中截图如下:
    2 R/ }' ~! k1 Q8 P4 }; U7 {
    , q+ U/ W; ~' G8 Q' k
    4 C( h* H1 |* }pdf中截图如下:
    . J# [8 k4 X- A8 K0 G0 z9 M4 g: n4 k8 i, E
      {8 Q7 A. G) _) h
    所以bdot代表的应该是在前面一个字母下加一个点。
    . N  O$ T9 t' N+ _; }; p" l9 j6 z8 X
    我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。
    ( p/ F5 a0 Q; h! v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray
    ! F5 A+ K3 R4 U3 C
    ; D# \3 K6 [$ |- w2 B' `

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 : v+ n! X" M- p* t$ H, |) E7 g
    0 m$ x8 S+ n0 g' K/ C; Q; j2 K
    建议保留idotmacr作为图片形式存在。 原因如下。& Y3 r5 t0 p+ p# ?/ [
    目前有三种可以做到的方案:8 u) h4 n/ \$ q8 D- p/ G
    1. i̅      //此种方案, 头顶是Overline, 故不可取。) [- A; Q( N6 E7 s+ @: M  Q2 o7 }& T( {
    2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png. K+ I  X" n! S0 I) h! h8 |# M
    3. ī  //同上。
    $ A" v/ s1 u4 ]- n6 b: e. X! H3 [8 M- y! g- h. J+ y* B
    另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    1 @) p7 I- U9 M7 c& P8 r0 a
    2 z6 H5 q6 \- N/ l4 @. O试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:345 t1 ]! F% D. e- q- T3 g; E
    认领
      _, }7 \: {' \0 K8 A   5、图片文本化" [* v9 p* e; C+ j; _
    126至200

    9 X4 v" }2 D! @2 q1 A5 [6 e6 s都分配完了
    : F. b2 ?; p, j7 M- l  n5 f等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31$ U( ~- t7 K/ i4 F. w* M
    建议保留idotmacr作为图片形式存在。 原因如下。
    # f4 {* \4 v4 w( W+ t8 i6 Q目前有三种可以做到的方案:
    8 a, v& R% M  T. S+ Y0 g1. i̅      //此种方 ...
    0 D1 a/ v( w$ u' S
    ; O) I; V" s) I& w9 T5 ?% Z. L1 H
    这个i是比较头痛,用HTML实体也拼不出来
    + y8 _% J  j5 W" |e倒是拼得挺像了% A" D' }* r. L" Z1 o+ k0 K1 d/ r# p
    本人也尽量争取和原书完全一致$ M! J& V- ^+ u; Y3 L' j

    7 d- O  g- J7 x9 R8 Q0 n" M7 A
    , S3 O. |0 r7 d) f$ k/ a6 i

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑 4 t" z8 L' m: U5 s0 M% @
    bt4baidu 发表于 2015-11-7 22:09
    1 R: p2 w1 }9 z2 }3 z9 ]: o& f这个i是比较头痛,用HTML实体也拼不出来0 o& T2 J. i+ P, ^
    e倒是拼得挺像了
    * C! M" S/ X2 G. a, v本人也尽量争取和原书完全一致
    7 D, z5 l$ q# @- o# s, S3 Q

    - }4 _3 E' s- a* w& ~- g- s' }參考b大你的方式6 @. I  C* J9 g6 Q( ~. V# b! S9 D
    ! T; f6 V* c: g$ {# ]: k% x- u
    http://www.fileformat.info/info/unicode/char/0130/index.htm# N( b! o  ?/ G+ V8 J
    http://www.fileformat.info/info/unicode/char/304/index.htm. ^+ Z* F, P' y. h+ q+ k. w/ E
    3 v+ C4 q2 K" X% z! v# `4 Q
    & #304; & #772;
    3 P5 K0 U, ]2 B" ~/ j, l) k2 Y: M% `9 T  s: T" z- Y
    İ̄ 還是可以合出來  目前快完工了
    " M5 `. m3 H2 J) F3 l% I* O/ B, M' F' Q' S+ d7 P* @; @
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
    ; ]$ M/ R4 s/ {: [# c
    . O0 p! ~# U* h1 o链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    . r/ p% D( M: w4 A+ `! I7 v0 m9 X/ T$ Z5 B6 ^# F5 I
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上
    1 [5 A- D6 ^3 R( M6 L
    9 h6 f$ l) u# I8 m% v8 Y6 w+ T$ Z! pidotmacron İ̄ 使用下面兩個組合; z. [7 k3 X7 {3 @  }* C
    & #304; & #772;, f. V! B  J  y+ B" B

    3 B2 N* Y9 N( J% c# ^eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
    # n+ V* Q3 x7 F& #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:284 r% o( {) p' b
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    ; |2 I) b5 S8 Z$ _8 \- \4 p% f* ]5 y, D* d8 t
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...

    # H' ]3 U' |9 z$ T/ I2 i- Mi用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    1 k8 H2 j( w: ?5 {7 h1 {4 R把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    - l# g6 k& |2 a) }' E' E% ~从empen ...

    ) K0 r4 G7 ~! T, E. n+ c6 M多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    : R1 P4 c9 e; ]) w0 `1 Z0 [. Q) r把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    : ~$ i+ [; {) Y从empen ...

    # y# [% x9 @5 a/ |5 P多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52- l1 |: J8 [5 O) v# y8 C" ^
    原本的範例裡面是用ḗ 取代e DOT MACRON, & d- @/ E+ ^8 ^, U- P4 S
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

    ; G' l) n0 u& Q. s  x5 |我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑
    . n- e* _0 t8 ]( H. f
    bt4baidu 发表于 2015-11-7 18:28) M8 S% z+ [. a! M8 T
    这么多
    " [+ m* B4 u1 a; L! E2200页每页至少一张图?
    ! ]' p8 Z5 c7 x: v

    : |! D3 ?0 I1 B" b( G  已经截了300张了,原来美图秀秀有批处理功能 ; O' P" k5 g" `9 ^* `& z, F) X7 X
    ; _& X+ q* K# a+ v
    问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57& w1 u/ w- Y4 R: D
    已经截了300张了,原来美图秀秀有批处理功能
    & z3 R/ {5 E+ ~# M2 E* {2 [) R7 D; O$ D9 X9 v  h+ A; j  t2 n
    问下这种情况怎么处理呢:同一词 ...

    ' o; t' P: C" P& z那真是极好的,科学技术是第一生产力
    : j5 ^9 Y% ?# J& B, V, Y8 c* K: Q% C4 s( R1 q$ P7 w0 M& z0 `9 |
    这种情况直接后面加数字呗,_1,_2。。。- q; ^$ ~% I9 W- y' B  k6 w, @
    如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48& B/ H0 n2 r, l! t& b$ j' k
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    2 H( g: K$ t$ d! m5 F1 B6 C等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑
    # V1 s! J" K' \$ F  S0 p
    " A' [) J& r- G8 P* ?9 w5 |і̄=& #x0456;& #x0304;8 y" Z  ^6 a6 _: z$ e! q0 ~- n

    - K# Y' x4 ?6 ^5 r! U' v3 ]
    * L" l( o2 D/ D& }
    0 W" _1 n% i! ^8 V. [

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑 ( `7 w2 o% r- A/ [1 Z
      u4 t5 u5 E" \  ^2 F+ b) W0 `
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42
    6 p, c# O/ p6 y6 l+ s" I- W感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
    5 j. A$ O/ ?  t( S& z+ T* q, r
    这回你来晚啦,没你的份了
      V+ f& d. I1 u; i等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-4 06:24 , Processed in 0.076525 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表