掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13
3 p8 u% G9 e2 _' ?# e1 e0 V" h2 d' `我刚截了24副图,对比一下,你用工具可以尝试下
2 k2 v2 `2 H0 Z! m! J. t* g& w# q
http://pan.baidu.com/s/1pJ5WYzp
" Y( O3 b& w9 \0 G; l' K9 p2 O; w
辛苦!
3 R+ n7 c. t$ \! J% L3 L- ~这样的图片质量,用工具处理完全没有任何问题$ |  @7 M: J5 g% X0 ^4 |/ b1 k4 N9 Z
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
6 v- N& N8 D+ W4 ]  L辛苦!) q/ y* M8 h/ h5 I! Q0 E! O
这样的图片质量,用工具处理完全没有任何问题* p4 i) L1 m5 H8 c; w# P4 _
要的就是这个效果

8 h% H! ?; V5 w& [9 Nmore than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:295 k. s/ y! \+ {
    认领音标文字错乱,121-172条

    1 x" U4 p* z" K8 Y/ u& b5 iOK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54
    # o% {. O6 w4 _" z! F- b7 N& z2 N2 R. Kmore than 3,000 illustrations

    ( K6 A; j- Y3 X这么多
    . n: x2 f. ~' Y/ T& G& j) N/ f! S2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领
    3 H) H) ~( S9 H   5、图片文本化. O8 H8 w, k7 L5 b
    126至200+ V) p8 J! U+ j  w9 q) @9 ]
    或分配后剩余图片的任意五十页以上% C& F6 u4 A( ?& [4 b
      f8 w( b! W2 h

    0 P: @8 U; u( v; q0 {有OCR经验
  • TA的每日心情
    慵懒
    2022-9-15 17:36
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑
    , L0 X. k1 d" ?8 c) B& I# R$ f$ z
    empenguin20 发表于 2015-11-7 04:054 m3 `" ]; s7 s+ W" X
    鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。& \3 w1 e3 Q2 D6 x
    我想问下楼主,音标为何 ...
    # ]6 {- ^+ r* Q; [# ?; P9 P
    5 S  T8 ~8 ]1 |; T; m: U% Q
    经过和
    + f. b) {" ]7 j0 N: P' Nhttps://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后
    ; M: q4 ^  F! y& m$ C8 l发现文件名为 tbdot*的并不是代表t + b with dot。3 a0 {0 v8 f8 K# T  s
    而是代表ṭ,应该代表t下面带点。
    8 p5 r, _) K: V* X& Z3 q
    8 [$ |- Q' x# @7 M8 [: z! V$ L: O具体可以参考以下截图:
    & T$ z' c* ^' m; C文档14行如下:! Z- e8 _+ _! ]3 w" {) u* U

    7 v1 l9 f- g; y5 y5 q- P$ A5 w- l( Z
    GD中截图如下:
    $ n/ O$ F+ n) e4 u3 W( p, w# Z* z) {5 Q
    & L- f4 O  z3 r6 \& ^
    pdf中截图如下:
    - |; g$ H- x6 T1 N6 p4 T) }# f6 H  @5 h) |

    : Z0 k4 X5 }# c; {所以bdot代表的应该是在前面一个字母下加一个点。/ V! T  O2 A4 N6 p! d3 G" ?
    1 ^0 [0 e* r4 c
    我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。9 O* ~2 q+ T1 I/ h0 h) Z" N8 x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray
    . w8 Y0 X3 f/ @0 Y: X6 D1 `3 L1 N. o$ Y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 3 |. S, \! M# y
    8 A. c; g" v& _. }$ r; A
    建议保留idotmacr作为图片形式存在。 原因如下。
    2 l5 B2 f% e% E0 x. Y/ O" g目前有三种可以做到的方案:
    ) w5 o4 p5 j7 \/ [! e" Y. _1. i̅      //此种方案, 头顶是Overline, 故不可取。, o9 H! l- P3 \: j& k2 C# A
    2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
    ) P9 u% N2 l' p3. ī  //同上。
    . r/ g; p- n5 t7 H/ K. h; e5 o
    ! {3 r" r  w; s( k6 ^. S, G; D# K另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    # x5 q) O# C8 h5 k2 N4 U
    + d+ k! r% G2 b) Q试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34* F+ J# s# a4 i% M+ E/ p. ^- C3 A
    认领# u$ F5 S5 B( N# f( }1 D. y' b
       5、图片文本化
    ! B6 `. |& O, n126至200

    ) E, v5 ?0 {. P6 W5 H0 [" x7 \都分配完了- b$ j% i, c1 E& I# c1 u
    等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31
    $ H6 F( R# Y* h" l6 ^, V$ ^5 F建议保留idotmacr作为图片形式存在。 原因如下。! b* ?' ~- T4 i1 t( l& ]6 |
    目前有三种可以做到的方案:
    ( ~. O: ?; i0 k" @* x1. i̅      //此种方 ...
    0 j, G1 N. ^3 A4 N! k9 T% g

    - X- R/ C, @7 J& y- [3 B. K这个i是比较头痛,用HTML实体也拼不出来  M8 U; B8 b* W
    e倒是拼得挺像了! `3 f4 r$ I+ m1 n- H* N
    本人也尽量争取和原书完全一致* @% ^# i; `$ C. [1 y
      A5 Q! ]. p- s5 B

    % ]+ k6 V/ w  m1 K: e. f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑
    - L! O8 ?( X' s/ a3 }' c
    bt4baidu 发表于 2015-11-7 22:09
    8 H* F, I  Z  d' ~这个i是比较头痛,用HTML实体也拼不出来
    , v9 Q' t. ~& |; @9 K6 q* Pe倒是拼得挺像了! S( m8 t: j+ x5 ?$ B7 {: h
    本人也尽量争取和原书完全一致

    7 ?, X6 f' h2 g; l7 |/ a! J4 v) Q7 P" G+ h: @
    參考b大你的方式# i7 R) b+ |# x' h9 @
    2 Z6 k; B# X! d# W1 L, k( y1 ?
    http://www.fileformat.info/info/unicode/char/0130/index.htm
    + j; s# a' O" J4 L: J% a9 hhttp://www.fileformat.info/info/unicode/char/304/index.htm
    9 B: Z) L, y! b; N& r$ W3 p- s4 C% L. i4 k: |
    & #304; & #772;
    5 t) m4 o; y* _- `) J, J! [, V2 K4 y. I. n
    İ̄ 還是可以合出來  目前快完工了
    / v5 u8 w( r& F. i
    $ P8 \9 E, R! s( D# d
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑 2 s' Z0 @2 X* g& `3 p& o( x+ n

    - E/ ^3 t' s% w/ [- i链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    : o- Q+ S& q# `
    4 P' l* P2 _0 @2 \; J- E編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上# m* v! H3 q! B+ {

    ) d" O# t. n7 V  _1 N! hidotmacron İ̄ 使用下面兩個組合2 V4 s1 ?1 |& S! j& d* }" B& F. u
    & #304; & #772;
    - H9 o" u" o: X3 V
    % [: d$ u- C( D* c2 Keacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
    % a) t( c. C! [9 r0 \& #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28
    : g1 {% |4 E; f0 A) a: B0 `# {6 n链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    8 R: P5 S6 g$ }7 ]8 h" X5 A7 u& o) F4 t3 K5 f
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...
    3 y& X. l# y1 F: \/ x+ Y/ W
    i用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    ' @: m+ ~+ o. j  w2 k8 s把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。! W. f- w* h/ T$ N7 s
    从empen ...

    ) \1 O1 }) W3 x% X/ N* k/ i' J多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    5 T0 b* p. i/ x! o( k$ u把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    ( r' e. Z: ^/ P% G从empen ...

    # U" T, ?! [. c9 P: @3 @; `多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52. c7 m8 X+ x; R+ ]) ]  ^
    原本的範例裡面是用ḗ 取代e DOT MACRON,
    0 }% e  h; S. {- l9 R! q有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

    # h+ M# O$ V1 p7 g* r9 A1 H我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑
    8 c5 a  e* d6 Q, N4 S) Q
    bt4baidu 发表于 2015-11-7 18:28* d+ y! Z$ x" y: p# u) G
    这么多" f: R" D8 b, Y9 z  I$ a
    2200页每页至少一张图?

    2 _0 M0 O4 Z( d8 U5 d0 J2 o9 ^- ?! z6 B( u
      已经截了300张了,原来美图秀秀有批处理功能 + G. q% B, w+ V, l7 Y. N8 h
    ' D5 @" A2 Q& Y6 _. @* I8 @' @
    问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57" H! B( `3 o) r* k3 G9 j. ?
    已经截了300张了,原来美图秀秀有批处理功能 ) {- F) E0 l# K' @+ l) k) @) H

    $ M. O% N: H4 z+ Y  Y问下这种情况怎么处理呢:同一词 ...

    - ^9 x4 {& V. t) N, i7 C) n那真是极好的,科学技术是第一生产力+ D3 p1 |% }8 Z8 _: L
    / U* ]$ b6 z7 F  C- |; J- ?
    这种情况直接后面加数字呗,_1,_2。。。
    9 t" q0 ~9 K4 ~: m  B5 S# R; s+ X6 y如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48
    0 p; T. X& X+ |1 @8 y1 c! \看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
    2 i$ r% o8 O9 s2 Z  u! X
    等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑 + a, B: p% D0 N( N3 z3 q

    4 L0 w* h' T+ c' L+ E4 \і̄=& #x0456;& #x0304;9 V$ ^& ?$ w7 o( x8 S, @

    $ P+ S: E3 C$ Y& A$ z) y; r4 a5 h

    * v2 i) h6 f  p* R/ B6 n. I; i1 u

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑
    0 \. W- G7 _* e* w9 A/ P6 d" k+ ~' k2 d
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42# C7 w& Y: v# E; L/ h9 I
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
    , c1 }5 b2 D& `0 u
    这回你来晚啦,没你的份了
    0 G& F$ x# W  J* @5 v! y等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-4 12:32 , Processed in 0.079032 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表