掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13, O5 {5 U0 d- c
我刚截了24副图,对比一下,你用工具可以尝试下 , q" w( i) u' L" u: J3 W1 E, A

4 X  I+ F$ I  A3 j2 L9 R" r% thttp://pan.baidu.com/s/1pJ5WYzp

; {7 ]$ m2 d. p/ L辛苦!
2 |& W7 V2 z- T! Q0 [1 D; P/ D这样的图片质量,用工具处理完全没有任何问题
& ^4 O; l2 K) T* k要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
+ f% y4 n% U* y2 ^1 l辛苦!5 ^5 B- o' A8 y3 @! R& d% z2 s
这样的图片质量,用工具处理完全没有任何问题1 P3 s3 C: r$ c7 `& z
要的就是这个效果
3 D5 q; O6 J5 U0 w, ]8 a1 S
more than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29
    1 X" I# N: b( `5 V- \0 \/ l认领音标文字错乱,121-172条

    ' M2 @, N5 K, j3 VOK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:546 U" N& }& H5 D8 L( Z2 w
    more than 3,000 illustrations

    6 h7 Q0 @9 O' B. ^5 Q9 L这么多
    : w6 {9 s9 }8 L$ j2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领& I7 V4 f7 C! G" I, {
       5、图片文本化. P2 T  _, y: h. y. K
    126至200
    " z+ Z; P' x% A: g8 z或分配后剩余图片的任意五十页以上% ?) ~& ], J6 w$ H6 G; Q8 t

    & j  g, B0 \7 N; Y, Q( H! w0 X8 V  y8 ^% K/ g- f
    有OCR经验
  • TA的每日心情
    慵懒
    2022-9-15 17:36
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑 $ @+ I" P/ a8 z; J( g7 {& n
    empenguin20 发表于 2015-11-7 04:05. m: C% ]. E' J7 h' d7 ~
    鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。7 {0 L6 [6 Y" ]0 V
    我想问下楼主,音标为何 ...

      p8 s, d8 k3 r6 u; f2 M
    . z: s$ k6 u  D: A% @+ E$ }经过和
    + ~" w) h' z% ?+ o' E* Whttps://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后8 B9 T: i! y% V. T+ D! ~4 s
    发现文件名为 tbdot*的并不是代表t + b with dot。  n6 i- h7 G0 `4 p* w
    而是代表ṭ,应该代表t下面带点。
    & X( O' \9 @- Y  \5 X; I7 R
    3 F7 w8 k3 o' b( d* S具体可以参考以下截图:: n; C7 w6 ^8 R8 x# b% d, X
    文档14行如下:
    4 P3 z( b# s/ F4 c$ s
    - Y: S! D6 R' K, ~) G! B8 ^$ U( B/ d$ A; T. @
    GD中截图如下:" [- f) H5 j4 c6 d6 J/ g: a
    : r" V: J7 _" U. |1 a/ M1 T5 c

    9 P3 I# q% N4 R2 U3 updf中截图如下:3 m- c" j# u- D

    $ e$ N1 x, l2 J) J! z& @" u
    ! S+ w) s2 F# y4 k( C所以bdot代表的应该是在前面一个字母下加一个点。! T" u7 F: F8 C) a3 R0 k! G

    , M$ {0 _" Q1 E+ g- F4 r+ D! P/ ]我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。  U1 Q- d1 ~0 D" r1 e8 O

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray2 ]4 j3 D' o  C' ]

    6 @- a$ n. \5 v" z) Y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 0 r0 |! ]# I3 ~3 L

    2 ?& l1 M( |1 b- W: u4 [) p建议保留idotmacr作为图片形式存在。 原因如下。8 h* d6 Z6 Q5 x9 j* |
    目前有三种可以做到的方案:
    8 t, I0 x2 {8 {! ~1. i̅      //此种方案, 头顶是Overline, 故不可取。
    2 q! j. ~. R) [, n8 U* I9 s9 t2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
    5 E5 R3 D6 e$ q# S! \& y3. ī  //同上。  M/ h: S' ^" o
    ( K. k8 Z: O' B" K
    另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    3 N6 v2 K6 a4 _6 ?+ A; a# U2 l
    & O% `- f( `6 }试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34
    - t' Q5 N5 s( }认领* ^# T# _1 F' c: k$ h
       5、图片文本化
    ! {3 Y) H2 `+ c' x& ^6 _: y126至200

    0 p0 |( Z+ z' S5 u都分配完了
    2 Y9 |( G5 I: e, i: c# Z" s: V) Z等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31
    2 r' D  ]" f- m4 P3 n* @  N建议保留idotmacr作为图片形式存在。 原因如下。  Q  e4 H2 ~- N- c9 E9 O- W
    目前有三种可以做到的方案:
    ' T$ D7 P: S9 ?! F6 M2 E1. i̅      //此种方 ...

    5 p( {% i1 w; s1 Y* }1 C" O& P7 `
    # y( O; r: y, R) d$ G这个i是比较头痛,用HTML实体也拼不出来  Q. x. N# R! N7 K
    e倒是拼得挺像了6 Q3 E2 ?4 x* J4 Q) Z- I5 i5 z
    本人也尽量争取和原书完全一致- c: \' n+ H8 q, a0 J8 c

    " F( W3 P. \  u1 o
    6 o5 w# m9 J9 g$ Y+ ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑
    * a  O- ?5 G3 d. q9 `1 x! X$ T
    bt4baidu 发表于 2015-11-7 22:09. J$ L9 N" c% x
    这个i是比较头痛,用HTML实体也拼不出来/ I: w# q5 i4 a) O
    e倒是拼得挺像了
    7 H( Q3 o; v; Q, B本人也尽量争取和原书完全一致
    9 P7 R$ b7 K+ W4 t" a) S- X/ X

    + g) v6 C9 w* [+ I# U參考b大你的方式3 P' J5 M6 w) Y- t; V0 r

    : T1 \% V1 X/ Chttp://www.fileformat.info/info/unicode/char/0130/index.htm+ f. v( G0 k5 {; H: C( Y4 Q
    http://www.fileformat.info/info/unicode/char/304/index.htm
    0 P4 A0 ^# _. N& c
    % E7 D8 }" {$ Q" ?& #304; & #772;# [2 E& Q; o  S& \: `* q
    6 J( u( o+ Z: d3 Z+ ^# d
    İ̄ 還是可以合出來  目前快完工了
    ( p1 h' O% Z/ f! W- N. @+ w& g
    " a% A4 g0 @! ?; `$ ~
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
    2 d  p8 V* f7 ^. ~# x6 A+ G( J$ d( M: _8 P; d
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    5 x) z. H  e$ R, S
    " ~- N% D( a, E9 _; P編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上, U0 s7 j. i0 G2 V, l( Y

    , r: }5 y$ F3 u% @. s+ Uidotmacron İ̄ 使用下面兩個組合
    " n2 D0 o& g/ B1 K, ]2 h& #304; & #772;5 t1 B/ h+ o1 ~4 G4 V( P+ B

    * M: e7 |1 K* L9 D( J) ]eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別4 z! Z2 R* m( z! X2 E9 q7 N
    & #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28" R. V$ E$ B" q0 K0 L0 F
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    : H/ O7 x) e$ U& w
    ' z8 z! _0 M. [9 e4 D8 F7 S4 {編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...
    . s1 t, Q, k9 j/ U6 Y  h  C
    i用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43( \8 u2 P% l3 g
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。6 m7 z( o. F  F: W" l: G
    从empen ...
    + c- v' e+ x" _) |+ I# H# ]
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43: N, ]# ^; B& t: M- `
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    $ ~" ^* M( Z0 e! r8 _( Y从empen ...
    ' r! b1 i8 @8 [; p8 f
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:529 i& G, V. S  M4 I
    原本的範例裡面是用ḗ 取代e DOT MACRON, 9 {6 W' u2 e- e% J# t
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

    1 _+ R0 o( f; p& @, y0 ^我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑
    6 T1 ^' X& f- Y& F$ x+ o" H
    bt4baidu 发表于 2015-11-7 18:28# K8 }6 F! K7 {1 y7 B& H4 v- b
    这么多) ~/ K) t- l, A
    2200页每页至少一张图?
    * J) |4 r, s0 {+ ?( \6 D

    # R7 K9 V- E6 ^# p+ T; V1 @- }  已经截了300张了,原来美图秀秀有批处理功能 2 T, M. I4 |  M! N# [* q. ?

    " B9 }3 t& x* z" e1 L问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57( \9 T) r  X* K' i9 `
    已经截了300张了,原来美图秀秀有批处理功能 " u% |$ W$ h- f& |/ k% I: ^

    7 I4 E" G/ q$ @& e7 }( L2 I. ]  r问下这种情况怎么处理呢:同一词 ...

    + ^  X1 |# W4 o8 e那真是极好的,科学技术是第一生产力
    4 d/ S% Q% f1 H4 x/ d+ f, r7 I2 D* {' x
    这种情况直接后面加数字呗,_1,_2。。。9 P, z' ?6 }3 K2 ^% N& a9 }
    如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48! e! b: w$ K" `3 F
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
    7 h( {/ K/ W8 v1 v: o' K! C
    等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑 ! c. c1 O& v! P' n! A- x8 g+ n
    ; j% }# P  d6 A7 r9 b& o! C- {0 B
    і̄=& #x0456;& #x0304;( l. o" ?/ w. [6 E3 P4 k
    6 e2 a/ \5 k0 u9 R  G2 [) l( v& s
      H1 ^; Z2 L" d* {8 L' {5 U

    . J4 H  c" p9 O2 n2 G

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑 , U. B, m+ }2 Q

    " K, ~5 \) B9 |感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42
    ! {9 }+ L( w# N4 S& N; y感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...

    : J: q& ^7 e; I* z这回你来晚啦,没你的份了. ~2 w/ K0 {9 t7 R: h
    等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 04:23 , Processed in 0.063339 second(s), 6 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表