掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13: B$ h) L& C0 m2 p3 L5 M) [1 t
我刚截了24副图,对比一下,你用工具可以尝试下
) d/ m* r0 u9 Q* q/ Z& q8 s# }+ j2 G3 K' V% G5 F
http://pan.baidu.com/s/1pJ5WYzp
' {5 B( U% \9 _8 d" U6 D
辛苦!' x& I8 f, p; w& h; T! K5 u8 Z
这样的图片质量,用工具处理完全没有任何问题3 G, o# z, l" J/ h! {4 x1 c, t, m1 c
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
) h6 O3 P; A9 f辛苦!
3 Q9 ?# m. n. |/ r这样的图片质量,用工具处理完全没有任何问题
" U2 Z+ |4 M% t  r( n' v  x要的就是这个效果

% z+ G! s" V2 r. u3 t4 \$ j; lmore than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:293 D6 ^( {5 U& }8 x* z3 B1 O1 \
    认领音标文字错乱,121-172条

    ) D% V8 ^+ K( v- rOK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54
    $ m$ h: _% n- jmore than 3,000 illustrations
    . h- x3 }+ S# p# A* n
    这么多
    0 D" r3 f3 C& w4 s# ^2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领: }1 U1 L5 ~( k% K0 X
       5、图片文本化
    $ Z0 [9 ~0 d# @, g4 B126至200) {  B9 b( c- h0 G1 w
    或分配后剩余图片的任意五十页以上
    5 M* Z6 m$ G: g3 {" S! x* x
    " \% r" w  X3 B: M! b- \2 z! ?$ A' }/ A0 E. c, ~' o
    有OCR经验
  • TA的每日心情
    慵懒
    2022-9-15 17:36
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑
    * t# q0 r- ]6 `' k9 s- {
    empenguin20 发表于 2015-11-7 04:05
    3 `( v9 {1 V! N7 ?# ?4 w0 W+ @鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
    - u  a" W$ [) i- V" n我想问下楼主,音标为何 ...

    ! l/ H; ]/ g5 D- h% s3 `: l3 q1 {. _% w+ i  S6 _
    经过和
    ' N$ U! C; X9 q, Q) _7 C; _8 |https://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后
    * {- U: D  V' h8 n+ S8 s发现文件名为 tbdot*的并不是代表t + b with dot。' _, g+ v  l4 H2 C
    而是代表ṭ,应该代表t下面带点。
    + T7 n$ n$ l* N& V; f
    ( U5 ~: K' u7 U5 k# t- B具体可以参考以下截图:. t  I( s* K+ G. J  S# {
    文档14行如下:
    & e+ [( r) P: o" b2 A3 e4 Z# Z8 ]. c$ u# D
    : A) E+ m1 |  N0 q0 k
    GD中截图如下:
    2 i$ }. v! e3 W& r- I) V: n# ~" C% k' C5 {# E, s: k" D
    + h* }: `9 X( G! i- W: o
    pdf中截图如下:. e. [: S: ]3 A0 _+ X" S  {
    4 g9 Y% C8 q7 B1 E1 ^/ G
    1 E! u! \2 u# V# }2 N
    所以bdot代表的应该是在前面一个字母下加一个点。6 `8 \% I) r% t6 {7 y# ?! Y

    - @3 D+ ~3 d8 |: L/ L* a6 u0 y我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。
    9 S) H' e* _% w# g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray; O* Q0 {0 N; L$ G/ X

    ; u9 r3 Z0 o- i! o% I! l9 Y6 y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑
    . \( K& U5 M  ]' O' p% B. I
    3 D: y  Q. W2 `( B# P( B4 T建议保留idotmacr作为图片形式存在。 原因如下。
    * b% p8 N* o( ~" d目前有三种可以做到的方案:
    & e6 |* @, r$ k- m3 q1. i̅      //此种方案, 头顶是Overline, 故不可取。
    ; [. m0 b$ P& }2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png* \' r8 f! F8 G. O
    3. ī  //同上。
    * i' Y$ b6 r% ~& g% T
    , p2 a/ _7 E" y, f  B另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。4 c: k" n6 b$ H. Y, ?3 r  J

    1 X2 _5 Q. m; ]' T试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34: K- @) b& ?, Y; w* G6 d6 b5 O
    认领
    : k4 y: r9 L! L6 P: N2 A( k% M$ Q   5、图片文本化1 U8 {5 [/ i5 t% ]
    126至200

    6 t3 J. H" g, a都分配完了
    7 O% R% l% S6 M  z% R  z等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31) T: @) d2 x) C, q5 C
    建议保留idotmacr作为图片形式存在。 原因如下。$ j. T( P) h/ |; Q( L$ O9 G
    目前有三种可以做到的方案:
    / M$ |6 U% L' i1. i̅      //此种方 ...

    0 ~; C8 K/ T1 J
    # Y; W8 T6 w. ]: L4 C# [$ z# n这个i是比较头痛,用HTML实体也拼不出来. r9 Q5 a/ B2 _! _. h) ~% t
    e倒是拼得挺像了3 T+ }8 U/ y- d
    本人也尽量争取和原书完全一致7 ^- \! t& X% s- L9 x5 ], A

    , g4 ?/ G7 |7 g) {2 s/ \$ {7 E% D) \( Y. |" q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑 9 M7 x0 M: v# u- D; g- j8 d& E' j
    bt4baidu 发表于 2015-11-7 22:09
    ) i! p: J3 V% Q% [( w$ v这个i是比较头痛,用HTML实体也拼不出来8 X) X" a  R. N% u( _: q6 w& V* {8 [
    e倒是拼得挺像了9 z3 _% i/ a' }; I* c7 y" s# }
    本人也尽量争取和原书完全一致
    8 Q0 [9 X0 U  w! Y

    . W3 F- y$ B! l2 o$ Y參考b大你的方式: E/ \# Z  |3 U' Q

    3 ^9 f7 e4 A+ a9 N) Ghttp://www.fileformat.info/info/unicode/char/0130/index.htm5 I& C4 O' A' O" J
    http://www.fileformat.info/info/unicode/char/304/index.htm
    % u. K! r2 f! a( ]9 s- U* k5 h2 u" f8 Q. d$ x7 \8 F2 w1 {7 f2 A. a# Q" d
    & #304; & #772;3 k% Q' l& ]+ E/ l
    / z$ E# q' B2 ~! J: O+ _) n; o; [6 O
    İ̄ 還是可以合出來  目前快完工了+ H  \- O( ~6 G. B
    0 r! A, E! h- ~. N6 O$ d/ G
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
    " Y6 X, X8 |( z) t6 G% C% p3 p2 A, O7 p+ H7 \) ^( k. N/ D  t
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    $ L0 N% O0 [$ S* l# N( A+ u
      s, O4 r$ ~; e1 m; {編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上- I; n+ V1 F, f# V& S9 w6 V

    * h5 y- A  V+ U# X, M# K: ridotmacron İ̄ 使用下面兩個組合/ Q5 ^0 M+ s4 x4 Z
    & #304; & #772;
    4 E) d# V8 E; j1 y
      _) K8 G; d- z+ N! C* Geacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別
    4 b; X7 t% [! l! |5 S. N, c& #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28
    - f9 J9 i6 u& ^链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f. \! V' G. k; r% c0 x( ~# u

    ' I+ {5 A( w* z6 G% x( X" s5 ?4 c編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...

    / o# i+ t% I) ~! G2 A9 bi用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    , q5 [( c9 z  D& y* _1 I/ r把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    6 J& Z4 x: G: A% T! E从empen ...

    ; N7 z: G. K* o0 Y* {0 C- I多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43* s/ k. \* r8 Z" R
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    1 f3 ?% L/ X) ~4 |从empen ...
    " R  L" v; v2 x8 a5 ]
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52
    / f1 K' V4 E$ p; Q; Y原本的範例裡面是用ḗ 取代e DOT MACRON, & U1 h6 e  W: k
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...

    : {( K% s# k8 W* t我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑 ! O/ ]# h: z5 c: R
    bt4baidu 发表于 2015-11-7 18:28
    7 c6 c4 V& b* u) e, `) a! l8 J( U这么多
    5 w8 `* r  X  O3 p4 n) X: h& |2200页每页至少一张图?
    * |! _$ p* f! t, J9 D, I' O% W! ]
    : Z; H) F0 L7 c  m% D7 G, U
      已经截了300张了,原来美图秀秀有批处理功能 % j8 T5 W' V# r' v

    4 [1 @6 Y: P/ T0 `* h' V  z; I问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:570 q3 w2 _# A6 ]0 W# N
    已经截了300张了,原来美图秀秀有批处理功能
    & R! e$ ?! Q- v( C, K+ _3 B
    ) z$ P3 q0 V6 J. Q% {问下这种情况怎么处理呢:同一词 ...
    % T% V" W) k7 T6 _$ Z5 c) ~
    那真是极好的,科学技术是第一生产力4 [9 s. F! ~  j8 Q( b: H, A
    5 o" F& h& n- X# Z- k) {& G
    这种情况直接后面加数字呗,_1,_2。。。
    % c. n) m' l- b: b4 o+ b如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48
    5 Y$ x5 ~% v) U8 ]看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
    & o" {2 B# K9 u. W! T
    等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑 % v9 \; T, v. ?
    ' \; W! N' C+ C- ^% ]2 d( q
    і̄=& #x0456;& #x0304;# C6 X, \& ^5 u) |( s' |# H; e

    - c9 s& ~9 {2 A2 ^( X9 l6 h; T
    * o* Y5 L' [! E
    * n$ E! H3 s* }9 K

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑 % ?  b* R( i$ l2 o
    : R. }9 I& u, t+ G
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42" l6 ~% ~* H+ f. Q
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
    & K/ q1 L) @" s: o6 o
    这回你来晚啦,没你的份了
    2 ~1 r# u4 [+ n3 z* R: b  B等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 15:55 , Processed in 0.054083 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表