掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13+ |  L5 ^! Z/ q/ r/ |' q' J+ Y) H
我刚截了24副图,对比一下,你用工具可以尝试下
9 e8 F  F$ J5 T4 W4 F7 ~( L' l4 B& @+ ]' F
http://pan.baidu.com/s/1pJ5WYzp

% {& `. a# n' }9 a1 U% w5 q) _0 p& Y辛苦!  i) {2 \; k  ^9 ^) _$ I. N
这样的图片质量,用工具处理完全没有任何问题. b1 c$ f9 d2 B
要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
+ C- ~1 `. v: Y. g, C5 l1 b( W辛苦!7 L% L6 G7 g1 U' Z
这样的图片质量,用工具处理完全没有任何问题- a& f, ^9 V' f! i4 z" T
要的就是这个效果
8 V1 N. _" J! {( x, E
more than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29
    8 Z7 [( \# S& H认领音标文字错乱,121-172条
    9 d5 T% x1 R) z' ?+ ^; j0 F6 S
    OK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54
    * N! G8 @) m' g, Wmore than 3,000 illustrations
    ' K  J$ U: g# M% n# f) |
    这么多
    : a3 G: o- T: Y1 h- o" S3 Y2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领
    6 j1 U" X1 c( b; o5 E   5、图片文本化6 Z, k; m7 D8 h7 ?9 E" o
    126至200
    * I1 J% h9 ^/ r# P& y* l或分配后剩余图片的任意五十页以上# j2 k& z( G9 w3 Z
    % `' ^( E+ }% e- Q2 u
    + a9 N% w1 _4 E; s+ w1 v2 W
    有OCR经验
  • TA的每日心情
    难过
    2024-5-6 14:10
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑 : V( g; K- r5 v3 S3 _: l  T
    empenguin20 发表于 2015-11-7 04:056 ~2 q4 w9 E/ [+ s1 k8 G5 F
    鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。
    * e* p& N2 _7 z5 m( l& H& |我想问下楼主,音标为何 ...

      j2 Y% j7 d! _5 X6 y" B# C/ X5 Y+ ?  }* j* i2 I
    经过和
    ( g2 n# D5 I. E) r: Yhttps://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后0 P, a' P% [# W$ e( V# M' h
    发现文件名为 tbdot*的并不是代表t + b with dot。
    1 ~; `9 \8 U- ^$ t而是代表ṭ,应该代表t下面带点。
    $ u7 H- D2 |7 g1 Y
    " L  R! o4 R; e: l+ [# }  }具体可以参考以下截图:
    % V- Z& x6 ~; @( k' e# P3 [2 h文档14行如下:
    4 ^- I' P) h2 V9 U5 S1 I
    1 m3 G$ w7 _; t3 E" {2 _0 l! C3 M0 ^3 i  {
    GD中截图如下:
      [5 T- y) Z8 O' f
    / a- [/ i& [5 [! f0 y# A2 m$ m+ z( t! u7 X$ i; A, ]
    pdf中截图如下:
    , z# Z: g1 A9 E" g8 ~
    8 w* \: j+ R$ c9 X
    % w+ e2 j8 \# N; s% G所以bdot代表的应该是在前面一个字母下加一个点。
    1 \& Z- k* ?  ], W4 l/ q5 I7 G5 a% w2 }# j/ n3 G" h
    我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。
    4 [3 j8 a9 @& L. H+ T  q9 O

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray
    ; s" V8 z4 j- g
    ' M* t. {; T3 H. v1 T

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑
    ) W( l! Z, Q/ O# ]( }$ F4 A$ [! a# o  z; H$ m. f2 R
    建议保留idotmacr作为图片形式存在。 原因如下。2 X6 t. L2 D; V9 `
    目前有三种可以做到的方案:( u. W( o) ^8 ^$ W* j6 ~& R
    1. i̅      //此种方案, 头顶是Overline, 故不可取。' ?7 V! l3 J& h$ h' P
    2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png6 j3 W( k( c8 A' L7 \8 {
    3. ī  //同上。0 ]$ D; q* r; s! |% h

    : Y, J$ {8 {( f0 P5 w7 i另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。8 G4 f7 i& r* U) Q7 `

    * u4 n1 f' U( R4 B# |; O% }! Z试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34
    3 k$ X, h: v( n( w认领
    9 }) t# K9 v( b7 Z& V: n$ i! d* @, M   5、图片文本化# q: e7 J4 k! r
    126至200

    0 ~9 e" l; t! `) a& Z7 b' g' E/ Z+ J  q8 }都分配完了1 k: \' F4 o/ R& B& |! _4 @
    等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:31
    % F' P6 A% g9 R1 @* U建议保留idotmacr作为图片形式存在。 原因如下。
    . Z, M4 t9 n3 n% b, M目前有三种可以做到的方案:
    2 h9 O& E3 y8 ~$ X. b) e' @1. i̅      //此种方 ...
    1 t: e, S3 U' k5 d- j
    7 b* Q# D" b& l- c6 |7 m
    这个i是比较头痛,用HTML实体也拼不出来
    ) m& v0 O, s6 p4 X6 n- Fe倒是拼得挺像了. @& c' f4 m1 C# }. p
    本人也尽量争取和原书完全一致2 V7 y% T& i6 Y9 n5 h$ t
    7 Q& M. f' z* o  v

    ' l3 z: u+ X+ Q" D) N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑
    9 ]- w6 [; b- y) d, t  e" C$ V
    bt4baidu 发表于 2015-11-7 22:09
    # B6 q- C3 v! s5 O这个i是比较头痛,用HTML实体也拼不出来: V& ~* T2 R1 l7 x/ [  U
    e倒是拼得挺像了1 o$ d3 o$ \. x4 r$ q7 L6 I
    本人也尽量争取和原书完全一致
    7 n' A! H6 v3 L8 n2 N% E4 X
    5 z& F0 ]8 s  {" Y9 k: i" R
    參考b大你的方式
    ) Q) R2 z0 A& q6 ~& t; J& a2 T
    ' |. S5 {5 I2 r4 Q& ghttp://www.fileformat.info/info/unicode/char/0130/index.htm$ H0 H8 j/ a7 z( z0 s" Q& Y* @# S1 F
    http://www.fileformat.info/info/unicode/char/304/index.htm7 S! C0 G( Y/ |/ D) j! n2 |

    3 _3 j1 j) G3 N0 T* T5 ~& S& #304; & #772;- }9 q, {/ _5 o) _
    ( h* J* b+ n  T* ^6 ?; Q  v$ O) h5 F
    İ̄ 還是可以合出來  目前快完工了' J; a# S7 X1 T6 j6 [. `/ z
    . ~& o: q9 {, ]3 b8 H
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
    ) W( v9 W9 L% I# h* o, I. J2 R9 r" s, l+ O
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    ; V6 b, i8 V* B) B! V
    % x) D! ~' q  T編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上
      m4 C, h( I- P. F$ Z3 a0 [- P
    7 T3 L: K" i: w6 s% yidotmacron İ̄ 使用下面兩個組合) P5 a+ I. ~% ~! _+ j
    & #304; & #772;
    ) c) M) \; L9 {( X2 i9 c# q7 `( E$ s. d
    eacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別0 K1 U. U: S2 K2 y
    & #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:28: W6 c% O! |1 r  z( p# O2 y0 g
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f
    : N7 z9 n$ B0 H7 R( w2 r
    4 D+ i9 C( H# ^$ G編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...
    - y% n; H4 Q9 n- o& V0 {( ?* B6 L. ~
    i用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43) }2 D. |6 w, X9 q6 I. t; j
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    / U9 t/ Z8 t" s/ a从empen ...

      \5 N5 S7 H) z) i; f' i" p多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    * d+ @# C7 D/ O2 C, M, m7 U把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。! S/ r; L7 H6 Q  U& }, x' X
    从empen ...

    9 e4 L! y7 @& h7 o多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:52( p. {3 V& I+ I# ^  R$ b
    原本的範例裡面是用ḗ 取代e DOT MACRON, 2 x; D; W' Z8 z' e0 O% Q0 P
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
    / j- d" z: {& d# b- Z
    我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑 9 g+ ^# q9 e. L8 U/ h6 a8 W
    bt4baidu 发表于 2015-11-7 18:28( [$ Z" x7 a1 p! R
    这么多
    # Z5 P# `( n, ^. j8 d3 e2200页每页至少一张图?
    $ T. S/ x, j4 i* O0 g2 Q  w

    3 @. J, @/ W  Q3 n& F  已经截了300张了,原来美图秀秀有批处理功能
    ) S, h" z+ u! |+ R  M4 X1 v$ H+ d3 W8 B8 G3 @; N
    问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17

    该用户从未签到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57
    3 r5 v" i; a0 E' [0 B* y0 h0 f已经截了300张了,原来美图秀秀有批处理功能
    ' Z" |5 }2 U! V$ }' K2 E+ ~5 Q2 \3 |' _! q" W4 ^  C1 b
    问下这种情况怎么处理呢:同一词 ...
    . T. z! {  Z1 [8 N+ P
    那真是极好的,科学技术是第一生产力: j, P; j* x4 f& v& c. d1 X
    ) h; q/ x$ l& i3 s" r+ A5 g/ F
    这种情况直接后面加数字呗,_1,_2。。。
    $ ~) A7 A1 x+ o# z/ C0 v9 p如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:488 f$ ]( k" m5 a/ o0 u# J% [
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
    $ w9 d2 u4 ?# I& `, H
    等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑
    . I5 ^4 v. a2 T. S9 S
    / h& c) ^9 B  K1 H0 L8 ^% Bі̄=& #x0456;& #x0304;/ m8 W  I+ ?+ K, U# \4 P
    . L. v6 D" E+ H( U! j
    - k5 d7 }; e" s  q+ z; E
    4 E% Z' ~; o- P- b: C

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑 - s* H8 i$ O  ?. ]/ _
    + F7 |/ ?7 w! @  j$ e% w( u9 S
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42# @3 D. V. f& z: |4 j
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
    & q( J2 F: i' p( R  e$ m
    这回你来晚啦,没你的份了- |6 a7 g: p6 }4 w! O
    等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-12 00:43 , Processed in 0.023657 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表