掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[词典校勘] 【精校人员募集】World Book Dictionary, 2015 勘误专帖

[复制链接]

该用户从未签到

 楼主| 发表于 2015-11-7 15:28:41 | 显示全部楼层
mitkyg 发表于 2015-11-7 15:13
+ i2 T3 M: p4 m% w& \我刚截了24副图,对比一下,你用工具可以尝试下
* I( T  z& B/ A" u7 ~  o2 R  }
: g) c2 [. U/ c6 H# n& N( X7 Ihttp://pan.baidu.com/s/1pJ5WYzp

# B; Q( L% {" e( B/ |+ ^6 o辛苦!  G& t  E! J; N7 a; e$ w0 {* M
这样的图片质量,用工具处理完全没有任何问题
8 t% u1 U: T$ c0 E  g要的就是这个效果

该用户从未签到

发表于 2015-11-7 15:54:55 | 显示全部楼层
bt4baidu 发表于 2015-11-7 15:28
: J# g0 K% w  n& n" f辛苦!" L! @( q6 t- F' @, U$ |4 ?3 O
这样的图片质量,用工具处理完全没有任何问题# K1 @4 z; R0 N7 z7 e, Y
要的就是这个效果
3 K) v( P9 \% w: M5 V& ?$ l
more than 3,000 illustrations
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2015-11-7 16:29:41 | 显示全部楼层
    认领音标文字错乱,121-172条
  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 357 天

    [LV.8]以坛为家I

    发表于 2015-11-7 18:15:26 | 显示全部楼层
    BT大,图片文本化有585条?我看correct.xls里面只有几条啊

    该用户从未签到

     楼主| 发表于 2015-11-7 18:22:13 | 显示全部楼层
    duancj 发表于 2015-11-7 16:29
    ; l2 v; A' Z6 d! G认领音标文字错乱,121-172条

    & z0 o  U1 E, }3 |OK,已标注

    该用户从未签到

     楼主| 发表于 2015-11-7 18:28:10 | 显示全部楼层
    mitkyg 发表于 2015-11-7 15:54
    ( m% E, j7 L# ~more than 3,000 illustrations

    ( D4 q/ z; P$ S3 ^- R: L这么多
    7 y8 w2 H) e9 ?2200页每页至少一张图?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    发表于 2015-11-7 18:34:16 | 显示全部楼层
    认领# E$ n5 x$ Q4 Q$ I" h- `
       5、图片文本化
    $ k4 J5 x; t8 O126至200
    + D6 I8 r8 s) k3 `+ L" i或分配后剩余图片的任意五十页以上
    $ ]8 a$ Q* ?' v1 f  A( S2 J$ t/ k4 K9 P; j: U

    ) @0 N% [/ i( K  P8 N. L6 a有OCR经验
  • TA的每日心情
    难过
    2024-5-6 14:10
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    发表于 2015-11-7 18:47:52 | 显示全部楼层
    本帖最后由 dhs1001 于 2015-11-7 18:57 编辑 $ r$ U: t" b" w7 }. ~2 F$ V
    empenguin20 发表于 2015-11-7 04:05
    9 U7 C% S( i$ S4 Q鉴于楼上都不严格按照规定数额认领,我也来凑个热闹。认领图片文本化,65至125。0 n: J4 \+ Y0 {  ]5 g
    我想问下楼主,音标为何 ...

    ' C4 ]5 K; ?9 A7 V
    ! C$ T, ~& K* q8 x经过和
    # I0 }7 B& X! C9 E" Y( uhttps://www.pdawiki.com/forum/fo ... hread&tid=14587下载的pdf扫描版书对比后  \% B0 L0 T/ }
    发现文件名为 tbdot*的并不是代表t + b with dot。
    7 b1 d9 g& m. y7 t4 q+ l而是代表ṭ,应该代表t下面带点。
    3 g8 `- w+ V1 O8 h3 }( L6 x
    $ T" Y4 p' ~  e8 L9 u& n1 N9 f具体可以参考以下截图:
    8 Z- f. B! O2 m文档14行如下:8 i# h- D) M" B; d

    4 {, W2 l" h5 ?+ S4 {
    # O9 J6 M) v% Z# s( CGD中截图如下:; s' H; s9 x) d

    ' |5 a0 r& ?  {$ Z- V
    4 U$ l2 \. o  {' Zpdf中截图如下:) `2 ]6 F8 m# W$ |/ J# w+ Y9 y
    + t5 s$ F# L# H  k6 E5 A2 |) ?
    3 F3 _- s0 d, i! X5 D
    所以bdot代表的应该是在前面一个字母下加一个点。
    & Q# I/ [5 e9 m
    5 D3 T9 C: ^6 H5 c5 S我把我提供的部分按照以上发现已经进行修正和补充,并把更新PM给bt兄。: T) A$ U3 d6 e6 g5 X, @! C) i

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:01:51 | 显示全部楼层
    已经完成音标文字错乱部分3-60条。错乱部分用红色字体表示的是相比于原文件缺少的内容。比如词头arbitrator,原文件错乱部分是AHR buh trma> ,其实后面的A也是错的,应该是trma>A替换成tray/ [3 j, P6 c& y. X1 z6 m

    8 h" W# K- t  I7 s& H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-7 19:31:48 | 显示全部楼层
    本帖最后由 css 于 2015-11-7 20:08 编辑 ) C( r# a3 n4 V
    $ X" N' q( H$ F1 ]
    建议保留idotmacr作为图片形式存在。 原因如下。1 V& _& }2 J, c: \9 d# K( G
    目前有三种可以做到的方案:
    ! u* G; w! b; v2 r$ R" u1. i̅      //此种方案, 头顶是Overline, 故不可取。9 o8 Y6 L1 ]- K+ V% o# t
    2. ī (见Fuxy526 chiasma条目文本化结果)  //此种方案与PDF|原书恐都有差别. //这个字符是“U+012B LATIN SMALL LETTER I WITH MACRO”, 虽然与文件名符合,但实在是不像。//更加重要的是, 本字符事实上已经被在线版文本化, 如果是同一个字符, 在线版没有理由单独将其图片化。参见附图PDF截图之chiams.full.png
    * j# ^$ t" `; w  P; A& Y+ M3. ī  //同上。1 k8 X: V* X. `, j5 U6 B# L

    + m: y3 f. }8 X' V' r另外: 可以考虑再行参考不同版本WBD, 再做结论。O版上传的79年版PDF就与在线版的字符不一样。如果采用其他字典的对应字符,如果要严格说来,是推定, 而不是原样文本化, 恐怕也不是很合适。
    # l5 v' q+ p8 ~1 N0 u8 a1 I* S- s' e- t* f) v: E# |6 _3 z
    试比较:

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2015-11-7 22:07:01 | 显示全部楼层
    dictionaryfan 发表于 2015-11-7 18:34
    ; y5 ?& q" C' O& S认领$ ^9 O7 _. E3 r$ j$ {
       5、图片文本化0 s$ k" {9 q( M4 z+ ~3 P; d
    126至200

    7 J9 O1 f# Q2 ?+ N都分配完了
    $ m6 {4 [+ H6 D) F% B3 W7 w6 E等着后面校对的时候再参加

    该用户从未签到

     楼主| 发表于 2015-11-7 22:09:08 | 显示全部楼层
    css 发表于 2015-11-7 19:315 L6 \9 M' L' i9 p+ K
    建议保留idotmacr作为图片形式存在。 原因如下。
    / F! B" q& G- ?* |  v目前有三种可以做到的方案:
    * M* q# z' M/ Q3 K1. i̅      //此种方 ...
    . u( u, p+ ]4 D9 P. i

    , I0 K+ T* l$ u( \" v: W这个i是比较头痛,用HTML实体也拼不出来
    " i. s9 ?8 f5 c+ `% E6 ]/ pe倒是拼得挺像了
    9 U) C% i6 q% C本人也尽量争取和原书完全一致+ C/ M# ]/ ?) Z5 w
    / e1 D+ a7 @; L  w2 g' G0 }1 H  I
    4 U% K6 g" g. ^# {  F0 R$ Q6 d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 22:48:37 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 22:51 编辑
    . |; z8 `; o+ |' S4 c
    bt4baidu 发表于 2015-11-7 22:090 u4 k, N; M/ X7 H9 G
    这个i是比较头痛,用HTML实体也拼不出来- p( V, g9 ^, N
    e倒是拼得挺像了1 h! G7 q% p4 `& \1 E4 F9 j
    本人也尽量争取和原书完全一致

    $ s5 y, r  `5 E0 ?% o# K, Q( F  R, V
    參考b大你的方式0 h9 l- ]: M* V2 e# S, F

    + Q+ @. e# ?! g/ B. [  \http://www.fileformat.info/info/unicode/char/0130/index.htm
    8 A7 e8 Z+ g' A6 N* V( w, qhttp://www.fileformat.info/info/unicode/char/304/index.htm  ~) d6 n8 S0 n1 H3 _; I& y  q
    9 c! H. f6 p. g( c
    & #304; & #772;# G  }7 A3 p) \8 ]5 ^2 J2 Y9 L8 t
    $ b; \: r/ b9 `8 C
    İ̄ 還是可以合出來  目前快完工了' e  ^; S; V1 K' D* L. R' Y" Y  r
    ' Q6 p) _) N& Y0 g7 U9 c
  • TA的每日心情
    奋斗
    2018-7-4 00:34
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2015-11-7 23:28:11 | 显示全部楼层
    本帖最后由 qazqwe 于 2015-11-7 23:32 编辑
    : M8 b6 [3 @( V; z8 z# s3 o4 {! C, Y" V& S6 D* w+ v7 u% O
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f& A" }  F: S; b+ N

    % r) k$ a/ }2 e" r. R編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部分 49項lin -> lan), 把消失的bdot都補上( |  O" C( {; c' T6 n" ^

    9 V, J9 i( W8 [& Zidotmacron İ̄ 使用下面兩個組合, y4 L. ^0 Y$ H2 n0 G5 i4 E
    & #304; & #772;
    2 z, n; A- q3 G/ D4 d
    . M# ~) g6 D/ C; a4 beacutemacron é̄ 使用下面兩個組合 與 edotmacron ė̄有些區別, k- P# W% @- h) w& d
    & #x00E9; & #x304;

    该用户从未签到

     楼主| 发表于 2015-11-8 00:19:40 | 显示全部楼层
    qazqwe 发表于 2015-11-7 23:284 m) I$ V' J+ `0 p; ~/ U- Y1 I- U& a
    链接: http://pan.baidu.com/s/1pJ4BfUr 密码: hu8f" H! f1 t2 K/ O' _& l
    0 T, J# }! ^0 x
    編號1~65都有重新校對兩次 (包含dhs1001兄幫忙的部 ...

    ! Q3 ]  z+ b) W0 @! s# f+ }4 C( J. Si用& #0456;和& #0304;拼似乎效果更好

    该用户从未签到

    发表于 2015-11-8 01:11:22 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:43
    # N2 j* {) b: Q! P+ N; ?7 F把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。: M1 h$ {' H+ `$ m2 y$ s# w4 ~
    从empen ...
    % n; e/ u3 T+ @
    多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:11:34 | 显示全部楼层
    dhs1001 发表于 2015-11-7 10:437 A' ^/ j3 V1 i8 f
    把9楼empenguin20兄的下载回来看了一下,发现对于ryuya兄所提示需要对照文件名存有一些疑问。
    2 w* ?1 |; v4 i( R+ n+ Y+ N从empen ...

    + p: O& I1 J" N多谢你细致的检查。刚开始做时神马都不知道,上述规律都是一点点摸索出来的,所以有前后不统一之处。已经修改。关于o,我以dictionary.com为标准,发现很多地方用的都是with acute,而且wiki的页面上也找不到o with macron and dot above。

    该用户从未签到

    发表于 2015-11-8 01:27:46 | 显示全部楼层
    qazqwe 发表于 2015-11-7 11:525 \, I. B/ u7 a) w
    原本的範例裡面是用ḗ 取代e DOT MACRON, 7 `: L* e' `6 W3 L3 y4 ^. e7 @# A- s
    有些是真的找不到, 像是LATIN SMALL LETTER y DOT MACRO ...
    # e! \* F5 ?1 R& ?
    我觉得,遇到with macron and dot above的,统一替换为with macron and acute吧,保证一致性。希望懂英语的前来指导下。

    该用户从未签到

    发表于 2015-11-8 08:57:08 | 显示全部楼层
    本帖最后由 mitkyg 于 2015-11-8 10:20 编辑 7 a, J, G# A& t7 e' l4 s) q
    bt4baidu 发表于 2015-11-7 18:284 b# O% u1 _" m" v4 s5 s
    这么多
    ; p& U7 S3 b$ o  f# O8 \2200页每页至少一张图?
    . v/ i; X, h" {5 @& \/ M  C
    3 c2 z& ]9 [9 p7 a8 G$ k" J! L
      已经截了300张了,原来美图秀秀有批处理功能
    ' A$ y: F, ~0 @, i. L3 \8 U) h
    4 g% m7 E0 H5 O. T问下这种情况怎么处理呢:同一词条下有好几副图,怎么命名啊?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    可继续处理多余的空白,进一步缩减体积  发表于 2015-11-9 23:17
  • TA的每日心情
    开心
    2026-1-23 23:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2015-11-8 10:48:03 | 显示全部楼层
    看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量

    该用户从未签到

     楼主| 发表于 2015-11-8 11:49:18 | 显示全部楼层
    mitkyg 发表于 2015-11-8 08:57
    2 C  w) i. _2 Y, G8 O5 a已经截了300张了,原来美图秀秀有批处理功能
    ! [" V, [9 C' k2 g
    3 z# Y& w; Z" D, c; {+ W问下这种情况怎么处理呢:同一词 ...
    - R- x- }: k) u; p  ?1 x
    那真是极好的,科学技术是第一生产力
    % S/ h2 ^. `; T6 K" @  f  V9 q) B  a
    这种情况直接后面加数字呗,_1,_2。。。6 }8 [, L/ ?4 c# |" `
    如果位置比较近,索性当作一幅图处理也行啊,除非太宽、太长

    该用户从未签到

     楼主| 发表于 2015-11-8 11:50:01 | 显示全部楼层
    zhlpen 发表于 2015-11-8 10:48
    ; ^5 U% H& j3 k& r! e6 B6 a看到的较晚,没能跟上,本人有OCR的经验还有那部分没有完成,愿意贡献力量
    7 X; f5 z$ R4 o
    等着做正式发布以后的校对吧

    该用户从未签到

     楼主| 发表于 2015-11-8 12:32:53 | 显示全部楼层
    本帖最后由 bt4baidu 于 2015-11-8 12:34 编辑
    5 V) g5 J2 d6 G: z& I
    - B& Q+ I) s: r5 s. `і̄=& #x0456;& #x0304;
    7 G* R& S) B# C. m
    2 X2 m2 d6 [- A: f( s# x6 X0 r" U! c/ o6 f0 x& P+ N
    . ~; p3 V2 x/ Q; W1 p: x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2015-11-8 13:42:44 来自手机 | 显示全部楼层
    本帖最后由 houbible 于 2015-11-8 13:48 编辑
    ! }+ S% `1 C# g) T# d6 `! v5 d4 p+ E( F1 ~
    感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请安排一份。谢谢!

    该用户从未签到

     楼主| 发表于 2015-11-8 13:56:31 | 显示全部楼层
    houbible 发表于 2015-11-8 13:42
    ( B3 c% E  @# x0 R7 K感谢bt4baidu大神组织这个词典的校对,今天才看到这个帖子,不知是否还有剩余的工作可以认领的吗?若有,请 ...
    , C6 L4 R* ^  B2 }7 v( r
    这回你来晚啦,没你的份了& {5 R1 p' g( b1 t/ e8 B7 ?3 a& J) N
    等着后面做校对吧
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 18:09 , Processed in 0.020566 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表