掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7038|回复: 49

[词典校勘] W.B.D.2011完美版精校人员征集

 关闭 [复制链接]

该用户从未签到

发表于 2014-8-21 19:43:15 | 显示全部楼层 |阅读模式
本帖最后由 bt4baidu 于 2014-8-30 13:47 编辑
/ k- r+ E2 d. }' U  ?+ {+ D! T6 C' E; w
蓝本为参与某词典文本化时从O大处获得的最新world book dictionary2011版。非常好用的一本词典!
, t3 n; y; a9 e8 Q9 r6 l收词量大,解释简洁易懂,不罗嗦;难易度介于学习型词典和大学词典之间,适合作为学习型词典向大学词典进阶的过渡。

& A6 ~! q+ r: g. ~) ^. e" P关于该词典的好处,详细说明见O大的帖子:+ z( O- k0 \' @; K, O5 x% n8 ?
https://pdawiki.com/forum/forum. ... &fromuid=176917
; S+ d; x( ~/ H/ i
" y3 m, x: v* m6 m+ {6 P8 n, F因其数据、排版瑕疵较多,不易阅读,故将其精排。
) _3 F- H7 J" S: r(已修复的瑕疵和无法解决的问题见:https://pdawiki.com/forum/thread-11446-1-1.html" V5 `  h  o; n  [; u( \
1 U& D  K, `- H+ J, ?" Y
经过本人用程序格式化,目测排版完成度在95%左右,剩下的瑕疵过于琐碎,已无法用程序批量处理。
" U6 W! U7 f: ]6 H' v因此欲招募10~20人左右人工挑错、精排,做出完美版{:10_301:} 。( L8 t% Z5 W+ o8 s+ i( ?( M
: h$ _' u+ N! a" \
几点说明:
' u0 u7 {6 Y# Y4 R1、参与人员限手里已经有WBD2011的同学。因为该词典原系O大制作,本人无权共享词典数据。" b% K/ b2 }" M+ C; ]3 p4 }
手里没有该词典,但希望参与者请和O大商量(交换、参与文本化等等,O大显然是不会白给的{:10_268:} )。8 ~3 p+ s( ^/ B& l2 e& A" e% Z+ X2 T
2、报名方法:请给本人私信,并附WBD2011的任意词条查询结果拷屏,否则视为无效申请。
9 k$ t$ k3 e( H5 l1 Z4 v$ l3、报名满10人即开工分配任务,满20人停止招募;多出的人员作为候补。9 Y; s6 W0 Q$ I& P0 r; g$ P
若本周末报名参与人数不满10人,则已报名者先开工(分配不超过8%的任务);% K2 f4 }. R! z
校完不超过8%的文本后,即可获得当前最新校对版成品,及最终版成品。
* T& ^8 J+ Z7 |5 h3 M- ^4 B
4、有三个单词un、non、pre-里有大篇的单词表,浏览甚为不便,且意义不大,因此删掉了。
0 O0 T5 L$ n$ ?2 Y: S5、作业方式及要求:
' F$ c; m2 y6 k3 K
主要就是使用chrome、IE等浏览文本;或者编译成mdx,用mdict逐词条浏览;没有技术含量,但要求眼尖心细8 t, C, q/ M$ ]. X5 P: P
发现可疑处,对照WBD2011原版及WBD旧版(宇宙盘里有)确认;
1 h2 s) v6 u" j9 Y4 U  I, \; q找到排版错误或数据错误后,如果是比较有规律的错误,最好回复此贴通知本人修改,如果是个别现象,可顺手修改,也可以通知本人修改(指出某词条第X义项)。6 E: N. P' X, x+ W; q$ d
就是说,允许只挑错、不修改。实为茶余饭后的好消遣!
) Y7 c, ^( m( o! Q. Z. e9 C注意:千万不要改变编码(UTF8无BOM)、不要增加换行(请使用文本编辑器的软换行功能),8 r( A7 m# c( D+ Q
同时不要按个人喜好改变样式(已经CSS外置化,拿到最终成品后自己想怎么改都行),否则各部分无法整合。

$ |, w8 x& a1 |) {! s6 H6、时间要求:因为工作量不大,打算一周到半个月内结束;即所有人员一周至少要校完50%,反馈一次(给本人私信);
" P2 k! T- ]) i/ P2 F拖延无反馈视为主动退出,将不会得到最终成品。请量力而为、考虑自己时间是否许可,再决定要不要参与。
+ m3 h/ t9 O9 p4 w
8 n9 x" _: a6 t0 g, a+ D: n+ T排版后的显示效果见附件
) R; h8 d' k% N7 o( o* j
: e, I- ~1 U1 ~' x# M8 q! ?* u. N" {. R1 l% Q
样式具体说明见图:! q7 @8 _. F8 T/ J* k3 u- H2 F  f
" K) s+ Q; Y! z$ ^

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2014-9-12 17:56:43 | 显示全部楼层
本帖最后由 mitkyg 于 2014-9-12 17:59 编辑 . H$ k( k2 Y' |( t: U* ?
bt4baidu 发表于 2014-8-29 00:04
; D+ r3 B; z. J第一轮校对顺利结束了!8 C# }; i4 w7 p& i, v) w# E

* x. S+ J/ ^9 P" C: h, X' V请各位参与的同学下载最新版,链接没变,不一一通知了。忘了链接的发 ...
( p8 C; x0 p. b: U+ G  D
1 R: `3 N+ {0 J  I  p
bt兄......world book dictionary 地址链接不存在了...论坛消息也没用..... U. r5 W+ ^$ d" s( J
盼再分享下 , 地址发邮件吧 jidakanyuguang#163.com 感谢

点评

论坛消息已恢复正常。  发表于 2014-9-12 19:46

该用户从未签到

发表于 2016-6-6 23:46:11 | 显示全部楼层
bt4baidu 发表于 2014-8-24 22:02
9 ?2 l" j) O; A9 u所以说用户群就是个伪命题,大部分都是围观的看客,只有极少数才是真正产生利润的
1 |7 {( ^+ v7 Y7 v3 y1w人的用户群和100 ...
0 f- H, l- ?/ ?: T! @* J
完全赞同。精英永远是少数。

该用户从未签到

 楼主| 发表于 2014-8-21 22:24:26 | 显示全部楼层
参考数据:6 }# ~; ~6 o1 D7 c2 A2 }8 U
词条数:133904
% Q' u6 I  N. cHTML文本:80.4Mb

( z3 @. P5 i4 F# r: k0 U, t" ]: Y& q0 j9 ^* o9 B1 k& {
每人只需校对6~8Mb,即可获得全部文本!9 d% w  K6 }: m( ~" f9 T5 L3 C! Q. t, n

$ @6 J  o4 W' k- W! Z* b

该用户从未签到

发表于 2014-8-21 22:38:23 | 显示全部楼层
= =想试试,奈何时间不允许。

该用户从未签到

发表于 2014-8-22 05:31:55 | 显示全部楼层
本帖最后由 Oeasy 于 2014-8-22 05:35 编辑 + ^/ K3 y9 U, o* z: d

% P: q0 g) s7 r
7 T: b1 q1 d1 V" X# \* g9 @9 ?: `. t+ n5 m$ m( D4 G, `- b
perfectionist 和 aesthete 才会参加。
; j- Q: g) P$ N$ u6 I1 _) q; R/ K其实,全地球上,我知道的有那个WBD 版本的mdx/mdd的,不超过32人,从中要募集10~20人,这难度很高。不过就算发布出来,所有人都可以下,还是招不到几个人的,然后可能还是单兵作战,再然后可能就不了了之了:这是文本化、合作、分享的一点切身体会。0 g# s% N. U+ E& S$ |' e
% }5 _2 W+ a# q0 C
{:5_227:}
. z  i: p( X! Z+ j9 \7 N9 N5 g/ h+ r5 f1 V
    1 P! Y2 H7 I& g7 e8 w( O8 ?& K7 B

该用户从未签到

 楼主| 发表于 2014-8-22 09:52:10 | 显示全部楼层
Oeasy 发表于 2014-8-22 05:31 2 C. j6 ?8 g8 ~* Z' Y
perfectionist 和 aesthete 才会参加。 3 K- G0 P9 }2 `* U( a% b1 T
其实,全地球上,我知道的有那个WBD 版本的mdx/mdd ...
! L6 x; \; \+ K  q5 f
O大你有兴趣吗?作为WBD的粉丝{:5_227:}% A% Q/ o6 E6 @, c! L

8 l/ ?0 j: Y1 k分你一半如何?
* E7 n# P8 |. }% W' J===
, L# {9 `/ o5 d5 Z8 T% D目前完成度已经超过95%了,数据都在,只是由于网站瑕疵的影响,有些词条没有完全排版正确/ Q: A* U3 ~7 l$ x
没有特别影响使用的问题;如果不是完美主义思想作崇,直接就可以用的4 w1 r6 _! U# ?* H; j
所以没有不了了之的问题
  F' a4 `- m* T$ u# X

该用户从未签到

发表于 2014-8-22 10:18:31 | 显示全部楼层
本帖最后由 meigen 于 2014-8-22 10:20 编辑 ( N2 y/ v" N# p" l
9 f* j6 A! s0 }$ Y8 |& B/ J  z- `
难得又见到一个非O版发的校对帖/文本帖

点评

欢迎参与  发表于 2014-8-22 22:13

该用户从未签到

发表于 2014-8-22 11:41:57 | 显示全部楼层
本帖最后由 mitkyg 于 2014-8-22 11:52 编辑 ( ^' L, ^3 P3 ~

) P$ `6 x# K3 A我先报个名{:5_222:} 非常喜欢wbd(王八蛋){:5_186:}
" j% Q, a' T2 B! M

该用户从未签到

 楼主| 发表于 2014-8-22 11:54:56 | 显示全部楼层
{:5_227:}7 b6 h/ q. X6 V2 C) K: r" h
3 h" k1 u. u/ G+ b
我自己看了差不多1000个词,大概也就不到10个词有些小问题
4 A, X3 g  I4 e; r( p3 M发现对瑕疵有些高估。。。完成度应该在99%以上

该用户从未签到

 楼主| 发表于 2014-8-22 12:42:57 | 显示全部楼层
说英汉大词典以WBD为蓝本也不为过啊,排版、词条数据组织形式太相像了,有些单词甚至连义项的条数和顺序都没变; R  B' s" T; {) o8 A# k$ x
WBD收了大量自然科学方面的单词,数学、物理、化学、地理。。。连分子式、化学方程式和代数等式都列出来了
' \' @: T* B7 @9 n6 r英汉大也部分继承了这一特点

该用户从未签到

 楼主| 发表于 2014-8-22 20:31:33 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-8-22 20:35 编辑
0 }$ z1 O  i- }! `. a( m& p
* D5 k2 L4 l7 n) X7 S$ y已报名的同学可以开工了!请看私信{:10_301:}
" `1 R1 \5 p- C# u( ?" e- v
: `1 I& r3 e7 l+ N6 [( d+ n注意事项:
' R; h- K* j2 T$ \1、如果用chrome等浏览,请先把扩展名改为.htm;然后把每个词条的<link href="wbd.css" rel="stylesheet" type="text/css"/>删掉,只需保留一个即可;否则会死机的。
% [6 {1 C8 E# @4 N2、修改词条请先把该词条单独拷到一个文件里,再修改,方便检查,也方便后期整合及二校;最后只用给我这个文件即可。
: e. n9 b3 Y' {' I) F$ E" ]8 ?3、遇到不确定的问题请回帖讨论,否则万一理解有误改错了,就变成无用功
8 a! q3 Z$ J! Z9 |9 m8 l& m, g# {
5 j2 ]2 k' p* O
根据本人实测,大约每小时可以检查1500个左右单词。8 [( a! \( j: m9 r0 I

该用户从未签到

 楼主| 发表于 2014-8-22 21:47:05 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-8-23 10:24 编辑 ( ~/ U4 @. m& B( f
5 S5 O+ A! A/ E% y2 F* m3 _- v- {
容易出问题的几个地方:
0 E+ G) l/ w. |2 e0 E字体:正体/斜体,本人原则是尽量不用斜体;如果出现大段的斜体很可能就是有问题了2 w- j( b& z+ i
颜色:参见贴图,词性大分类可能有未设成金色背景的、学科/行业可能有未转换成蓝绿色的、例证出处没有显示为灰色、非例证出处却显示为灰色的;! h; A* z$ z4 m- p

) Q  }$ D' k$ O3 o. c! ~不必对琐碎的地方抠得过细,大原则是不能出现影响阅读的情况,不能出现误导读者的情况(比如明明是词性却设成了学科的颜色就是误导),以及排版明显和别的词条不协调的情况
; F8 @; N1 x! L: I9 G, ?1 [7 Z  }0 E% R; ?7 O6 }
乱码的问题我已经解决过了,这方面的问题不用考虑
/ k: A$ }9 }; s, U0 E5 D主要是排版和数据的整体协调一致性,以上述三大原则为准,不用抠太细# V1 a0 q/ L/ E& W! u
2 |& U2 x. U# y# J( _
如果发现大篇的排版格式问题,最好通知本人来改,本人可以写程序专门处理
6 F! ^$ V4 p" A, i1 r; r人工修改费时费力且容易出错。

该用户从未签到

 楼主| 发表于 2014-8-22 22:30:30 | 显示全部楼层
继续接受报名

该用户从未签到

 楼主| 发表于 2014-8-23 10:26:52 | 显示全部楼层
顶一下{:11_351:}

该用户从未签到

发表于 2014-8-23 12:10:20 | 显示全部楼层
bt4baidu 发表于 2014-8-22 22:30
- J# F8 h9 a/ {7 `/ F5 H9 s, d继续接受报名

7 \. i6 K& L. j9 _* J2 Ho 说了,这世界上最多有32个人有这个mdx,所以人估计不多,参与人尽量多干一些吧。

该用户从未签到

发表于 2014-8-23 12:20:25 | 显示全部楼层
26号占个坑.......

该用户从未签到

 楼主| 发表于 2014-8-24 00:30:32 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-8-30 13:48 编辑
2 Q1 l' S! t/ @* d
: J' p' ]) g2 `) I' ]1 n# ?$ P{:10_293:}

该用户从未签到

 楼主| 发表于 2014-8-24 15:43:42 | 显示全部楼层
已经校完1/3强了{:10_301:}

该用户从未签到

 楼主| 发表于 2014-8-24 21:55:33 | 显示全部楼层
报名人数少于预期,进度超过预期% w+ L3 I7 Z. @- A1 e
看来真是人贵在精,不在多。' u1 [- I/ w( e
继续接受报名,不需要会HTML/CSS,只要挑错即可,由我来改

该用户从未签到

发表于 2014-8-24 21:58:57 | 显示全部楼层
bt4baidu 发表于 2014-8-24 21:55 * `* t2 k$ d9 |" n
报名人数少于预期,进度超过预期. E9 b# {1 {/ n: Q) U( V
看来真是人贵在精,不在多。& {2 c, ]. j) G; c. @
继续接受报名,不需要会HTML/CSS, ...

" |& G& b& k0 I- L8 i& c! Z5 R
0 R2 p0 z+ a0 o  l
; u7 v. g: B. E% o: B. f7 d有这个东西的都是好同志,战斗力强,说干就干,不会拖延、失联、放人鸽子……
7 j" z. x" w, j& h9 q2 @3 p$ r* d" `( z7 a& T% G0 R4 l0 U5 L) |

该用户从未签到

 楼主| 发表于 2014-8-24 22:02:34 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-8-24 22:04 编辑
6 Y1 ?7 R, l- ?6 `0 N
Oeasy 发表于 2014-8-24 21:58 ! p6 S5 i+ _8 O6 N) a! j0 E4 x
有这个东西的都是好同志,战斗力强,说干就干,不会拖延、失联、放人鸽子……
# Z. W7 u. n' \

$ H% r; E* \) h2 G# G所以说用户群就是个伪命题,大部分都是围观的看客,只有极少数才是真正产生利润的1 G5 O0 U8 d, `' c) K  P
1w人的用户群和100人的用户群并不见得有根本的差别,很可能只有其中的几十人是带来价值的

该用户从未签到

发表于 2014-8-25 14:49:34 | 显示全部楼层
本帖最后由 houbible 于 2014-8-25 21:56 编辑 ' Y/ G, Q$ |) j' A
' N  e1 T1 l% C4 j' k9 n9 k8 T7 r
我也来报个名吧,刚刚得到这个词典。晕哦,上传不了图片。晚上回家试试。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2014-8-25 21:54:52 | 显示全部楼层
houbible 发表于 2014-8-25 14:49
) W, ?8 y* S% j4 q5 S我也来报个名吧,刚刚得到这个词典。晕哦,上传不了图片。晚上回家试试。

: f5 ^( [/ y% v# |) F" Y7 g  w; }欢迎,已经给你预备了一份

该用户从未签到

发表于 2014-8-25 22:22:39 | 显示全部楼层
把分配的文本制成mdx,用mdict一条一条浏览,速度还是很快的,剩下的错误应该很少了....很快就会校对完了

该用户从未签到

发表于 2014-8-25 22:40:00 | 显示全部楼层
约4个多小时能校对完一份吧---6m大小

该用户从未签到

 楼主| 发表于 2014-8-25 23:29:38 | 显示全部楼层
mitkyg 发表于 2014-8-25 22:22 & B6 c4 B: r) r( {: {9 C
把分配的文本制成mdx,用mdict一条一条浏览,速度还是很快的,剩下的错误应该很少了....很快就会校对完了{:4_1 ...

, V: F+ z6 T3 i. ?* }% _我都是正则查找改的,越往后错越少了
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

小黑屋|手机版|Archiver|PDAWIKI |网站地图

GMT+8, 2025-5-14 20:57 , Processed in 0.025888 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表