掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: zhuode

[讨论] COD9完美mdx化的一些个人探索、启发与实践

[复制链接]
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-11 19:04:29 | 显示全部楼层
    本帖最后由 zhuode 于 2019-1-11 19:18 编辑 + z+ }7 h0 q/ ~" z& o
    Saxons 发表于 2019-1-11 16:14
    8 M% V3 }1 S/ r" y; T做了一个测试,复刻难度太大,要手工的地方多如毛牛,只能对着电子词典改。/ B0 o# K% z& R- J: m) H: G1 k7 s
    关键是细节方面难以全面复刻。 ...

    6 H5 G1 A8 y. V# S/ m' a3 O- e4 ~词源部分的斜体字能否保留格式(例:aardvark中的aarde、vark)
    $ _/ f3 w4 H' h0 t) J0 k7 D* ?最低要求是各种元素要有识别度,不会造成理解障碍或引起歧义,排版要基本过关,不光是要能用,最好能让大家愿意用我就满足了 : )
    ; b$ k4 w% z' ]) D2 \' o
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2019-1-11 21:36:05 | 显示全部楼层
    本帖最后由 Saxons 于 2019-1-17 10:45 编辑
    ( S/ R8 J6 u$ k2 T, B9 @7 m# o- P6 @- I) W6 o
    完全可以。刚做了一个保留格式的测试版,各种必要的元素都有识别度。这是测试,里面的东西,除了字体调大,我都没改动。4 Z( s8 k! S4 l$ y/ L3 w1 o" b
    这是最接近你转换出来的pdf的版本了。: z$ ~, p4 M5 ~
    就是css会随着pdf的增加而变大,想想后面还有8万多页的pdf,它的体积会变得多大,想想都可怕,这个需要优化。$ e; ~  q8 j& h4 h7 Z8 L, ?
    这是最接近复刻的了,也就是说pdf是什么样,它就是什么样,如果加上颜色,就更像了。7 F, b3 U' O  o/ a  c3 E

    7 d4 R' l) \* s0 K# u% k& d# m
    # u" l( v6 t5 p: F
    6 t: W( W4 a3 F
    # U& s" S: s% i0 R  i  W7 S- w' t: k2 I4 Y0 A
    ( I* ?; X: H$ z( s: n
      z, A* I! |6 X4 i7 u* _. k) q
    8 C3 m  e& j! n- X% |) t. G5 `
    1 v( B, w" k5 i) h; o+ N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    点评

    大概是这么个方向  发表于 2019-1-12 00:04
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2019-1-11 21:38:07 | 显示全部楼层
    zhuode 发表于 2019-1-11 19:041 S+ c3 o9 E- k
    词源部分的斜体字能否保留格式(例:aardvark中的aarde、vark)6 s" ~) `6 s: @" d
    最低要求是各种元素要有识别度,不会造成理解 ...
    5 q, \; z: p0 ~% U2 n& o& o0 c7 V
    如果可以,你把你先转出来的其他pdf给我,我再测试一下。
  • TA的每日心情
    开心
    2019-9-23 15:48
  • 签到天数: 70 天

    [LV.6]常住居民II

    发表于 2019-1-11 22:23:48 | 显示全部楼层
    Saxons 发表于 2019-1-11 21:36- @2 q: z4 N# l* ]1 n# G4 d6 Z: ^
    完全可以。刚做了一个保留格式的测试版,各种必要的元素都有识别度。这是测试,里面的东西,除了字体调大, ...
    0 t4 _% I- \/ j& D9 m1 O5 J2 ?
    厉害啊大侠。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-11 23:45:10 | 显示全部楼层
    Saxons 发表于 2019-1-11 21:36
    5 h1 a$ w3 r$ `/ V6 K; X完全可以。刚做了一个保留格式的测试版,各种必要的元素都有识别度。这是测试,里面的东西,除了字体调大, ...

    . D7 M* H7 I( [3 |" A3 h- ]3 S链接: https://pan.baidu.com/s/1rCOSleuqpKkUigz_Z3PIVw 提取码: ubnr$ C9 \# N% G. M5 p9 h' u& n+ j

    $ f) {1 f1 w' z3 h, ^6 N, p我以前公开分享后来失效了
  • TA的每日心情
    开心
    2018-7-15 22:26
  • 签到天数: 77 天

    [LV.6]常住居民II

    发表于 2019-1-14 22:38:11 | 显示全部楼层
    向楼主致敬^_^
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-20 01:40:39 | 显示全部楼层
    本帖最后由 zhuode 于 2019-1-20 01:49 编辑 1 X( `+ n! C7 ]0 ~# _2 @
    Saxons 发表于 2019-1-11 21:36& C& j0 k: f8 t9 M7 x: [( f
    完全可以。刚做了一个保留格式的测试版,各种必要的元素都有识别度。这是测试,里面的东西,除了字体调大, ...

    1 e6 w$ K! t/ h3 [8 L行间距要调一下,A1最下边那个前面词性标识过挤
    ) X" [& K+ N4 M& d* v; m今天看了下,USAGE部分可能要你帮下忙,仅从原软件没有找到定位USAGE的办法,可能需要你在数据汇总后筛选出来4 A3 ^3 D2 u; q3 i# z) F
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2019-1-20 08:47:47 | 显示全部楼层
    那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。
    - K" B3 Q2 u) ^' m: ^  `- ^不然,原档有错,制作出来也是错。, k" J4 v; Q2 f$ k6 N$ E$ I
    : s* F# `2 i* r' ~  R
    另,你有COD9的全部词汇表没有?有的话提供一下,这可以省很多事,也可以减少错误。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-20 10:34:27 | 显示全部楼层
    本帖最后由 zhuode 于 2019-1-20 10:59 编辑 * i4 ^: @" u5 B9 ^# L
    Saxons 发表于 2019-1-20 08:47
    6 a; ?9 e  o! o7 t* A' L9 x那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。! X0 I4 X* O# Y
    不然,原档有错,制作出来也是错。

    ' L- ]( ~6 E" Y7 b词汇表没有哎,去重我也不大会,贴子中已经指出了重复产生的原因,主词条与子词条Print的pdf内容柤同都是整个词条的内容。也就是说,这不能说是错误,是提取方式必然产生的结果。因为内容完全相同,我觉得技术层面应该是可行的吧,虽然不在我的能力范围之内。可能需要您费点儿力。原光盘的索引本来也不完整,没有词组部分的,也就是说如果在原软件搜词组是没有结果的,自建索引可能是免不了的。
    8 z& o( n8 o7 a2 f" m3 @
    % r: w2 ?; g  W/ h  B关键吧,我都不会,只能负责这点儿半体力活儿。不过数据的可靠性自认为是有保证的,你从帖中也能看出,数据不光只是提取,还有统计工作,两个是互相独立的进程,两者之中不管谁出错是会比较出来的(举例就是统计的总索引数是85371,那最后的pdf文件总数就应该是85371,对不上肯定哪个地方是不对的,只有弄对才走下一步,要不然后面都不对,重干的仼务量大)。所以能力之内我已尽量实现了。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-20 11:45:06 | 显示全部楼层
    Saxons 发表于 2019-1-20 08:47
    + e# Q' P6 G  y  U- u; [0 n那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。
    : n; x2 }5 Y! I+ E5 c不然,原档有错,制作出来也是错。
    针对去重,网搜"duplicate finder"可能是个方法
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2019-1-20 13:29:42 | 显示全部楼层
    个人觉得只要有完整的PDF文档,其他的都不是难事,论坛里这么多大牛
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2019-1-20 20:29:05 | 显示全部楼层
    大侠们,献上小弟膝盖。看来经典复刻成功有望。我等水平有限,等待将来看能不能调整个好的排版。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-22 17:51:34 | 显示全部楼层
    Saxons 发表于 2019-1-20 08:47
    - R; u0 C3 {+ a& ]  |+ ^' M那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。" x5 v. U1 d* {+ K/ z- J; u
    不然,原档有错,制作出来也是错。

    : t; \: f/ p( f8 x除USAGE外的部分已经完成,第一时间分享给你:链接: https://pan.baidu.com/s/1LSzUhk5BHjgoAtDcA6Lv6g 提取码: u889
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-22 17:53:54 | 显示全部楼层
    bbs 发表于 2019-1-4 11:52
    6 E0 |. Y" @; j3 b对啊,就是这样,思路完全正确。然后把你这个过程,用按键精灵实现自动化。就可以完成一个完美的MDX了。就 ...

    % x+ A# f) c8 g4 Y( }除USAGE部分外COD9数据pdf化已经完成,地址:链接: https://pan.baidu.com/s/1LSzUhk5BHjgoAtDcA6Lv6g 提取码: u889
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-22 19:00:49 | 显示全部楼层
    zhuode 師姐:
    ! m& j! X: x! ~7 U. C( w6 S0 L佩服,佩服# [" m# ?5 f. Z! M! [0 g1 d
    您的意志力及戰鬥力真令貧道懾服) ]/ h8 N* h' q3 S: \( `
    我看真沒幾個巾幗英雄有此能耐的用土法煉鋼煉成
    7 y- D! V* X; |' p% Z! ]男的應該也是曲指可數呀1 a% n4 \# h- A. f  |( H! v
    讚.............7 F* J- U' n0 q  q6 X' ]
    謝謝啦
  • TA的每日心情
    慵懒
    2025-9-14 10:16
  • 签到天数: 1505 天

    [LV.Master]伴坛终老

    发表于 2019-1-23 00:34:21 | 显示全部楼层
    我有个疑问,tsiank不是已经在制作COD9了吗?那么楼主也是在做同样的工作?所以现在有两组人马在弄COD9?还是因为楼主没参加tsiank的募款赞助,打算自己另外做一个?
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-23 02:01:23 | 显示全部楼层
    本帖最后由 zhuode 于 2019-1-23 02:11 编辑 9 {2 Y0 F. G6 v% D+ j& @$ @! D: j/ |
    scju 发表于 2019-1-23 00:34
    3 O  a+ L& Q5 ?( d* P. j: f% |8 v我有个疑问,tsiank不是已经在制作COD9了吗?那么楼主也是在做同样的工作?所以现在有两组人马在弄COD9?还 ...
    " a- n# t- }# c
    tsiank原先(据说现在也在重制新版)版本存在一些缺点,如音标缺失、原软件格式未得保留,严格说正是由于发现了一种可以弥补t大版本缺陷的方法又得到b大支持我才决定自己提取的。说实话,实际提取过程比预计的要困难一个台阶。当然还有一点是为了满足自己对COD9的期待,这也是为什么我没有选择与大家分工合作而是独自花费200小时之久来提取该数据以保证质量,另外相信开放数据给大家合众人之力也有助于得到更多样化的版本。* M, v+ [; L1 u
    $ r8 o; O4 A( x) d# g' t' Z. R
    此外,我还有一个小私心,希望可以得到一个原盘复刻版,相信t大未必感兴趣。( K. B3 b$ t& T5 g+ o
    还有t大募捐最后成行是须要满足一定数量要求的,而对该风险而我又对COD9慕名已久,再综合上述原因我就果断动手了!
    & E5 F9 k1 l$ e' Q8 Z

    点评

    了解了,感谢!  发表于 2019-1-23 12:04
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-23 10:27:58 | 显示全部楼层
    Saxons 发表于 2019-1-20 08:47$ t1 v2 p$ o" @) W( J3 h! j4 C
    那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。
    * _( j* W# W& {6 a* Q7 A不然,原档有错,制作出来也是错。

    3 S  s" F8 ]1 B  g: N你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础上还会实现USAGE的提取
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2019-1-23 10:38:52 | 显示全部楼层
    zhuode 发表于 2019-1-23 10:27# p- M' M8 g% g9 _1 X
    你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础 ...
    " A3 W9 b5 n& {. \3 j
    这个最好,不然分页处理八万多个pdf,量太大。而且要想效果好,这个要慢慢来,主要是细节。如果不讲究细节,简单多了。
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2019-1-23 10:52:31 | 显示全部楼层
    zhuode 发表于 2019-1-23 10:27  t- V9 B- x% `, c$ R0 A6 s0 c9 [
    你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础 ...

    5 T9 Q3 l' H( q5 @  fConcise Oxford Dictionary Ninth Edition
    . i& ^1 H9 D$ t' N1 ^© Oxford University Press, 19969 W3 d: u& h! A& K" ]
    每一页pdf的这两条不要删掉,这是定位词条的最好标志,非常有用。
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-23 12:24:59 | 显示全部楼层
    Saxons 发表于 2019-1-23 10:38
    : V' L2 W: w3 t# U这个最好,不然分页处理八万多个pdf,量太大。而且要想效果好,这个要慢慢来,主要是细节。如果不讲究细 ...
    % b- u9 }( d3 H/ E+ A/ n: N
    要做嘛就做个好的,过后才不会觉得遗憾也免了再不断修补
  • TA的每日心情
    开心
    2019-1-23 08:36
  • 签到天数: 180 天

    [LV.7]常住居民III

     楼主| 发表于 2019-1-23 12:26:04 | 显示全部楼层
    Saxons 发表于 2019-1-23 10:52; a4 L& w8 Y/ Z6 `- A7 m
    Concise Oxford Dictionary Ninth Edition% `6 O2 a2 V# y+ h+ B
    © Oxford University Press, 19961 r7 }- p, v  l& a
    每一页pdf的这两条不要删掉 ...

    ! [' U3 e4 I3 [0 K* h想删我还没能力了
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-1-26 00:50:46 | 显示全部楼层
    伟大的工作,高贵的作者!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 03:24 , Processed in 0.021698 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表