COD9完美mdx化的一些个人探索、启发与实践

zhuode · 发表于 2019-1-11 19:04:29

本帖最后由 zhuode 于 2019-1-11 19:18 编辑

Saxons 发表于 2019-1-11 16:14
' @4 @" ]9 l3 n% g5 v1 [$ k6 o做了一个测试，复刻难度太大，要手工的地方多如毛牛，只能对着电子词典改。- v% Y0 p& r* X1 P* } z
关键是细节方面难以全面复刻。 ...

词源部分的斜体字能否保留格式(例:aardvark中的aarde、vark)
最低要求是各种元素要有识别度,不会造成理解障碍或引起歧义,排版要基本过关,不光是要能用,最好能让大家愿意用我就满足了 : )

Saxons · 发表于 2019-1-11 21:36:05

本帖最后由 Saxons 于 2019-1-17 10:45 编辑

完全可以。刚做了一个保留格式的测试版，各种必要的元素都有识别度。这是测试，里面的东西，除了字体调大，我都没改动。
这是最接近你转换出来的pdf的版本了。
就是css会随着pdf的增加而变大，想想后面还有8万多页的pdf，它的体积会变得多大，想想都可怕，这个需要优化。
这是最接近复刻的了，也就是说pdf是什么样，它就是什么样，如果加上颜色，就更像了。

Saxons · 发表于 2019-1-11 21:38:07

zhuode 发表于 2019-1-11 19:04# w+ y B, H4 }& J1 f- _
词源部分的斜体字能否保留格式(例:aardvark中的aarde、vark)( k, ~% y: L' B
最低要求是各种元素要有识别度,不会造成理解 ...

如果可以，你把你先转出来的其他pdf给我，我再测试一下。

kkk888 · 发表于 2019-1-11 22:23:48

Saxons 发表于 2019-1-11 21:363 T4 d! g, v9 Z/ E- m8 M
完全可以。刚做了一个保留格式的测试版，各种必要的元素都有识别度。这是测试，里面的东西，除了字体调大， ...

厉害啊大侠。

zhuode · 发表于 2019-1-11 23:45:10

Saxons 发表于 2019-1-11 21:362 o8 m# s6 F$ q) O8 ^
完全可以。刚做了一个保留格式的测试版，各种必要的元素都有识别度。这是测试，里面的东西，除了字体调大， ...

链接: https://pan.baidu.com/s/1rCOSleuqpKkUigz_Z3PIVw 提取码: ubnr

我以前公开分享后来失效了

hijack999 · 发表于 2019-1-14 22:38:11

向楼主致敬^_^

christianfr1 · 发表于 2019-1-14 23:10:43

感谢分享

christianfr1 · 发表于 2019-1-14 23:10:50

感谢分享

zhuode · 发表于 2019-1-20 01:40:39

本帖最后由 zhuode 于 2019-1-20 01:49 编辑

Saxons 发表于 2019-1-11 21:36
+ G6 S. ?8 e1 e完全可以。刚做了一个保留格式的测试版，各种必要的元素都有识别度。这是测试，里面的东西，除了字体调大， ...

行间距要调一下，A1最下边那个前面词性标识过挤
今天看了下，USAGE部分可能要你帮下忙，仅从原软件没有找到定位USAGE的办法，可能需要你在数据汇总后筛选出来

Saxons · 发表于 2019-1-20 08:47:47

那是优化的事情，重要的是你把文本全部提出，并且校对，没有重复。
不然，原档有错，制作出来也是错。

另，你有COD9的全部词汇表没有？有的话提供一下，这可以省很多事，也可以减少错误。

zhuode · 发表于 2019-1-20 10:34:27

本帖最后由 zhuode 于 2019-1-20 10:59 编辑

Saxons 发表于 2019-1-20 08:47& c4 j1 w% E" q5 U* X! f- r
那是优化的事情，重要的是你把文本全部提出，并且校对，没有重复。
7 _4 e& D$ P, x# c6 G5 }/ o不然，原档有错，制作出来也是错。

词汇表没有哎,去重我也不大会,贴子中已经指出了重复产生的原因,主词条与子词条Print的pdf内容柤同都是整个词条的内容。也就是说,这不能说是错误,是提取方式必然产生的结果。因为内容完全相同,我觉得技术层面应该是可行的吧,虽然不在我的能力范围之内。可能需要您费点儿力。原光盘的索引本来也不完整,没有词组部分的,也就是说如果在原软件搜词组是没有结果的,自建索引可能是免不了的。

关键吧,我都不会,只能负责这点儿半体力活儿。不过数据的可靠性自认为是有保证的,你从帖中也能看出,数据不光只是提取,还有统计工作,两个是互相独立的进程,两者之中不管谁出错是会比较出来的(举例就是统计的总索引数是85371,那最后的pdf文件总数就应该是85371,对不上肯定哪个地方是不对的,只有弄对才走下一步,要不然后面都不对,重干的仼务量大)。所以能力之内我已尽量实现了。

zhuode · 发表于 2019-1-20 11:45:06

Saxons 发表于 2019-1-20 08:47
4 J0 k+ v" p4 Z8 N那是优化的事情，重要的是你把文本全部提出，并且校对，没有重复。
0 J/ m1 }; { ?9 l0 T不然，原档有错，制作出来也是错。

针对去重,网搜"duplicate finder"可能是个方法

duancj · 发表于 2019-1-20 13:29:42

个人觉得只要有完整的PDF文档，其他的都不是难事，论坛里这么多大牛

thinkinginlast · 发表于 2019-1-20 20:29:05

大侠们，献上小弟膝盖。看来经典复刻成功有望。我等水平有限，等待将来看能不能调整个好的排版。

zhuode · 发表于 2019-1-22 17:51:34

Saxons 发表于 2019-1-20 08:47
" S" |* P! [, y. `3 [+ F2 e5 L那是优化的事情，重要的是你把文本全部提出，并且校对，没有重复。' c0 K7 k; u& H) V0 z" v
不然，原档有错，制作出来也是错。

除USAGE外的部分已经完成,第一时间分享给你:链接: https://pan.baidu.com/s/1LSzUhk5BHjgoAtDcA6Lv6g 提取码: u889

zhuode · 发表于 2019-1-22 17:53:54

bbs 发表于 2019-1-4 11:52# `: E% `) Y- S% ?8 J# w% e, A( J6 x
对啊，就是这样，思路完全正确。然后把你这个过程，用按键精灵实现自动化。就可以完成一个完美的MDX了。就 ...

除USAGE部分外COD9数据pdf化已经完成,地址:链接: https://pan.baidu.com/s/1LSzUhk5BHjgoAtDcA6Lv6g 提取码: u889

喬治兄 · 发表于 2019-1-22 19:00:49

zhuode 師姐:
佩服,佩服
您的意志力及戰鬥力真令貧道懾服
我看真沒幾個巾幗英雄有此能耐的用土法煉鋼煉成
男的應該也是曲指可數呀
讚.............

謝謝啦

scju · 发表于 2019-1-23 00:34:21

我有个疑问，tsiank不是已经在制作COD9了吗？那么楼主也是在做同样的工作？所以现在有两组人马在弄COD9？还是因为楼主没参加tsiank的募款赞助，打算自己另外做一个？

zhuode · 发表于 2019-1-23 02:01:23

本帖最后由 zhuode 于 2019-1-23 02:11 编辑

scju 发表于 2019-1-23 00:348 c2 D0 h1 M8 A+ N T
我有个疑问，tsiank不是已经在制作COD9了吗？那么楼主也是在做同样的工作？所以现在有两组人马在弄COD9？还 ...

tsiank原先(据说现在也在重制新版)版本存在一些缺点,如音标缺失、原软件格式未得保留,严格说正是由于发现了一种可以弥补t大版本缺陷的方法又得到b大支持我才决定自己提取的。说实话,实际提取过程比预计的要困难一个台阶。当然还有一点是为了满足自己对COD9的期待,这也是为什么我没有选择与大家分工合作而是独自花费200小时之久来提取该数据以保证质量,另外相信开放数据给大家合众人之力也有助于得到更多样化的版本。

此外,我还有一个小私心,希望可以得到一个原盘复刻版,相信t大未必感兴趣。
还有t大募捐最后成行是须要满足一定数量要求的,而对该风险而我又对COD9慕名已久,再综合上述原因我就果断动手了!

zhuode · 发表于 2019-1-23 10:27:58

Saxons 发表于 2019-1-20 08:470 h8 f0 m3 v* {8 q8 m
那是优化的事情，重要的是你把文本全部提出，并且校对，没有重复。
* M; n7 s7 T5 {2 V* o2 w# _0 K& z不然，原档有错，制作出来也是错。

你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础上还会实现USAGE的提取

Saxons · 发表于 2019-1-23 10:38:52

zhuode 发表于 2019-1-23 10:271 \* e( v5 @' {9 X6 y3 w
你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础 ...

这个最好，不然分页处理八万多个pdf，量太大。而且要想效果好，这个要慢慢来，主要是细节。如果不讲究细节，简单多了。

Saxons · 发表于 2019-1-23 10:52:31

zhuode 发表于 2019-1-23 10:27
/ |/ S: V2 p( e' ]你要是不急的话,我稍后会出个合并版的pdf,将只有一个文件,还将争取下看能不能实现相同页面去重,在此基础 ...

zhuode · 发表于 2019-1-23 12:24:59

Saxons 发表于 2019-1-23 10:38; f) B5 M. w1 Y4 r
这个最好，不然分页处理八万多个pdf，量太大。而且要想效果好，这个要慢慢来，主要是细节。如果不讲究细 ...

要做嘛就做个好的,过后才不会觉得遗憾也免了再不断修补

zhuode · 发表于 2019-1-23 12:26:04

Saxons 发表于 2019-1-23 10:52: g/ }% o, v7 }. d
Concise Oxford Dictionary Ninth Edition
+ b# R3 @7 e$ Q/ |# j/ T& ]6 A© Oxford University Press, 1996) X! p% G" ^) s, v" ~5 w; X
每一页pdf的这两条不要删掉 ...

想删我还没能力了

lmjiao · 发表于 2019-1-26 00:50:46

伟大的工作，高贵的作者！

		自动登录	找回密码
密码			免费注册

[讨论] COD9完美mdx化的一些个人探索、启发与实践

本帖子中包含更多资源

点评

本帖子中包含更多资源

点评