TA的每日心情 | 开心 2019-1-23 08:36 |
---|
签到天数: 180 天 [LV.7]常住居民III
|

楼主 |
发表于 2019-1-20 10:34:27
|
显示全部楼层
本帖最后由 zhuode 于 2019-1-20 10:59 编辑 ( _4 P: t7 R5 I8 `% {4 K) f' [
Saxons 发表于 2019-1-20 08:47
5 d' H7 {3 E' ]5 ^; i& l1 R8 L1 ?那是优化的事情,重要的是你把文本全部提出,并且校对,没有重复。9 A4 d) i- F Q/ m% y& w2 {
不然,原档有错,制作出来也是错。
: j% I, b5 `9 y8 Q词汇表没有哎,去重我也不大会,贴子中已经指出了重复产生的原因,主词条与子词条Print的pdf内容柤同都是整个词条的内容。也就是说,这不能说是错误,是提取方式必然产生的结果。因为内容完全相同,我觉得技术层面应该是可行的吧,虽然不在我的能力范围之内。可能需要您费点儿力。原光盘的索引本来也不完整,没有词组部分的,也就是说如果在原软件搜词组是没有结果的,自建索引可能是免不了的。
1 e4 |8 V+ W3 T
6 E: n+ F: s: k关键吧,我都不会,只能负责这点儿半体力活儿。不过数据的可靠性自认为是有保证的,你从帖中也能看出,数据不光只是提取,还有统计工作,两个是互相独立的进程,两者之中不管谁出错是会比较出来的(举例就是统计的总索引数是85371,那最后的pdf文件总数就应该是85371,对不上肯定哪个地方是不对的,只有弄对才走下一步,要不然后面都不对,重干的仼务量大)。所以能力之内我已尽量实现了。 |
|