TA的每日心情 | 开心 2019-1-23 08:36 |
---|
签到天数: 180 天 [LV.7]常住居民III
|

楼主 |
发表于 2019-1-20 10:34:27
|
显示全部楼层
本帖最后由 zhuode 于 2019-1-20 10:59 编辑 4 i/ O& g' Q+ S$ v5 k" u7 l3 z
( O4 ~: i" a. C2 x
词汇表没有哎,去重我也不大会,贴子中已经指出了重复产生的原因,主词条与子词条Print的pdf内容柤同都是整个词条的内容。也就是说,这不能说是错误,是提取方式必然产生的结果。因为内容完全相同,我觉得技术层面应该是可行的吧,虽然不在我的能力范围之内。可能需要您费点儿力。原光盘的索引本来也不完整,没有词组部分的,也就是说如果在原软件搜词组是没有结果的,自建索引可能是免不了的。
7 H" l0 G S, H$ g S7 Z. Y
) m7 r- N9 c! s0 ?关键吧,我都不会,只能负责这点儿半体力活儿。不过数据的可靠性自认为是有保证的,你从帖中也能看出,数据不光只是提取,还有统计工作,两个是互相独立的进程,两者之中不管谁出错是会比较出来的(举例就是统计的总索引数是85371,那最后的pdf文件总数就应该是85371,对不上肯定哪个地方是不对的,只有弄对才走下一步,要不然后面都不对,重干的仼务量大)。所以能力之内我已尽量实现了。 |
|