|
发表于 2015-11-19 22:33:07
|
显示全部楼层
可惜没有词头, 因为PDF的词头OCR效果不是很好.
) M2 p: s/ ], N* i" l# j& R5 V' Mairframe 的OCR => ai r fram e, j6 P+ \" @6 @
bobcat 的OCR => bo b ca t8 ?) p4 w& L6 d: N( d+ T1 b' }' _$ L4 }
所以我才想用从” See picture under”往前35个文本来当查找的依据.
; h- D- |7 ~: Z& v- c" b$ z i1 O
4 C- Q8 b/ w, p) v. C" {另外, 我也还没有完成PDF转TXT的断行整理' V# U. a: H1 h$ p1 k% z
光是想将行尾的 “空白\n” 删除掉 \n, PC就得花不少时间..我就先中断了.
6 K% r; d8 U. a8 _' g) A* V但若不先处理TXT的断行, 也会抓不到数据..( ^" s* {1 J) N8 j, j2 A
|
|