|
发表于 2015-11-19 22:33:07
|
显示全部楼层
可惜没有词头, 因为PDF的词头OCR效果不是很好.
+ a! p# G' R9 B1 J- d; Y5 U8 cairframe 的OCR => ai r fram e0 ` y% v# ?9 K! |0 e
bobcat 的OCR => bo b ca t
* k/ E# r6 }' B. X所以我才想用从” See picture under”往前35个文本来当查找的依据.1 S% p4 k" d# D: J
9 u, n/ A# k% y: }另外, 我也还没有完成PDF转TXT的断行整理9 T z1 M3 |/ Y9 _) s: E6 \
光是想将行尾的 “空白\n” 删除掉 \n, PC就得花不少时间..我就先中断了.
: P0 R _* j1 y$ G; {9 y8 D但若不先处理TXT的断行, 也会抓不到数据..
5 j+ x5 F1 g2 m |
|