|
本帖最后由 eeshu 于 2020-8-3 13:01 编辑 1 ^# X5 H7 Y( q. T. V
$ z' C, a& Z( a: W5 D4 L4 A2 @谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。
3 E0 h+ F) P \, V; Q* ~第二次全程只用了acrobat,没有问题了。, i! P1 M* b3 y9 L ], I: `- B
: {' G# c+ D$ T/ j. S/ k/ P) w* C1 R- f, C* s
试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:
. A& G/ O7 `. T: a
" V0 K: ^; j9 [) |
" A# ]0 P2 w8 B) I& m" w
$ w& T. S0 `4 e: }. G0 I4 }4 }8 l8 e) g4 D
下面则是转成txt后的效果:
# p$ J; x" D: a; o+ I( F( h1 [3 w# _+ s* N# T
3 r: [' t1 W/ k" @5 T* ]
$ B3 Z! V( j3 D, U/ |. j- O
+ O# N% H: \8 M& m+ O1 j很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:
4 l1 d- W& i& {2 w- h+ P; p9 j, ]& J( J
【按下葫芦瓢起来】 瓢:把葫芦/ j2 l) C) u$ c3 N
锯成两半,去掉中间的瓤就成了
4 V1 C/ F, A- F$ b2 e瓢,可作舀水、舀米的用具。把葫! i, C2 B" |7 a( K
芦按在水里,瓢又浮起来。意谓刚
' w& V) X1 r6 k8 m. {) H4 a解决了一个问题,另一个问题又出: d# g& d2 a5 n0 {8 h0 z' e, L: X6 A
现了。鲍昌《庚子风云》:“瞅准了
9 h# R2 c v5 V; F2 M. Z时机就扯旗大闹,‘按下葫芦瓢起
9 X9 S- l# o+ o+ z' L% s( I来’,休想让洋人、官府再有个安生
% `8 b* v+ t0 u! c. J/ L" F的日子了。”☆ [按下葫芦浮起瓢]
( E' x# H7 Y2 g* Y$ B3 M. e7 X! \* |罗国士等《黑水魂》:“他挖空心思. S" a W1 q0 y' c. }& ]
编了几个理由,才好容易把他稳
. q$ R( R, ~+ I9 M$ L# Z' @* \住。没想到,按下葫芦浮起瓢,门# a v' o' @) N9 E
口好像发大水,乱成一片。”; l& g9 Y2 e6 z) Z
* S; S' `. S7 n4 K8 a5 e, w4 A
9 ~3 C% u* d( P9 J" i, t( Q不知哪位有这方面的经验?请教一二。先行谢过。" ~* ]/ G; i( y, ~% q8 u, A
" J4 f+ i% ^. }* Q! K, }- C
' Y! g3 a4 X4 o; q) @/ h0 e& @2 Y2 v6 h/ V# \# {
|
|