掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1567|回复: 36

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

发表于 2020-8-3 06:58:26 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2020-8-3 13:01 编辑 1 ^# X5 H7 Y( q. T. V

$ z' C, a& Z( a: W5 D4 L4 A2 @谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。
3 E0 h+ F) P  \, V; Q* ~第二次全程只用了acrobat,没有问题了。, i! P1 M* b3 y9 L  ], I: `- B

: {' G# c+ D$ T/ j. S/ k/ P) w* C1 R- f, C* s
试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:
. A& G/ O7 `. T: a
" V0 K: ^; j9 [) |
" A# ]0 P2 w8 B) I& m" w
$ w& T. S0 `4 e: }. G0 I4 }4 }8 l8 e) g4 D
下面则是转成txt后的效果:
# p$ J; x" D: a; o+ I( F( h1 [3 w# _+ s* N# T
3 r: [' t1 W/ k" @5 T* ]

$ B3 Z! V( j3 D, U/ |. j- O
+ O# N% H: \8 M& m+ O1 j很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:
4 l1 d- W& i& {2 w- h+ P; p9 j, ]& J( J
【按下葫芦瓢起来】 瓢:把葫芦/ j2 l) C) u$ c3 N
锯成两半,去掉中间的瓤就成了
4 V1 C/ F, A- F$ b2 e瓢,可作舀水、舀米的用具。把葫! i, C2 B" |7 a( K
芦按在水里,瓢又浮起来。意谓刚
' w& V) X1 r6 k8 m. {) H4 a解决了一个问题,另一个问题又出: d# g& d2 a5 n0 {8 h0 z' e, L: X6 A
现了。鲍昌《庚子风云》:“瞅准了
9 h# R2 c  v5 V; F2 M. Z时机就扯旗大闹,‘按下葫芦瓢起
9 X9 S- l# o+ o+ z' L% s( I来’,休想让洋人、官府再有个安生
% `8 b* v+ t0 u! c. J/ L" F的日子了。”☆ [按下葫芦浮起瓢]
( E' x# H7 Y2 g* Y$ B3 M. e7 X! \* |罗国士等《黑水魂》:“他挖空心思. S" a  W1 q0 y' c. }& ]
编了几个理由,才好容易把他稳
. q$ R( R, ~+ I9 M$ L# Z' @* \住。没想到,按下葫芦浮起瓢,门# a  v' o' @) N9 E
口好像发大水,乱成一片。”; l& g9 Y2 e6 z) Z

* S; S' `. S7 n4 K8 a5 e, w4 A
9 ~3 C% u* d( P9 J" i, t( Q不知哪位有这方面的经验?请教一二。先行谢过。" ~* ]/ G; i( y, ~% q8 u, A
" J4 f+ i% ^. }* Q! K, }- C

' Y! g3 a4 X4 o; q) @/ h0 e& @2 Y2 v6 h/ V# \# {
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    7 [5 F* ]6 v; N/ j& ^是可以,我帖子里就写了复制可以。

    % H. G7 f1 L2 d: p0 H% m  J5 }& U/ w不明白复制粘贴就能解决的问题,为啥还要找软件处理
  • TA的每日心情
    擦汗
    2020-10-22 08:25
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:42:43 | 显示全部楼层
    楼主为什么最近都没有MDX的作品问世了
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 09:42:02 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:11
    ! A' N% Z& o  S$ ~5 u4 Z! R能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    ) d( U$ T* r4 a% U1 ~9 Y+ t2 M楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PDF对文字的排版是通坐标实现的,这与常见的用标记语言排版的格式如Word、Markdown等不一样,所以在将PDF转换提取文字过程中可能出现楼主这样的排版问题
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-8-3 07:53:26 | 显示全部楼层
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    发表于 2020-8-3 08:01:35 | 显示全部楼层
    abbyy 有各种保存文字/格式的选项
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 08:30:09 | 显示全部楼层
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2020-8-3 08:46:57 | 显示全部楼层
    这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理方式可能不尽相同,在这个功能上Acrobat可能没有去做到极致,可以考虑试试用其它第三方软件。' ]' J) O; B6 `. B9 k7 e
    6 W2 a- L$ _  v
    还有,可以试试先用Acrobat将PDF转为Word,然后再将Word转为txt,看效果会不会好点

    该用户从未签到

    发表于 2020-8-3 09:11:42 | 显示全部楼层
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY finereader也做不到,OCR一篇中文全部正确不代表OCR另一篇也全部正确。对于图片格式的OCR软件ABBYY Finereader无疑是全球第一了。可以保持原来的排版模式,这需要会使用这个软件。如果软件的OCR与你要求的相差甚远,那还是建议不要OCR了,直接采用讯飞语音输入法读这些文字重新排版。
    * G1 Z! I' h* X+ D+ ]1 J如果采用ABBYY Finereader进行OCR文字识别,想要排版和识别率高些,那就请尽可能采用里面的ABBYY Finereader OCR Editor模块进行识别文字。

    该用户从未签到

    发表于 2020-8-3 09:45:34 | 显示全部楼层
    Mandolin 发表于 2020-8-3 09:42! M$ Y4 r2 Q. n. h7 |4 ~
    楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PD ...
    - P7 E2 H2 F( \) e8 D" p
    文字版的PDF就简单多了,软件多的是。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2020-8-3 09:51:31 | 显示全部楼层
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    , i1 O1 \- |- r3 ]+ X9 R8 N7 [$ S  |' `8 x; k6 w
    1)https://www.pdftohtml.net/
    4 \. S/ l% G& ?! Z/ _# r2)https://convertio.co/zh/
    1 I) I: o( g& L6 k8 C3)(百度网盘的PDF转docx)使用WPS打开PDF转docx,效果比word好

    该用户从未签到

     楼主| 发表于 2020-8-3 09:57:23 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:51
    5 R0 X' C& ]" z! S9 _没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:) k: V! ]+ c% @+ }# \6 Y! l4 N* G

    4 V/ `) ^8 F3 F' D ...

    9 |4 U- R# k+ w: W6 a. L6 w0 F谢谢,我试试。我其实只需文本即可,转成docx反而麻烦,自带的标签太多。

    该用户从未签到

     楼主| 发表于 2020-8-3 09:58:16 | 显示全部楼层
    williamson 发表于 2020-8-3 07:534 H+ t# M& \* s. {
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件

    8 o4 Q/ z+ w- E9 }, C1 R* E: m本身就是文字版,不需要ocr。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:00:32 | 显示全部楼层
    Mandolin 发表于 2020-8-3 08:46
    ; z! v& I5 R/ V1 L这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理 ...

    6 y# u1 G* i7 X! B4 h对,就是因为acrobat转的效果不行我才尝试了其他几种,比如foxit,smallpdf。转成doc后会自带很多标签,要删除特别麻烦,还不如直接文本,只需添加一两个标签就完美了。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:01:33 | 显示全部楼层
    13589311435 发表于 2020-8-3 09:11
    " ^6 {  r! {( V4 e6 {' a能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    7 M# I+ H4 R7 _" T. t- z2 I不需要ocr,本身就是文字。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:13:59 | 显示全部楼层
    VimVim 发表于 2020-8-3 09:511 O0 G, h  c/ i6 U) j- }+ p( b
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:
    1 C7 w' k+ R) o! ~& r8 X: [. \" e$ l# z
    ...

    - K0 M2 }! k6 N! c" u8 s+ Kpdftohtml.net只能转网页文件,https://convertio.co转出来是乱码。
  • TA的每日心情
    慵懒
    昨天 10:49
  • 签到天数: 2042 天

    [LV.Master]伴坛终老

    发表于 2020-8-3 10:14:03 | 显示全部楼层
             我常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换一个,楼主能否告知上述是哪本书,我若有,就一一测试一下,看哪个更能理想?( G+ u+ U$ u  b6 P$ r, j
      j$ c+ G& m3 F4 P- p0 h' w. A

    该用户从未签到

     楼主| 发表于 2020-8-3 10:14:52 | 显示全部楼层
    eplono 发表于 2020-8-3 08:30
    $ \& E0 O) |) Y: SPython的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
      T5 q* G7 ~4 ]; B* R
    谢谢,可惜python不会。

    该用户从未签到

     楼主| 发表于 2020-8-3 10:26:20 | 显示全部楼层
    yfz48516 发表于 2020-8-3 10:14/ \1 D2 w" C+ x5 b( {) P
    我常常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换 ...
    - j+ r' A) q5 H* H7 W' ?4 l- {
    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g 6 T/ C- h/ q; a' h7 w
    提取码:kz89,请试试你的各种法宝。谢谢。
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 10:29:42 | 显示全部楼层
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作步骤,不过应该有很多这种自动化脚本软件,比如AutoHotkey

    该用户从未签到

     楼主| 发表于 2020-8-3 11:12:42 | 显示全部楼层
    武汉加油 发表于 2020-8-3 10:42
    0 R5 c3 t* e4 r: Z楼主为什么最近都没有MDX的作品问世了

    5 k" m# i$ O6 G: B承蒙看得起,我水平不行。

    该用户从未签到

     楼主| 发表于 2020-8-3 11:17:32 | 显示全部楼层
    wjl 发表于 2020-8-3 10:29
    : s( r2 d: c" Q4 }, R! j1 G* o/ |复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作 ...

    4 a% C2 x( h" g$ E8 S' y# U也是一条思路,谢谢。
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2020-8-3 11:24:34 | 显示全部楼层
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。. ^4 i# a1 f4 {

    7 I. l0 X* \! k' N4 ZPDFminer也有命令行,不过还是依赖Python# ?6 q( `1 F/ k/ \3 }2 a
    https://pdfminersix.readthedocs.io/en/latest/reference/commandline.html' E/ z; G9 K: O7 Q( P) P( ?
    5 i; [( X% a! @0 X* W: q0 v
    这个是PDFminer转的,楼主可以看看:& W8 |2 A$ n' w4 q8 @- ]. T  R8 L9 ]

    3 I& W% A" d2 |1 h7 z4 }6 Q* ^+ ]. P+ d0 l7 T) h
    9 ?1 H3 ^* v7 j4 B: f
    其实还可以用Calibre转TXT的。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 11:58:05 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-8-3 12:01 编辑
    $ C0 ?# d6 ]4 [; u
    9 m6 U& a3 g8 H; ?; N- feeshu :6 i& \2 d2 [7 }) B0 D! D7 N
    重複詞條也太多了.....不知為何如此1 P. n, e, G% p: `

    6 h) Z) @7 @* p' `/ J您有一份文件待查收!即刻点击链接获取文件:https://cowtransfer.com/s/4674ebd2f2884e 或进入 cowtransfer.com 获取,在首页输入取件码:9j8kqz(24小时内有效)
    3 _& a) G0 S; s) l- w: [1 _/ |6 I6 v* G; e+ u% }0 ~
      @$ t% h! o/ u7 N9 I; `/ y
    " j! c) R/ t7 l7 t; J8 J1 Z1 [
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 12:10:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 11:17+ P6 d& {% J' e" f
    也是一条思路,谢谢。

    / H' j1 j9 ~8 d/ a6 ?+ W! _我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?
    * E6 _* W8 q+ K$ u6 n
    4 Q, [" a; t; A3 P
    # v# ~  N; @3 j4 Y+ H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-3 12:10:44 | 显示全部楼层
    eplono 发表于 2020-8-3 11:24
    # {6 v9 i2 X+ @; v, MMuPDF和Xpdf有C编译好的命令行,你可以找来试试。( u. q0 Q  Y% ^$ Y

    / r; C) X; T- F* ?! MPDFminer也有命令行,不过还是依赖Python
    & v' i4 b; \) t; C  g
    好的,谢谢。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-4 09:33 , Processed in 0.025621 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表