掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:10
8 x  g" a$ q  V) x+ K$ H0 J% y我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?

9 [# _# a) Y1 q" l$ X8 Z是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58, A3 j0 C2 P* T3 M# n% I7 w9 m0 W
eeshu :$ H% O* {  U6 i4 C
重複詞條也太多了.....不知為何如此

! t2 z8 {' y# O; I好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34
    * `8 c1 H, ~+ C; x) Q好像是pdf裁页拼接出了问题。我再重做一次。
    # ?/ v8 {& e# i$ H
    已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:58
    6 l' h% d# ~* i# n2 Y" P# p  o2 \6 feeshu :
      _+ D6 ?# {( {- ]重複詞條也太多了.....不知為何如此

    7 }/ ]1 s1 D7 L# sTime used for this section: 0 seconds
    / b2 Y( O2 B0 V$ T( |Begin processing data contents...
    . g2 u! ?" K. DDone!
    5 n, a9 B6 a2 d- R- QOriginal text size = 1159KB, compressed size = 432KB, compression ratio = 37%
    6 B" N& o! A  \: l/ ~Time used for this section: 0 seconds
    ' r$ D4 i5 z/ q1 h# o) kNumber of entries: 27836 A: u- `8 G; K. e( o# p; C# T, J
    Conversion succeed!
    % r* ~$ m! S2 p3 w8 p: j1 a3 s* p
    去重后2783条7 f4 u# R+ c3 c/ f% H) c

    ' M( v$ x. n! [2 a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:331 U1 r/ k/ l$ C- L9 w- q1 |
    是可以,我帖子里就写了复制可以。
    8 N5 \, d. O# p  y- n
    不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00
    ; j" l* I+ _; M0 _Time used for this section: 0 seconds5 Z' c7 X( W9 ^% a
    Begin processing data contents...
    ; L' Z! q! S+ A* |Done!
      s! ?! v7 K. X2 m  l) f9 |1 m) z
    好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03
    # g4 [$ `( A. h; Z( c) V% F* N  J好的,谢谢。我也重做了,之后比对比对。
    4 W) R* }5 V/ I
    https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03' y( K7 l, }, ?3 a  A
    不明白复制粘贴就能解决的问题,为啥还要找软件处理
    , M4 Z, J, V, v! j8 U0 ~$ e4 Z6 b
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09* L$ B  H( Z+ ], N
    总不能逐页复制粘贴吧?
    8 U9 `; `: h7 q$ G# @
    不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑 / F2 W6 o4 x4 }6 p  e5 p7 E
    wjl 发表于 2020-8-3 13:13) [# ]" J' h- W0 q2 ^
    不是有ctrl+A全部选定吗
    # c: `. [2 D; V0 Y1 @5 P6 F1 _% I- [
    我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    昨天 10:32
  • 签到天数: 2046 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26- G7 }9 C, ?  ]4 ^
    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
    ) L8 E8 h. t; B  u8 k提取码:kz89,请试试你的各种法宝。 ...

    : Y+ T8 }; S* h" ?       楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。
    7 {. a) E- ]4 \% ~) M2 G% X$ P       从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。" }, y) T. ]8 D7 `7 D
           另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?
    . x9 _6 g; b8 O9 a5 i
    0 J7 k* J) Q# p& ?8 lYan Yu Ci Dian cut - Wei Zhi.txt    0.97M  \+ a" L# a, m% n% @
    谚语词典cut.pdf    61.11M
    ' r( W0 g7 O3 {9 K0 s7 n谚语词典cut_Apabi Reader.txt    2.98M5 c% L5 f1 N; F  w% V+ f
    谚语词典cut_Caj.txt    2.69M
    ( t6 E2 _( b, \谚语词典cut_PDF2TXT.txt    1.93M- u: q0 M1 s9 z+ J' s0 x7 F: d$ W
    谚语词典cut_SumatraPDF.txt    1.03M
    + Q$ i' a# g  ?6 |$ t  p6 h谚语词典cut_txtFormat.txt    434.37k
    . x- X5 Z: s  `3 K0 r) }谚语词典cut_Wondershare PDF Converter.txt    2.91M
    ' n: ^- ~/ Z: n: \2 ?
    $ g; T) L, C& S
    ) [3 B! p  ~$ j4 z6 e0 F) r9 e- ]' C0 i

    ) W4 z' P: h, I' y2 f
    6 V9 y( k; [* u3 @! L- L
    ; G" v" B. A) U

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40: \5 C4 r. Z. j, e; k
    楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...

    . E. Q1 g) ~( k( P: u* w# a& H哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 03:42 , Processed in 0.020564 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表