掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:10
5 L! s( h- i, w+ L5 o3 s- `我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?

* ?9 C4 T4 ]4 z' D# v  Z是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58
: P( C3 a* M$ u8 g) I6 teeshu :0 K% H2 ~" H% H" A5 L( h) P
重複詞條也太多了.....不知為何如此

' d" _- \4 A( u8 N) w好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34- u5 n6 G8 V6 S- n& V6 R0 r
    好像是pdf裁页拼接出了问题。我再重做一次。
    * b1 _1 w7 {( R! M' d
    已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:58: |7 R2 R/ D& {' U. n& F5 I) q2 i
    eeshu :
    . s- c6 g" ~6 s- s  B* W重複詞條也太多了.....不知為何如此

    6 ^5 z* s5 I! J4 n1 w7 z3 RTime used for this section: 0 seconds
    % v( w; H' W8 @1 e% X4 v& \Begin processing data contents...* E$ M" R! {' @! Y
    Done!
    4 `  R' Z& O. e$ N1 [/ i( N& |Original text size = 1159KB, compressed size = 432KB, compression ratio = 37%
    % b: c! P9 L7 FTime used for this section: 0 seconds
    ' P& z, l- I' `! k, z3 PNumber of entries: 27835 r+ N; @7 {* C; P1 h
    Conversion succeed!
    " w# H8 j& H( `8 W( l
    1 B  [" j1 F( X' c2 w. U3 z去重后2783条
    4 n: X0 p. F, L# w; ~9 x5 p9 J  t4 ]. C0 ?9 ]6 Q8 r' N; ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    * i4 r7 {: R% ]8 l是可以,我帖子里就写了复制可以。
    / h- H9 B, X) q6 ~7 d8 O
    不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00' z5 x% d9 @3 @+ d' {/ \
    Time used for this section: 0 seconds8 n* u9 _- S- `. p: y
    Begin processing data contents.... B7 U9 l) d& N1 Q4 z/ {. ^) ^
    Done!
    ( ^$ s  M& d% F1 l& P7 b  K
    好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03, w7 ^$ S% k1 u4 r: K4 w
    好的,谢谢。我也重做了,之后比对比对。
    , i3 P7 @) V$ G' l2 R0 y$ e) E
    https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03
    9 I: x7 [" F6 q' d; x% `不明白复制粘贴就能解决的问题,为啥还要找软件处理
    * I1 k9 \( N0 q( A7 |, Y$ Z5 a, Z2 x) x
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09
    ; [- x: O' Q& l总不能逐页复制粘贴吧?

    $ \, F- P# U1 s5 T# P4 v不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑 8 t' ]/ m: o' b
    wjl 发表于 2020-8-3 13:13
    # g6 ^6 p6 N% d$ i- H  M不是有ctrl+A全部选定吗

    / O! Y) {  x' p我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    4 天前
  • 签到天数: 2396 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26, I5 G3 @& N3 e0 @, ]0 s2 O
    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g ; m, S, ^  {# ]$ v. A
    提取码:kz89,请试试你的各种法宝。 ...
    , ~( c# B+ b) d
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。) ?$ m/ ^" ]+ r8 F# r, P  ^
           从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。
    3 k2 H$ _6 R" o9 Q4 f       另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?
    " [* _0 t2 e. o: r( n* V$ }) h0 V# {( ^5 v# R' S( e; p
    Yan Yu Ci Dian cut - Wei Zhi.txt    0.97M
    & @6 H2 e; O8 u9 t% @" u谚语词典cut.pdf    61.11M
    2 X* P$ Y' O0 x谚语词典cut_Apabi Reader.txt    2.98M
    2 R! u- L; w, M4 K5 A" z谚语词典cut_Caj.txt    2.69M! F; {! k# ]6 h9 ]5 J
    谚语词典cut_PDF2TXT.txt    1.93M
    6 P" I* i: V8 A1 Q$ ^# P+ t1 d谚语词典cut_SumatraPDF.txt    1.03M/ ]2 x: j* b" O4 Y$ n. g
    谚语词典cut_txtFormat.txt    434.37k
    4 t* R( _/ U* h- m谚语词典cut_Wondershare PDF Converter.txt    2.91M7 V, G% }  ^  X' ~

    ) Z% o. n3 A3 J( l1 x, v2 ~* J0 k

    0 u5 l  V0 N  l+ s! d4 Q' p7 k2 U. D1 u; u; n% n
    ( ]+ r' R2 e6 c4 A0 J+ n! W2 G

    / e1 ?: c5 C( H3 @- W) l$ p

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40
    " L% {& i8 P5 h! p  z楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...
    + C# Y1 M' G1 s) U1 r( f* M
    哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 01:18 , Processed in 0.020157 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表