掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:10& L+ V) D' z) t7 s
我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?
4 _5 a7 |! b6 P0 X9 P' a( _: y
是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:582 Q$ m1 ?7 `8 {, c- s0 ~
eeshu :
. N3 `; |8 Z0 e' z, u7 f重複詞條也太多了.....不知為何如此
+ x: M  e$ h. b5 `1 f+ j
好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34
    # `- ^" B; }$ C好像是pdf裁页拼接出了问题。我再重做一次。
    . g8 M7 ]- L+ n8 y
    已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:58
    0 l! H- F) w: ~6 C- F1 F: ?7 heeshu :" V2 Y  ^8 Z! L7 j+ @9 j6 P2 C
    重複詞條也太多了.....不知為何如此

    ' U; r: F( |' o: YTime used for this section: 0 seconds; \; n# m& h+ ]* `0 J
    Begin processing data contents...
    - V) V, {$ ~) X7 O* tDone!
    - W2 F# ~/ d; W$ O9 QOriginal text size = 1159KB, compressed size = 432KB, compression ratio = 37%3 I/ `4 E4 `0 B- A: U8 w1 {
    Time used for this section: 0 seconds
    5 E% L) F% I/ o8 N, `& m- W6 ZNumber of entries: 2783; `* A8 I* O$ c4 I: x" c$ ^
    Conversion succeed!
    1 J% y) o% T9 o0 K
    2 M' e& P4 U9 R! @: ]0 W去重后2783条
    ; d' ~5 f* d0 F: K$ O* G# b( k4 h
    , `* j) c+ Q! O8 Y& V3 V0 v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    5 \: G" `) a1 h是可以,我帖子里就写了复制可以。

    $ r0 ?  e8 r4 D不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00
    ) |' j1 E2 P! t1 P" b3 r7 B% MTime used for this section: 0 seconds
    ' |% n4 I7 V; ABegin processing data contents...
    7 ~% N5 x) M) n& x" w, h' ]! g* MDone!

    9 a+ b% N* ]# Q6 M好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03
    - D4 l4 v3 h+ G/ B% a' N好的,谢谢。我也重做了,之后比对比对。

    ! X/ |: X6 C) e3 `1 s8 _https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03
    0 e( \6 S2 n. O5 A9 O不明白复制粘贴就能解决的问题,为啥还要找软件处理
    : G5 d! f/ c% g6 C5 T0 a, Z
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09# r7 c! f; L* p  X$ O
    总不能逐页复制粘贴吧?

    " x, Q1 ]5 G4 @0 l& J! O不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑 3 o( ^' e$ ?3 o% e2 _7 I* N5 _
    wjl 发表于 2020-8-3 13:13
    $ b: G: x& o/ U6 p( z$ I不是有ctrl+A全部选定吗

    - l/ V" N3 X6 z4 v我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    15 小时前
  • 签到天数: 1711 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26
    5 P2 j  v0 P! [9 g( D* H已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g   T/ S  K: H" B. _
    提取码:kz89,请试试你的各种法宝。 ...
    4 s2 W4 o$ z9 p3 _( [$ k6 Z
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。
      w% }- T& w! M" |$ \' J& R       从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。7 V, D1 a5 ?* ~/ N6 H' F
           另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?
    ) q& _) y$ `' W! c
    $ f1 t- C) u3 R4 ?% qYan Yu Ci Dian cut - Wei Zhi.txt    0.97M/ [4 }) B% @* Z, Q: ]
    谚语词典cut.pdf    61.11M
    " M: {  m; Q/ s8 P谚语词典cut_Apabi Reader.txt    2.98M
    ' E/ h  P$ o, f' t1 h谚语词典cut_Caj.txt    2.69M: y" o$ ?( g" g: D5 W! ]! [) Q
    谚语词典cut_PDF2TXT.txt    1.93M
    - T1 E' l; |; I! B: D1 [谚语词典cut_SumatraPDF.txt    1.03M" W, i8 k4 ]; _. Y; N) T
    谚语词典cut_txtFormat.txt    434.37k
    6 o0 k( ~' ]% f谚语词典cut_Wondershare PDF Converter.txt    2.91M
    3 D2 B  v3 M5 z6 w+ T+ k4 ~, y; P; n
    9 u9 Q, E# l6 Y. x& ]! v
    % N# K/ f9 V0 }3 ]" m7 R% q! V. m6 S
    ; T* l& U* v/ s4 r  Y9 v
    9 d6 a0 z4 {3 c& `' d6 T! L" t2 |, }" p' Q" X3 q. U3 D
    ( [0 v+ j; @: r7 @2 }( ]( {1 @! ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40
    , W3 Z- l+ o2 h) `& j楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...

    ; d+ ?7 i9 b. i3 g9 J7 b  g& m. u3 i哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-16 23:48 , Processed in 0.035519 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表