掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:10
- W7 I( T- U+ E我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?
6 F; f; E! L6 X) H8 i
是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58
9 z& ^9 F* T+ M5 f% q( ^+ zeeshu :
& i1 Z/ @% b: P4 ^+ U重複詞條也太多了.....不知為何如此
& X% P" z; x% y& l
好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34
    / u. q( r/ k8 T8 }% _% z/ r; Z) C% u好像是pdf裁页拼接出了问题。我再重做一次。

    $ m( x6 s, ^/ e9 {8 _! q已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:580 E( ~( i/ a4 Z- N
    eeshu :
    % G& C$ p5 X) f# e& J( |6 i: N重複詞條也太多了.....不知為何如此
    7 j" t2 o( D" n% U
    Time used for this section: 0 seconds8 N# \  v7 s8 B" H# h6 H  `
    Begin processing data contents...
    # y& N4 Z, v! S" T% zDone!
    + e' A0 @0 k* Y: AOriginal text size = 1159KB, compressed size = 432KB, compression ratio = 37%: J4 B$ K& m/ J
    Time used for this section: 0 seconds
      p/ S& `/ U" g6 s" E" CNumber of entries: 27835 p! n& v. z' U) [
    Conversion succeed!
    ' R5 u! D2 \/ s/ H( g
    4 c6 X4 U/ }! _: U/ d去重后2783条
    ; ?% j5 F1 |2 C8 P7 q) X  m4 j1 y  t# w, @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    7 L3 e/ @0 Y2 F+ R9 _  W7 ^- i是可以,我帖子里就写了复制可以。
    2 N  I4 e2 C7 U  f3 L8 Q
    不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:007 r( e( ]( Z; r/ [* y# y
    Time used for this section: 0 seconds
    " B2 F5 H  p- WBegin processing data contents...0 |8 W* U$ E0 S# q% y$ i$ a3 E
    Done!

    " c) y6 A1 r0 O好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03
    ( D) i2 g9 c  n' l% C- V8 H好的,谢谢。我也重做了,之后比对比对。
    3 q7 A1 M$ [  b3 @1 ?9 y; v
    https://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:03* i3 ]; [- s1 {8 k# P. J' J4 H3 F9 w+ e9 \
    不明白复制粘贴就能解决的问题,为啥还要找软件处理
    % ?' \6 k: C% s1 q0 v( \% w
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09
    - E' H! i. h. D' e- C2 V总不能逐页复制粘贴吧?

    " z, U. o# s! w4 ~3 e$ z$ a4 [不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑
    ! [( x2 J+ z. {7 |# v! q2 F
    wjl 发表于 2020-8-3 13:13
    4 C% @) b' L) W  G7 J' ~* O) R0 j不是有ctrl+A全部选定吗
    # d) M9 Y/ _$ _9 f" V2 ]
    我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    1 小时前
  • 签到天数: 1721 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:26
    1 m4 Z. K: B+ s# q已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
    , i2 ~* _2 ]7 y& P5 ^( T提取码:kz89,请试试你的各种法宝。 ...
    4 G+ \, A6 _6 j, |" I9 {1 N
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。  W! R, h8 J+ W: o$ {" g
           从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。
    + r) x5 b4 X" D* f: X1 d       另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?2 e7 ]" J0 u0 n: I0 \( L6 @, t7 ^

    : O0 l1 b% B" ?* ~* Z' I+ fYan Yu Ci Dian cut - Wei Zhi.txt    0.97M- X+ R, X& ^; u- _
    谚语词典cut.pdf    61.11M2 z. T4 c8 M8 n* H8 k# k$ f8 i' S
    谚语词典cut_Apabi Reader.txt    2.98M
    + ]# x$ H# {9 k3 S谚语词典cut_Caj.txt    2.69M! [# z9 [* i( M( B# x
    谚语词典cut_PDF2TXT.txt    1.93M0 \6 r- l8 c' [" E
    谚语词典cut_SumatraPDF.txt    1.03M( @) e9 U8 ^  a  H* _
    谚语词典cut_txtFormat.txt    434.37k
    7 D+ h- C2 L! {" d# X谚语词典cut_Wondershare PDF Converter.txt    2.91M# e3 b' v: ~4 w! e
    $ w9 k* e; ^# w% O5 @

    * l/ w' e& n0 z3 b! I. l: G! b2 H$ K& y4 o3 P

    & c, j, P' a( a- z' l1 z5 _2 d4 E7 ~- u$ Q3 ^% v9 [# a7 E8 L: _

    2 G% W! C0 e+ n/ R* l1 N6 b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40
    ; l0 ?2 Q; f  G5 H% p5 L楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...

    ; {7 Q  ?% i; H, p哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 08:43 , Processed in 0.048604 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表