掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: eeshu

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

 楼主| 发表于 2020-8-3 12:33:27 | 显示全部楼层
wjl 发表于 2020-8-3 12:10
1 k& D' f; k* q我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?

: k9 J8 ~) E: \/ a; ^* @/ b是可以,我帖子里就写了复制可以。

该用户从未签到

 楼主| 发表于 2020-8-3 12:34:09 | 显示全部楼层
喬治兄 发表于 2020-8-3 11:58
) a  w8 m; Y4 j! F0 n- D+ L$ Teeshu :' l8 V/ n" ~& P- S$ V! [
重複詞條也太多了.....不知為何如此

  u: b$ J1 g, t  [6 E好像是pdf裁页拼接出了问题。我再重做一次。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 12:59:16 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:34
    * I" J$ \5 j/ Z' T& ]; F3 }9 B% q好像是pdf裁页拼接出了问题。我再重做一次。
    9 X6 p/ x% P) W- U+ c: c  u
    已經處理 OK
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:00:15 | 显示全部楼层
    喬治兄 发表于 2020-8-3 11:588 c  E1 {; _* }2 a
    eeshu :
    ) r' Y+ f  O7 d$ w" t重複詞條也太多了.....不知為何如此
    $ h1 n* F! o# m) M8 n! \
    Time used for this section: 0 seconds
    ' R/ Q9 L4 P0 S+ ~, eBegin processing data contents...
    + ]* g' \$ E1 lDone!1 \( d* t5 M+ U0 U( @( D& C9 I
    Original text size = 1159KB, compressed size = 432KB, compression ratio = 37%# |" D4 y  ?7 R, c4 H5 ?
    Time used for this section: 0 seconds
    # z8 M, E' C: H7 J6 y! V9 O( iNumber of entries: 27838 e' P/ }! ^/ C& x4 s( D
    Conversion succeed!
    $ J( y0 J# [* F1 u0 M7 S% A  Z$ D2 E2 a7 N8 L% j7 W) m- N; Z
    去重后2783条8 ]# a& M* m- ~# f
    4 X1 k0 @2 O( r' h

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:03:14 | 显示全部楼层
    eeshu 发表于 2020-8-3 12:33
    - w9 M7 T# {$ D" I' d是可以,我帖子里就写了复制可以。
    , s  T& u5 `: L2 |' `
    不明白复制粘贴就能解决的问题,为啥还要找软件处理

    该用户从未签到

     楼主| 发表于 2020-8-3 13:03:29 | 显示全部楼层
    wjl 发表于 2020-8-3 13:00
    $ [% i+ c0 m7 [( m# I/ Q8 ATime used for this section: 0 seconds
    + Q( H% J" t( O$ x/ zBegin processing data contents...
    % {8 A% s( ~$ a+ m, |. L7 nDone!

    0 H$ n* C: X8 G) @# D好的,谢谢。我也重做了,之后比对比对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-8-3 13:08:30 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:03
    * c$ i+ _; u# @# U好的,谢谢。我也重做了,之后比对比对。

    1 ]+ z& f( R4 f- L' B# whttps://www.pdawiki.com/forum/fo ... p;extra=#pid1960898

    该用户从未签到

     楼主| 发表于 2020-8-3 13:09:05 | 显示全部楼层
    wjl 发表于 2020-8-3 13:036 n! a. Y+ _. O0 Z* @
    不明白复制粘贴就能解决的问题,为啥还要找软件处理
    ( C+ d* Q4 t5 f/ c+ i
    总不能逐页复制粘贴吧?
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-8-3 13:13:42 | 显示全部楼层
    eeshu 发表于 2020-8-3 13:09; [0 y6 b/ X- T2 g- C- O6 C1 P8 |
    总不能逐页复制粘贴吧?
    ( E9 v  u$ i; P
    不是有ctrl+A全部选定吗

    该用户从未签到

     楼主| 发表于 2020-8-3 13:16:13 | 显示全部楼层
    本帖最后由 eeshu 于 2020-8-3 13:17 编辑 + X. E4 G2 W" ^# k) }# x/ ?. s# o
    wjl 发表于 2020-8-3 13:133 H, D; {6 G8 y" H; _' \
    不是有ctrl+A全部选定吗
    ( j9 ^6 r6 A7 g1 Z; F
    我的内存没有这么大。而且ctrl+A可以跨页复制吗?
  • TA的每日心情
    慵懒
    昨天 07:23
  • 签到天数: 1724 天

    [LV.Master]伴坛终老

    发表于 2020-8-4 04:40:53 | 显示全部楼层
    eeshu 发表于 2020-8-3 10:264 K8 o3 Z, {- [  Z9 C
    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g ; @( j4 v1 Y0 Y, {4 [0 G
    提取码:kz89,请试试你的各种法宝。 ...
    $ C# X- t! M' d+ \+ I; H
           楼主试过的acrobat、foxitsmallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、SumatraPDF、Calibre、PDF2TXT、txtFormat和Wondershare PDF Converter,前三种和最后一种成功转换,Calibre、PDF2TXT和txtFormat失败——根本没有汉字!文件也是最小的三种;原文件和转换后的文本文件列于下,文本压缩包见附件。  d" o/ q. {% o0 n# d
           从转换效果来看,Apabi Reader和SumatraPDF最好,基本与原文一致,Caj次之,Wondershare PDF Converter转换的每个汉字之间均有空格。Caj是这几个软件中唯一能正确双栏显示Pdf的,其他几个都只显示单栏;Calibre名气不小,而且支持的格式最多,但这次失败了;PDF2TXT批量转换较快,但经常有乱码。
    1 T& T+ F% L& x2 E       另外,我在将带有表格的Htm(Html)转换为Txt文本中,试过多种方式,往往都难以保持表格对齐的格式,似乎除了很老的Netscape 4.05浏览器,现在流行的各种浏览器都不能正确地把网页存为保持表格格式的Txt文本,但Netscape上个世纪末被微软挤垮后再无踪影了, 虽然它无法支持今天的很多网页,但有这个优点,我仍然把它放在硬盘上备用。这个问题,不知各位大神有无高招?- T/ h1 e' B: S) H% I

    ) g. j+ T) g4 ?7 z8 I1 uYan Yu Ci Dian cut - Wei Zhi.txt    0.97M; K4 Q7 j! {+ G, c
    谚语词典cut.pdf    61.11M
    ' }' I& \% v; f( h' L! s谚语词典cut_Apabi Reader.txt    2.98M. C& s6 S0 H7 D; N; L' z
    谚语词典cut_Caj.txt    2.69M
    % `, \) W0 B1 m" {9 m# M7 {% Z谚语词典cut_PDF2TXT.txt    1.93M
    3 y8 s) E7 {: x/ X谚语词典cut_SumatraPDF.txt    1.03M2 i5 F! u1 }. Q  }1 i
    谚语词典cut_txtFormat.txt    434.37k
    9 i# T+ d1 w" C  @+ t) k谚语词典cut_Wondershare PDF Converter.txt    2.91M1 K1 |/ b- B3 x1 n: J' {( V; S. Y+ Z

    . o# j* S* W& O& [6 L1 E8 X6 K+ `" r; Y6 }# r1 G! R8 S
    " V! C' w, n4 L/ E& Y0 I( G- u

    . _5 j% E& c9 A; ]3 v' n5 X/ j+ f- c% ~0 ~; Q& G, C( M. |/ v

    ; O& V& R! D( {( k

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2020-8-4 05:53:17 | 显示全部楼层
    yfz48516 发表于 2020-8-4 04:40
    : v& `1 u$ x& l楼主试过的acrobat、foxit和smallpdf软件,我就没有试,我用了如下软件:Apabi Reader、Caj、Suma ...
    ( |& ?' L9 W# g; @
    哇,辛苦你了。昨晚我换了台性能好些的电脑,可以直接复制全书内容。对于文字版pdf,这是最保险的方式。当然,格式没有,光有内容。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-30 01:40 , Processed in 0.046706 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表