掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1001|回复: 22

[求助] 文字版pdf为何不能复制?

[复制链接]

该用户从未签到

发表于 2016-5-20 22:42:56 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2016-5-21 09:02 编辑
( i( e0 h3 {: c
6 E8 n! Y9 e. E/ H" O) v6 j手上有一份pdf文件,没有加密,非图片版本,文字可编辑,显示正常,但是复制粘贴到word里就全变成了方框框。我觉得可能是pdf文件内嵌了某种我系统未装的字体,但是按照属性中显示的字体上网搜索却又找不到相应字体。请问何故,有无解决方法?希望大神指津。谢谢。
5 h9 L, ^5 w, k9 i: s9 k# K( C/ ~7 Z% x1 I0 U8 P% w% \# f
附件是该文件

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-5-20 23:56:08 | 显示全部楼层
可以试试这两种方式:1.pdf密码破解  2.OCR

该用户从未签到

 楼主| 发表于 2016-5-21 08:39:42 | 显示全部楼层
本帖最后由 eeshu 于 2016-5-21 09:03 编辑
2 ~" [- y/ Q$ {. e0 U- ?+ s; W
644830104 发表于 2016-5-20 23:56  J2 |( [& b. h3 L
可以试试这两种方式:1.pdf密码破解  2.OCR
( k/ C: }# A/ k7 o$ P' p2 O7 l. D
. R: y" ~" U, A8 V* L) C, a9 H) N9 Q, ?
谢谢你。不好意思没说清楚,原文件没有加密。不是图片格式,无需ocr。我已附上了原文件。

该用户从未签到

发表于 2016-5-21 09:05:41 | 显示全部楼层
ExtractPDF.com
/ H( D' F& x# _
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-5-21 09:10:28 | 显示全部楼层
    应该是加密了,或者设置为禁止复制、粘贴的。

    该用户从未签到

     楼主| 发表于 2016-5-21 09:30:40 | 显示全部楼层
    meigen 发表于 2016-5-21 09:05
      e- e& `' @: j7 CExtractPDF.com

    " m+ h8 _* n$ F" I& B谢谢你。这个方法不行,text提取后显示的是乱码,见下图所示
    ( }( V0 X  j- Q& @, }1 @# V5 Q
    3 b  @/ B7 h/ J" F5 F
    " L2 m5 N; `. o3 Y  @: w2 v6 D3 ~6 B2 y' A6 r( c# V
    而且,我主要是想边看编做笔记,有时候需要从文件中复制一些文字出来,并非是要将整个文件的内容全部提取出来。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 09:32:20 | 显示全部楼层
    xzqxq 发表于 2016-5-21 09:10
    + b$ x# e6 a* |6 S% B/ h应该是加密了,或者设置为禁止复制、粘贴的。

    $ V0 Z) ~$ {8 J' D; c- a谢谢你。应该没有加密,能复制粘贴,只不过是显示乱码。
    : S2 k! V; x% w) w: f0 i( }7 h
    2 w1 ^, E4 y6 M" d0 y2 x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2016-5-21 09:46:48 | 显示全部楼层
    好像文档中每个字母都被一个 透明的 "?" 覆盖着,你搜索 ? 应该能看到。
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2016-5-21 09:48:41 | 显示全部楼层
    书的第二页第三页都可以正常复制、粘贴。

    该用户从未签到

     楼主| 发表于 2016-5-21 09:56:13 | 显示全部楼层
    deeke 发表于 2016-5-21 09:486 |( C. n6 I% o) a, v
    书的第二页第三页都可以正常复制、粘贴。
    7 [4 k! G6 k+ @, P
    嗯,我知道。可是其他页都不能。

    该用户从未签到

     楼主| 发表于 2016-5-21 09:58:21 | 显示全部楼层
    deeke 发表于 2016-5-21 09:46
    $ r% Q8 R% Z2 Y5 z9 @) E# g6 A0 X好像文档中每个字母都被一个 透明的 "?" 覆盖着,你搜索 ? 应该能看到。

    5 T6 c: a9 x1 h- r+ b没看到?。不过,我还有一个文件也是类似情形,显示完美,复制后不是方框了,全是空白。
    2 q0 `2 M2 P" _/ C) J# G
    . S) g+ f( K' H' t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2016-5-21 10:24:41 | 显示全部楼层
    本帖最后由 deeke 于 2016-5-21 10:26 编辑
    - E4 _8 {6 V  a. T% m& N- d
    eeshu 发表于 2016-5-21 09:58. I- @- Q; w! _( P+ o( L: e# u
    没看到?。不过,我还有一个文件也是类似情形,显示完美,复制后不是方框了,全是空白。

    5 ?! k4 U$ V+ J5 j4 I- b+ P$ w! @, D$ y4 l+ L% B" h/ }6 w
    这个文档内嵌字体。
    5 O+ h3 R1 y2 _0 B
    " h) c+ f5 c! }  k文章第一个字母 “A” 对应编码是 U+F0DF,正常应该是 U+0041( \" `" d# d- S+ S  f
    F0DF在编码表里属于 私有区,厂商或个人 都可以用这个区域的编码做一套专用字体。
    2 v. @' Z1 V  f8 }- c9 I9 t; ?( B- o+ p" a* L' g+ r# a8 F
    前段时间 MWALD online 的喇叭图标 就属于 fort awesome 的专用字体。

    该用户从未签到

     楼主| 发表于 2016-5-21 10:35:20 | 显示全部楼层
    deeke 发表于 2016-5-21 10:24' n) l8 l- ~9 p1 v/ N
    这个文档内嵌字体。
    & V, n, Q& M' Y' r5 E# I. c! {* U9 d8 X  Q3 S1 p
    文章第一个字母 “A” 对应编码是 U+F0DF,正常应该是 U+0041
    7 h/ o+ X* \2 H9 c: M" H8 k
    大概懂了是什么意思。但是,有什么办法可以解决吗?
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2016-5-21 10:53:29 | 显示全部楼层
    我不知道 囧rz 不知道有没有什么办法可以把 pdf 解包变成源文件。

    该用户从未签到

    发表于 2016-5-21 11:21:45 | 显示全部楼层
    本帖最后由 vbnet 于 2016-5-21 11:23 编辑
    : ?  F2 u+ y' @7 w: p/ B* t* r0 V! k3 A& ~
    原始作法% `3 Q0 _& c% p$ }' @' a

    7 x- N5 b5 I8 I, v. f
    " r9 ^9 }4 f0 w/ X; Vpdf--->png--->ocr--->校对---->doc9 h" [* s. v) V7 y2 K3 k& n  K

    , m4 a! j. }" t; X
    + _, h! Q8 l8 i. Y4 x- m0 a7 }看了一下,ocr时,一些空格会被吃掉,致使2个字连在一起
    : Y- x0 v% n7 b8 ~) z
    1 o% w1 N5 O% {& }( Wocr某些页面提示错误

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2016-5-21 11:39:01 | 显示全部楼层
    vbnet 发表于 2016-5-21 11:212 @" Q0 R/ u; i. Z+ ]1 u
    原始作法

    ; q  v/ }9 g# _0 W谢谢,我已经尝试过这个方法了,可行的。只是ocr后的文件且不说显示效果明显不如原文件,也凭空大出不少,所以我才请教诸位有没有办法取得原文件那样的显示效果的同时还能复制里面的内容。看来希望渺茫啊。

    该用户从未签到

    发表于 2016-5-21 16:57:50 | 显示全部楼层
    eeshu 发表于 2016-5-21 11:39
    ! t4 p) E; f, V$ E- K5 E. e谢谢,我已经尝试过这个方法了,可行的。只是ocr后的文件且不说显示效果明显不如原文件,也凭空大出不少 ...

    ! a" s/ k4 M, L字体作怪
    - @+ v8 a4 c# y% C/ F' _
    % E- `3 Z- r9 q- \3 O0 ^

    该用户从未签到

    发表于 2016-5-23 11:06:07 | 显示全部楼层
    这个用Acrobat Pro 按300DPI 打印,再用ABBYY来OCR处理的文件你看是不是可用8 R; W! x4 y, T8 `  B: X

    6 Z& {0 ]  |. t4 {4 P! _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-5-23 12:38:37 | 显示全部楼层
    identity-h,双字节编码。

    该用户从未签到

     楼主| 发表于 2016-5-23 16:17:57 | 显示全部楼层
    ncq001 发表于 2016-5-23 11:06' c+ S3 y( V4 Y3 Y% k
    这个用Acrobat Pro 按300DPI 打印,再用ABBYY来OCR处理的文件你看是不是可用

    9 ?% J  C: _7 E8 D+ M: d( B谢谢你。我试试。

    该用户从未签到

     楼主| 发表于 2016-5-23 16:18:47 | 显示全部楼层
    jasonvzx 发表于 2016-5-23 12:38* O6 y  p9 T$ o, }9 C* J
    identity-h,双字节编码。

    4 v2 c, c- ]7 k- ]) a什么意思?看不懂。愿闻其详。

    该用户从未签到

    发表于 2016-5-23 23:04:03 | 显示全部楼层
    eeshu 发表于 2016-5-23 16:18
    . ~& s) o; e! T4 W7 Z什么意思?看不懂。愿闻其详。

    1 d, s* I0 P# m" v- u: j说起来有点复杂,价值也不大。18楼说的是比较合适的方法。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 16:59 , Processed in 0.022775 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表