掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 435|回复: 2

[求助] 如何提取OCR识别出的可编辑PDF中黑体词条?

[复制链接]
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2020-7-9 19:08:04 | 显示全部楼层 |阅读模式
    如何提取OCR识别出的可编辑PDF中黑体词条?% `: T6 W/ N: D# U
    如下动图所示,有一个根据扫描PDF识别出的可编辑格式PDF,感觉其中的词条识别结果正确率很高,释义和例句部分的识别结果估计有错误。有什么工具能提取出其中的词条吗?方便做图片词典,可能的话,还可以提取出其中的释义和例句,方便做成文本格式的mdx,不过做mdx之前,需要仔细校对这些文本
    3 g  {$ {6 F& R7 \6 L! k5 O
    $ O. S, I$ A! c! I0 e! p
    : _4 [+ a; [4 ]4 z2 X. f! S

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2020-7-9 21:13:08 | 显示全部楼层
    如果不借用工具的话(比如chigre的工具),最直接的办法就是复制粘贴
    ! F. X+ S6 D! C9 a) I2 I; v
    ( p- L* Z2 y9 m! m7 W" O0 @当然了你肯定不喜欢这个费时费力的答案,但是目前来看就是这样
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2020-7-10 00:07:24 | 显示全部楼层
    导出成docx或者txt看看
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 19:27 , Processed in 0.034770 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表