掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 591|回复: 7

[求助] 如何最快速制作粗略匹配的图片词典OCR纸版词典页眉部分?

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-1-26 01:17:15 | 显示全部楼层 |阅读模式
    本帖最后由 starmars 于 2021-1-26 01:20 编辑
    8 y2 q: H7 i- ~; ]* O! M2 [8 X5 D0 h# ~, g
    不想费力OCR出来每页的单词,只想用虚拟词表。那么整部图片词典MDX制作的原始数据就仅仅是纸版词典每页最前面和最后面的单词各是什么(甚至只需要知道每页最前的单词而不管最后一个单词是什么)。一般词典页面的顶端页眉都有这个信息的,那么如何用OCR的方式将这个页眉信息准确而快速地取出来呢?

    该用户从未签到

    发表于 2021-1-26 07:58:17 | 显示全部楼层
    裁剪图片——OCR即可

    该用户从未签到

    发表于 2021-1-26 11:28:21 | 显示全部楼层
    获取正文页面的首末单词索引. Y% h" Z1 z* c/ b
    https://www.pdawiki.com/forum/fo ... hread&tid=291875 E' q, m- Z& _  m$ w5 B. Y
    (出处: 掌上百科 - PDAWIKI), @2 Y# y- b4 J& o2 K, [& I/ n
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2021-1-26 12:30:46 | 显示全部楼层
    chigre3 发表于 2021-1-26 11:28
    ' J- K5 Y3 O: f) H, r获取正文页面的首末单词索引* N9 \) ~- P2 c$ w
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=291872 O4 [1 a. R. P0 }, j# h# t% |! W
    (出处:  ...
    2 ]% D7 P  l' J8 k2 w6 l
    谢谢您!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2021-1-26 12:30:57 | 显示全部楼层
    klwo2 发表于 2021-1-26 07:58! H6 e3 ~+ B9 x
    裁剪图片——OCR即可

    , U! ^9 W2 k: D. f" t5 R谢谢您!
  • TA的每日心情
    郁闷
    2021-4-4 01:56
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2021-2-7 06:25:49 | 显示全部楼层
    谢谢 经验收到
  • TA的每日心情
    开心
    2025-1-6 06:04
  • 签到天数: 944 天

    [LV.10]以坛为家III

    发表于 2021-2-9 04:36:05 | 显示全部楼层
    裁剪图片推荐使用irfanview,因为页眉的位置基本固定,所以只要任选一页面,裁剪页眉,记下长,宽等参数,然后点菜单 File - Batch Conversion/Rename, 点Advanced,勾选Crop,输入参数,再选中要裁剪的所有文件,就可批量裁剪。不过,ocr只能用于高清版,否则错误太多,校对工作量太大
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2021-2-14 11:37:15 | 显示全部楼层
    本帖最后由 starmars 于 2021-2-17 01:26 编辑 & A% G, c# R/ `! O
    0 ?5 b& _7 f! s4 Q+ t2 d9 U- w
    要说裁切PDF中图片,ABBYY FineReader自己就能做,但速度奇慢而且还不可以后悔进行复原,如果裁切不合适后来才发现就得关闭重新打开了。Acrobat也可以裁切,速度还可以,但也要等将近1分钟。真正裁切最快的,是PDF-XChange Viewer,那是瞬间的事情根本无需等。: G0 v, Q+ }* S  K, X3 [
    一直纳闷,裁切并不用真正将pdf中图片裁掉(裁切完再保存PDF不但不减少体积反而增加几十几百k),而只是做一个裁切范围的标记显示的时候将此范围内图片隐藏就好了,不明白ABBYY FineReader,Acrobat中裁切机制是什么为什么那么慢。
    3 ^. z4 C: M% g, a  v/ w+ z也可以用ABBYY中的区域模板来实现,这个也是瞬时完成的,但之后再OCR这个区域的速度,还是比不上先用PDF-XChange Viewer裁剪再到ABBYY中OCR快。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-3 15:38 , Processed in 0.021199 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表