掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1039|回复: 4

[求助] PDF词典的OCR是怎么进行的呢?

[复制链接]
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-9-3 18:15:42 | 显示全部楼层 |阅读模式
    本帖最后由 Charlieqiu 于 2019-9-4 00:50 编辑 - I, H6 ~. ]0 h; O8 J8 R

    4 S! }0 X* s7 ?! Z- b4 U我对这个技术问题感兴趣,有没有可行性高的ocr步骤将PDF词典转换成文字版?1. 比如现在我只能想到用Finereader14先识别,但识别后是先导出再校对,还是在Finereader内校对后再导出?
    6 ?8 [5 K) O' B& O  K; x' c2. 用Finereader14识别后导出的格式应该是什么?因为要保存标签,所以用html格式,但这标签太乱,根本不能用啊
    ! ^  e2 t$ W  I" H! p% U% v" j3. 以及其他具体的ocr及校对的步骤+ ~' _. C. |1 t$ B2 F
    我现在是在慢慢学习技术中,就将制作词典当实例练习,慢慢熟练起来
    : g7 q; ?9 R  X3 q9 {; U4 H' W& H# k4 _

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-9-3 21:03:25 | 显示全部楼层
    我是先导出再校对
    3 F) _) s6 m  E! d
    5 q( O: l- b! h2 M* V% L建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就行了
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 00:48:24 | 显示全部楼层
    klwo2 发表于 2019-9-3 21:03
    4 S  H: x% B& i: |/ }4 p/ K$ j( K我是先导出再校对
    ) N4 [- C' `9 q1 p, e" P; p
    7 m, t8 Q/ k( ^  D建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就 ...

    ' C/ ]5 N6 \9 r9 Z7 ]不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 03:38:08 | 显示全部楼层
    现在这样ocr转换成文本太麻烦,看来没有比较方便的方法,目前如果没有好的文本数据源,图片词典还是唯一选择,可惜图片格式没有能像PDF一样能搜索文字,不然更加方便一些

    该用户从未签到

    发表于 2019-9-4 08:01:14 | 显示全部楼层
    Charlieqiu 发表于 2019-9-4 00:48
    1 h$ W; A* v% ^& O8 s) J7 _不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
    4 o" U8 {; G$ z" y0 R
    ocr成文字版的mdx不是不可以,不过有限制:) Q& O$ ~5 O, [* D! E

    % _6 W7 j. ]5 \1 \* _4 U% s. [1. 最好不是专门的汉语词典,不然生僻字很头疼
    : c5 t+ a' D0 p  z8 h2. 最好只有英语字母,没有特殊符号,不然校对很头疼1 E# k' D; M0 S. v9 p: v) o* C( f
    3. 图片越清晰越好
    ! g1 _5 t( I+ K& B
    8 i3 Q1 k" \7 X这么看下来,就没有太多词典了
    # {- W. i; b, v+ t% L! q9 o9 E
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 05:36 , Processed in 0.042039 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表