掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1553|回复: 4

[求助] PDF词典的OCR是怎么进行的呢?

[复制链接]
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-9-3 18:15:42 | 显示全部楼层 |阅读模式
    本帖最后由 Charlieqiu 于 2019-9-4 00:50 编辑 , c5 z' c! d  Z' l. v& N

      s2 h; `1 [2 u! b我对这个技术问题感兴趣,有没有可行性高的ocr步骤将PDF词典转换成文字版?1. 比如现在我只能想到用Finereader14先识别,但识别后是先导出再校对,还是在Finereader内校对后再导出?6 O; g# E. ?( p3 n- Y
    2. 用Finereader14识别后导出的格式应该是什么?因为要保存标签,所以用html格式,但这标签太乱,根本不能用啊
    , G0 Q/ E# E6 `3 Z& Z* R3. 以及其他具体的ocr及校对的步骤+ ~: _- a, @3 [* U% O- A
    我现在是在慢慢学习技术中,就将制作词典当实例练习,慢慢熟练起来
    $ e9 w. \$ ]) X  e" R" f& d) s% C8 Q/ @: X' j

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-9-3 21:03:25 | 显示全部楼层
    我是先导出再校对
    3 ~. D5 i% i) S, K' a6 u; G! `$ x/ |: M
    建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就行了
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 00:48:24 | 显示全部楼层
    klwo2 发表于 2019-9-3 21:03. {$ l4 V3 @; H( q/ N3 o
    我是先导出再校对' O1 _% C" U9 u0 @  T: I) v

    ! B" }5 e" g! U; k8 ^建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就 ...
    ' K" W$ o; B) i( z9 H
    不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 03:38:08 | 显示全部楼层
    现在这样ocr转换成文本太麻烦,看来没有比较方便的方法,目前如果没有好的文本数据源,图片词典还是唯一选择,可惜图片格式没有能像PDF一样能搜索文字,不然更加方便一些

    该用户从未签到

    发表于 2019-9-4 08:01:14 | 显示全部楼层
    Charlieqiu 发表于 2019-9-4 00:48
    0 d( C. [: z/ B6 `: Z; `9 s不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
    2 r/ t; Q$ y; v& E( M/ l
    ocr成文字版的mdx不是不可以,不过有限制:9 A! ~$ C" ~6 z/ [

    7 A# a$ k! Z' o1. 最好不是专门的汉语词典,不然生僻字很头疼
    + A- N) Q# G6 a" V7 B; g0 S( ]2. 最好只有英语字母,没有特殊符号,不然校对很头疼
    # _. K5 N; ]4 r8 F) z3 H( a5 H7 z$ O3. 图片越清晰越好0 v+ @0 p) C4 R) E

    7 M& c7 `/ V- O这么看下来,就没有太多词典了! J+ a; ]& @: B# ]3 `5 t7 `
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-22 04:48 , Processed in 0.021103 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表