掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1543|回复: 6

[讨论] OCR文本化引擎取得进展,高清或文本pdf转mdx可行性大大增加

[复制链接]
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2016-1-3 12:40:19 | 显示全部楼层 |阅读模式
    自写了一些代码帮助OCR文本化,目前效果勉强可用,唯中间仍需要不少人工干预,故无法制成独立软件。但文本化过程的痛苦程度应该可以大大减少.4 t& _4 k/ e" q! E  _7 q
    9 F$ f' T) T) G# t6 S
    这里知会同好,若有需要,可帮助做第一步(人工干预仍然可观,故只能挑选部分项目实施),转换成可用的mdx source,当然校对部分是没法做的。
    0 C/ P/ {/ Z5 t1 O; c
    4 Z9 h7 V9 N$ ]% {欢迎进一步讨论提高OCR准确率的方法。
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-1-3 19:14:47 | 显示全部楼层
    有很多本身就是文本PDF,不知道转的时候会不会容易一些
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

     楼主| 发表于 2016-1-3 19:26:11 | 显示全部楼层
    经典与古典 发表于 2016-1-3 19:14
    , S5 w- S0 X( j% {9 j有很多本身就是文本PDF,不知道转的时候会不会容易一些
    0 [1 }% c, ^! c  U: T
    文本PDF就不会有OCR错误的问题,转换结果最多格式稍欠完美,内容根本不需校验。
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    发表于 2016-1-3 20:26:29 来自手机 | 显示全部楼层
    期待早日有好用的工具

    该用户从未签到

    发表于 2016-1-4 09:50:54 | 显示全部楼层
    OCR现在最大的困难不是文字识别而是格式乱

    该用户从未签到

    发表于 2016-1-5 11:22:56 | 显示全部楼层
    如果不是现代排版的文本,那么还真是人工录入比较快。

    该用户从未签到

    发表于 2016-1-5 15:16:30 | 显示全部楼层
    Thank you Unsung Heroes!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-13 14:02 , Processed in 0.038592 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表