掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1669|回复: 5

[工具] 制作汉语图片词典索引词头用的方便软件

[复制链接]

该用户从未签到

发表于 2016-2-22 23:17:40 | 显示全部楼层 |阅读模式
最近发现 汉王 PDF OCR 挺方便的,尤其是在识别中文 PDF 扫描文档方面,只要原始档案足够清晰,识别效果还算令人满意,配合着这个软件的版面分析,可以识别多分栏的 PDF,识别后的红框可以删除,调大,缩小,可以方便过滤掉无关内容,扫描出来的文字上方会有图片提示,方便改错,下面的图片窗格会随着相关内容移动,给改错提供了便利:8 x8 K* l$ T  B6 [
& ]' d- h+ T- u: z
9 T1 F9 E% D" J
% D0 ?0 w2 f1 C
初步过一遍,改完,符合正则表达式替换的规则后,处理起来就很快了:
4 L5 W7 @6 G( e( a5 D5 R
7 k# g. ]& B  e& S: z( p+ O$ N7 k3 g/ {. \; F% N$ V
! r3 Y. E9 w3 N( l0 h
根据我自己的测试,处理完一页得到完美的词头索引大概需要 5 分 40 秒,其中每页含词头 134 个。如果一本书,就像我图中的那本,词条 11899,需要总耗时大概 7.4 小时,也就是每天 1 小时,一周就可以做出来,比人工录入快多了。像中型词典 70000 个词头的话,大概 50 个小时,每天两个小时,需要一个不到人月的工作量。着实方便不少。如果大家一起加速,制作起来还是很快的。需要的朋友可是网上搜索试试这个软件。个人免费带广告,大概 30 多兆。. T* d* s8 H% Q
( ?* Y0 o/ F; @

& J6 b" P: H! I8 {# P4 y

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2016-3-3 06:32:32 | 显示全部楼层
    真是利器。不知道比acrobat的效果是不是更好一些。

    该用户从未签到

    发表于 2016-3-26 08:50:14 | 显示全部楼层

    ' h  U, S& M0 w谢谢排版和分享
  • TA的每日心情
    擦汗
    2025-2-3 08:55
  • 签到天数: 548 天

    [LV.9]以坛为家II

    发表于 2017-4-27 07:27:09 | 显示全部楼层
    请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:6 o. K/ P8 U1 N2 _' q
    三有;85
    % H, ]: J  _3 T* h% ]三达;85* X8 m7 X% ~1 v6 e& K; u% r$ @+ Z
    三轨;85        
    2 F+ e. w: Z9 }8 l" Z* k3 R' ^7 z" T2 ]* E. u& j: U
    就可以了吗
    ( E0 o  ^3 t' H
  • TA的每日心情
    慵懒
    2018-6-25 21:54
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    发表于 2017-5-24 02:21:42 | 显示全部楼层
    soapy6 发表于 2017-4-27 07:27
    0 L# S9 Q% \1 K$ R' z请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:
    2 {- ]8 v! u% N6 p三有;85# G+ Y8 E) T  T5 r1 N. [
    三达;85

    8 ^8 a  T8 l+ k! i2 M/ z可参看tsiank大大的图片词典制作攻略https://www.pdawiki.com/forum/fo ... hread&tid=13451

    点评

    多谢多谢!  发表于 2017-5-25 12:02
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-7 02:59 , Processed in 0.021015 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表