掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1021|回复: 7

[求助] 网上这么多MDX词库都哪里来的?

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2019-9-19 07:20:54 | 显示全部楼层 |阅读模式
    如果一本词典搞不到任何电子版,只有扫描版pdf,能否通过OCR和相关软件最后制作出MDX? 具体有哪些流程有哪些常用软件?是否OCR的质量是最为关键的指标?哪种OCR软件效果最好?整体下来软件能自动做多少工作,人工的工作量又有多大?

    该用户从未签到

    发表于 2019-9-19 08:24:41 | 显示全部楼层
    理论上可以,实际上这么做的人不多
    1 Y) a1 m" }; \
    ( P8 [/ @7 b) B, h& f5 M我都是做了图片版完事

    点评

    图片版的优势是直接看到实体书的排版,劣势是比较占空间、缩放不方便。  发表于 2019-9-19 09:00
    K大好像对图片版词典情有独钟  发表于 2019-9-19 08:43
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-19 09:36:29 | 显示全部楼层
    什么是图片版?是不是仅仅OCR每个词条的词头,查词的时候就跳转到那个词头对应的扫描图像?即使是这样也需要保证词头OCR识别正确啊,那也是不小工作量啊。

    该用户从未签到

    发表于 2019-9-19 10:39:40 | 显示全部楼层
    lbhl 发表于 2019-9-19 09:36
    0 M/ ~; G4 }+ K  Z' p什么是图片版?是不是仅仅OCR每个词条的词头,查词的时候就跳转到那个词头对应的扫描图像?即使是这样也需 ...
    & H4 `5 n6 q) f8 i# S. |
    OCR书里面自带的目录而已
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 16:31:32 | 显示全部楼层
    好多是转自 灵格斯。
    $ w  M+ ~0 Q0 Q# L4 i  R1 I5 }2 W* W
    ( c# t3 n! y0 e1 w灵格斯彻底给和谐了
  • TA的每日心情
    郁闷
    2020-12-16 13:57
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2020-3-17 13:32:48 | 显示全部楼层
    没有任何收益的事情进度就缓延
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-17 00:47 , Processed in 0.052336 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表