掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 935|回复: 3

[词典讨论] 《四库全书》数字化背后的一点故事[...]

[复制链接]

该用户从未签到

发表于 2017-5-4 20:17:21 | 显示全部楼层 |阅读模式
本帖最后由 Oeasy 于 2017-5-4 20:19 编辑
6 y9 h# `* k- A; g9 \6 U% A, N( n0 d7 l& f$ R1 x

9 Q' r- O0 }( l: Shttp://weibo.com/p/23041873040b820102wvy2. U1 ]0 j) U9 i
向前辈们致敬。( x, J) ]2 k# x. v7 Z* J

% P9 ?) ?+ t2 A8 w# v
……
! w- |; C& H- R1 \从1992年,我又开始从事汉字识别方面的研究工作,选择了被认为难度最大的脱机手写体汉字识别,也就是对写在纸上、经扫描得到的汉字图象做识别。1994年我在职攻读博士学位,研究方向就是有关脱机手写体汉字识别方面的。在单字汉字识别研究的基础上,我们组最早研究了汉字识别后处理方法,也就是说,在单个汉字识别的基础上,利用汉字在句中的上下文关系,自动纠正识别结果,提高识别率。在一次863组织的汉字识别评测现场,我们的系统以句子为单位,先是显示单字识别结果,再显示后处理后的结果。限于当时的技术水平,又加上评测用的汉字写的不是很工整,识别结果错误很多,以至于很多句子看不懂,但是经后处理后,大多数识别错误的汉字得以纠正,人看懂已经完全没有问题了。当后处理结果显示出来后,我还清楚的记得,现场观众一片哗然的叫好声。
, S( R6 V$ }- g2 \  T4 w* J  n$ Q) G! [4 R
大概在1997年前后,突然有几个公司宣布要做《四库全书》数字化的工作,有的公司还在人民大会堂抢先召开新闻发布会,试图抢占先机。这些公司完全没有想到这件事情的难度,试图采取人工录入的方式,完成《四库全书》的数字化工作,最终导致失败,只有采用了我们的汉字识别技术的书同文公司最终取得了成功,完成了《四库全书》全部的数字化工作,这也是我一生中可以保留下来的一件有意义的工作。3 @3 R4 p+ A+ \+ a; A+ x2 Z
; p8 _8 k0 B- L
《四库全书》数字化难度在哪里呢?为什么用人工录入方式的尝试均以失败告终呢?《四库全书》共收录古籍3503种、79337卷、装订成36000余册,含有约8亿个汉字。台湾曾经出版过影印版,在页面缩小到原来页面的四分之一后,全套书总重量仍然达到了2.5吨的重量,可以想象这套书有多少。这么大的量,又是繁体字,录入也好,校对也好,都带来了极大的难度。而以汉字识别为基础的数字化方案,从识别到校对,可以提供一套确实可行的解决方案,最终历时两年时间,终于完成了《四库全书》的全部数字化工作。这其中也遇到了几个技术难题,比如缺少训练用样本等,为此我们提出了一种样本生成技术解决训练样本少的问题,并提出了一种增量式学习方法,实现了边训练边识别,可以滚动式地构建古籍识别系统,这对古籍数字化是一个非常重要的技术。可惜在报教育部奖时,被某权威人士认为是“现有技术的简单应用”而落选。
1 u7 s& \# m3 P/ Q# k……
: I5 m9 f/ O* Z8 A
4 o: S. u& W8 }7 V! D
http://www.unihan.com.cn/
5 T' e" w1 D; f) j7 {; n
( r& n3 g! a! H! A
- m; I8 K) E2 l/ y# {' ]

该用户从未签到

发表于 2017-5-4 22:53:33 来自手机 | 显示全部楼层
目测等下又会有人回六个无意义字母和一个无意义空格
  • TA的每日心情
    开心
    2022-9-28 10:43
  • 签到天数: 426 天

    [LV.9]以坛为家II

    发表于 2017-5-5 08:43:45 | 显示全部楼层
    买过盗版的24张四部丛刊,用起来比较麻烦,作为资料备查吧。还用过国学宝典的软件,虽然错字较多,但用起来方便。希望有一套强大权威的国学总集。不知有没有类似BibleWorks这种全面的软件,从原典到注释,再到现代诠释无所不包的软件。
    % ]' a) ]( h6 S+ E$ S3 _

    该用户从未签到

    发表于 2017-5-6 19:08:56 | 显示全部楼层
    这个可以有
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 05:33 , Processed in 0.044960 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表