|
本帖最后由 Oeasy 于 2017-5-4 20:19 编辑
; T$ Q( l# g: g* A; ~! S: g& |8 v) O5 n+ l% [/ v# X- l6 h1 e
+ e8 \3 u9 |# ]2 x
http://weibo.com/p/23041873040b820102wvy26 F, `/ J; a0 p& S, |
向前辈们致敬。
: U' L8 B9 L- ~. k5 C1 @3 Z
3 c" W C' E' Y3 r……
, g1 h& h$ G6 R( a, z* E从1992年,我又开始从事汉字识别方面的研究工作,选择了被认为难度最大的脱机手写体汉字识别,也就是对写在纸上、经扫描得到的汉字图象做识别。1994年我在职攻读博士学位,研究方向就是有关脱机手写体汉字识别方面的。在单字汉字识别研究的基础上,我们组最早研究了汉字识别后处理方法,也就是说,在单个汉字识别的基础上,利用汉字在句中的上下文关系,自动纠正识别结果,提高识别率。在一次863组织的汉字识别评测现场,我们的系统以句子为单位,先是显示单字识别结果,再显示后处理后的结果。限于当时的技术水平,又加上评测用的汉字写的不是很工整,识别结果错误很多,以至于很多句子看不懂,但是经后处理后,大多数识别错误的汉字得以纠正,人看懂已经完全没有问题了。当后处理结果显示出来后,我还清楚的记得,现场观众一片哗然的叫好声。9 q$ h8 O0 R2 a6 r8 l( y
/ n/ `6 G6 ~7 [4 z8 r* ?
大概在1997年前后,突然有几个公司宣布要做《四库全书》数字化的工作,有的公司还在人民大会堂抢先召开新闻发布会,试图抢占先机。这些公司完全没有想到这件事情的难度,试图采取人工录入的方式,完成《四库全书》的数字化工作,最终导致失败,只有采用了我们的汉字识别技术的书同文公司最终取得了成功,完成了《四库全书》全部的数字化工作,这也是我一生中可以保留下来的一件有意义的工作。
% |9 F6 H: L6 v# z
1 |# O# R9 M& ~3 E0 d6 ]$ y0 P《四库全书》数字化难度在哪里呢?为什么用人工录入方式的尝试均以失败告终呢?《四库全书》共收录古籍3503种、79337卷、装订成36000余册,含有约8亿个汉字。台湾曾经出版过影印版,在页面缩小到原来页面的四分之一后,全套书总重量仍然达到了2.5吨的重量,可以想象这套书有多少。这么大的量,又是繁体字,录入也好,校对也好,都带来了极大的难度。而以汉字识别为基础的数字化方案,从识别到校对,可以提供一套确实可行的解决方案,最终历时两年时间,终于完成了《四库全书》的全部数字化工作。这其中也遇到了几个技术难题,比如缺少训练用样本等,为此我们提出了一种样本生成技术解决训练样本少的问题,并提出了一种增量式学习方法,实现了边训练边识别,可以滚动式地构建古籍识别系统,这对古籍数字化是一个非常重要的技术。可惜在报教育部奖时,被某权威人士认为是“现有技术的简单应用”而落选。7 [; U5 c% O5 K4 S
…… * ~' K' A) [- o" p# o
" ]6 L8 q) k( r" J: n, _' o2 E
http://www.unihan.com.cn/
2 q$ Z# S# X/ ~6 g7 {+ ]* l/ r
; e" g$ c1 z9 ?
( k: u% w# J8 k* K# t |
|