|
本帖最后由 Oeasy 于 2017-5-4 20:19 编辑 3 [. H* G8 y4 H# R3 ^& w
# o! y; Q7 u* p' R, @" v2 k3 R
8 F) U7 C8 A- G% L W! n
http://weibo.com/p/23041873040b820102wvy2
' x& e/ C( [+ F! I) K8 L向前辈们致敬。
% I- k7 X2 F2 |0 N5 d
4 ~6 y4 _7 a) P. E; \- i* d: U& q7 j7 V……
" x" b9 G4 ]7 D& @, e$ D- y从1992年,我又开始从事汉字识别方面的研究工作,选择了被认为难度最大的脱机手写体汉字识别,也就是对写在纸上、经扫描得到的汉字图象做识别。1994年我在职攻读博士学位,研究方向就是有关脱机手写体汉字识别方面的。在单字汉字识别研究的基础上,我们组最早研究了汉字识别后处理方法,也就是说,在单个汉字识别的基础上,利用汉字在句中的上下文关系,自动纠正识别结果,提高识别率。在一次863组织的汉字识别评测现场,我们的系统以句子为单位,先是显示单字识别结果,再显示后处理后的结果。限于当时的技术水平,又加上评测用的汉字写的不是很工整,识别结果错误很多,以至于很多句子看不懂,但是经后处理后,大多数识别错误的汉字得以纠正,人看懂已经完全没有问题了。当后处理结果显示出来后,我还清楚的记得,现场观众一片哗然的叫好声。: r, S5 a" c i( @4 k- k
' H( U% L P1 w0 j大概在1997年前后,突然有几个公司宣布要做《四库全书》数字化的工作,有的公司还在人民大会堂抢先召开新闻发布会,试图抢占先机。这些公司完全没有想到这件事情的难度,试图采取人工录入的方式,完成《四库全书》的数字化工作,最终导致失败,只有采用了我们的汉字识别技术的书同文公司最终取得了成功,完成了《四库全书》全部的数字化工作,这也是我一生中可以保留下来的一件有意义的工作。
6 m q! L% R# [3 m5 O' W- R2 ^" C2 e8 w
《四库全书》数字化难度在哪里呢?为什么用人工录入方式的尝试均以失败告终呢?《四库全书》共收录古籍3503种、79337卷、装订成36000余册,含有约8亿个汉字。台湾曾经出版过影印版,在页面缩小到原来页面的四分之一后,全套书总重量仍然达到了2.5吨的重量,可以想象这套书有多少。这么大的量,又是繁体字,录入也好,校对也好,都带来了极大的难度。而以汉字识别为基础的数字化方案,从识别到校对,可以提供一套确实可行的解决方案,最终历时两年时间,终于完成了《四库全书》的全部数字化工作。这其中也遇到了几个技术难题,比如缺少训练用样本等,为此我们提出了一种样本生成技术解决训练样本少的问题,并提出了一种增量式学习方法,实现了边训练边识别,可以滚动式地构建古籍识别系统,这对古籍数字化是一个非常重要的技术。可惜在报教育部奖时,被某权威人士认为是“现有技术的简单应用”而落选。1 K A" j: o, W0 |$ P
…… : P4 m6 f: F0 z2 {5 \1 }5 k- T% j6 U
9 _5 m% {3 x) g8 @/ E0 n1 Ohttp://www.unihan.com.cn/+ K% Y" w8 p( e4 U2 s; A/ r5 W
- k0 {8 G1 [9 @+ ^, U
9 i: i# I2 _ }4 o- B& c6 s |
|