|
本帖最后由 Oeasy 于 2023-6-27 21:59 编辑
" Q, ~5 N, g; q% L9 d+ ^) g3 n: S0 s0 y# n2 H. a" O& m, A
- Z, g/ X; N' v3 M; Y0 n. }爾雅 https://www.shidianguji.com/book/SBCK013
" p* S9 i( Q' S2 q0 ?) q# N
& C: A' I5 ~! h$ i% k6 W2 h6 a0 }( ]; Q
参考:https://gongyi.bytedance.com/iss ... 7160869621275379748
$ u* ^! c2 G+ Y t9 {- q' ~! h9 y20230314 字节跳动古籍保护专项基金介绍及重点项目 http://www.news.cn/culture/20230 ... e25ba9f441c4/c.html
. y5 [+ d5 F- U3 D& h20220407 "识典古籍"上线,千万字符在这里跳动 https://gongyi.bytedance.com/detail/7161003434291775518+ j0 e6 S3 H9 y' \: t
2022年04月07日' x f# i- ?1 h0 ~4 o$ ^9 l: b
! H1 M7 I2 b! N+ K1 j
近日,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版正式上线了。# _. E) K% W3 ~' J3 ]1 {
( ?+ L+ }2 a) `( K目前,平台已经整理上线了390部经典古籍,共计3000多万字,主要来自《四部丛刊》;预计在3年内,我们将完成10000种古籍数字化整理,基本覆盖儒家、道家和佛家的核心典籍目录,并对全社会免费开放,公众可以通过识典古籍平台高效检索、阅读和利用古籍。
( p6 l- i! @7 E5 ?- B ; F7 E7 }8 J2 a' A) ^7 @* F
感兴趣的朋友可以在PC端进入网站https://www.shidianguji.com/进行体验。
: e p$ v; X0 O9 k( E3 G* M/ y# s" D
+ q* @; o6 J% T$ I7 l [$ _7 A" ?6 q& ~' u: k2 b$ B
, y: e% N. M1 d+ F0 {
^9 P: P8 g/ U
一直以来,古籍数字化整理面临着技术、资金等诸多困难,导致数字化进展缓慢,或使用体验不佳等。据不完全统计,中国现存古籍约20万种,其中已经完成数字化影像扫描的有8万种,而实现文本数字化的仅3-4万种。
) D! I$ }& H( r$ X ; O" _3 t) [; @( n- Q
今年3月,字节跳动与北京大学开展合作,希望通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。
; {! K: I. I$ M) C6 o $ d8 J t5 W( N
01.
7 F: s ^$ i& X- G' {$ `% Q! c" i识典古籍测试版的四个特点
; H# ~5 R5 T. S/ q9 |9 a% |
+ T! y$ v2 W D6 Y" p5 ?& W2 k; |8 ?目前上线的“识典古籍”测试版有以下四个特点:向公众免费开放,实现知识共享;采用影印底本,来源权威;繁简一键转换,方便阅读;灵活检索古籍,运行流畅。1 c, E# y/ p. Z8 c
# z$ \) N/ ^# e: H* [) V I6 @3 e6 o首先是免费开放,知识共享。为了让更多人阅读到古籍里的内容,促进知识的共享,“识典古籍”数字化平台将长期免费向全社会开放,同时,我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人一起共建。
5 p# u. u/ |- U3 i& q5 p! X
7 O2 r+ Y" y0 T) P: m# d其次是影印底本 ,来源权威。进入“识典古籍”测试版,用户任意阅读一本古籍,均可通过点击“原本影像”,查看古籍的底本影印图像。通过左右对照,大家既能用现代人习惯的方式顺畅地读懂古籍内容,也能感受原汁原味的古籍。& z7 B& Q c) f3 J3 _
8 Q1 D/ o6 |& k! K/ U3 w
- u t) D8 n) I% q, w
) O7 e) N8 G" v8 @ {- m" y
, ~7 S$ V) l5 r* n9 ~% ~1 }. F' z3 a, i6 Y! \( X/ f7 }
第三是,繁简转换,方便阅读。点击右上角繁简体转换功能,可轻松切换繁简字,方便专业研究人员、古籍爱好者以更加高效便利的方式读懂古籍内容。* Q2 t$ B: W- z( g/ e5 u; J
) a7 Y. R6 A8 z; c' @! a
' p% |& z" s/ J- M" @6 J
) b' f! p2 _) k4 T, b
1 u# o% w9 [, \* i7 @9 H" Y. {4 n$ w3 a/ v
第四是,灵活检索,运行流畅。用户还可以通过关键词检索,快速找到来自不同古籍的相关内容,方便大家对文献内容进行灵活运用。依托字节跳动积累的产品研发与设计能力,“识典古籍”测试版也保证了使用过程的稳定、快速。
( ^# b' d7 D! K- N) r8 ^1 _' v) _* q
; e. F$ l/ A3 e" n( @6 m0 P/ i6 T
- V0 ^* `& m i1 e4 m6 H/ M3 I6 \
9 k1 @: H) z' W3 |
4 F j4 Z2 T4 e* k' m9 ]1 Y
02.
9 V! v" J/ P# \5 G& O古籍是如何实现数字化的?2 @( r, r) V7 W
" ?' r9 f1 x. L' d4 O8 n* ^
“识典古籍”测试版的开发与上线,依托于字节跳动与北京大学在OCR文字识别、自然语言处理、知识图谱等技术领域的合作。8 g. M; T1 ^, g4 C q4 o. \) f
$ w5 x$ S* B1 S. H7 x/ H
古籍的数字化主要经历了文字识别、自动标点、命名实体识别三个过程。
; f d4 G& r3 k" m, Y( [
% P: a" G! t- |2 z- q7 r第一,在文字识别阶段,OCR技术首先将单个文字从图片中一个个切割开,再将切分好的图片送入模型,识别出具体文字,最后结合文字内容和文字位置获取阅读顺序,完成了文字的识别。目前行业内OCR的识别准确率平均为93%至94%,而“识典古籍”将这个数字提高到96%至97%。
* g- }! g6 R4 O: K, B! {+ ]( t1 q4 d6 A
5 T' G) o' T- J8 R
$ i& g9 \) G) F9 u2 c! ]2 N" S$ H p5 K& h; c0 g5 _' x4 S6 C) @+ P- D
& i2 X+ N2 G5 E7 q( a6 @: [- s" h/ N1 L& l; H1 {8 C
第二,在自动标点阶段,要通过算法,给原本缺少断句的古籍自动打上标点符号。文字识别步骤中被识别出的文字,在编码后被转换为计算机语言,通过计算,文字被打上标点并输出。举个例子,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”
9 k9 B; S$ h% h
7 w! f' A' r# G! G
( e8 Y/ [( l. i% b8 g, S9 i) h4 _( [* z( Y, S
$ \7 a4 \& l& j
7 C- K. x3 y* O9 x. ?: o1 f
第三,为了进一步优化文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职五种类型的专有名词。
5 H# k7 w5 R/ R; k( E6 {4 q* x* r# F! z! G2 p3 |" ~
/ M: O# J h6 ~1 j# b9 G$ P1 ~9 |1 P
& s; h' |2 B- f
4 O1 Y0 f2 S% R7 {# C, l除了搭建古籍数字化阅读平台,字节跳动还在助力古籍修复、古籍活化上进行了探索。2021年6月,字节跳动联合中国文物保护基金会成立古籍保护专项基金,与国家图书馆开展合作,预计1-2年内修复珍贵古籍100余册件,培养100名古籍修复人才。同时,我们还通过古籍纪录片、激励创作者以多元形式演绎古籍知识等,让古籍鲜活起来,吸引更多人喜爱和关注。# e) |) u. e1 Z7 H& T- A
) R R1 T) Q1 l- w: H文以载道,源远流长,古籍穿越历史的长河,带着古人的智慧向我们走来。我们期待与更多的古籍收藏机构、研究团队、爱好者等一起,助力古籍传承,让古籍真正活起来,传下去。 ' D- j% T2 T6 Q* |3 b9 N& D
6 D! P1 [. o4 S0 Z( n
- y) f6 H, Z- ~/ P
7 g0 l7 I5 s! W; R) l: t |
评分
-
1
查看全部评分
-
|