掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1349|回复: 1

[词典讨论] 识典古籍(北京大学-字节跳动数字人文开放实验室)

[复制链接]

该用户从未签到

发表于 2023-6-27 21:56:32 | 显示全部楼层 |阅读模式
本帖最后由 Oeasy 于 2023-6-27 21:59 编辑
9 I) Z/ {# y  `* _, l+ B" l' Q6 a
2 ^: D" }! k! P7 Y! L
- `3 v" C4 i  K9 |爾雅 https://www.shidianguji.com/book/SBCK013
* S6 a. n) Q$ t2 }5 A" }$ y9 w- C" L* Y- r8 J2 o; p; y& }5 Y5 `

# U" j# w; v; n. G7 I  o) d0 Q参考:https://gongyi.bytedance.com/iss ... 7160869621275379748! O- R3 O6 M. B! H
20230314 字节跳动古籍保护专项基金介绍及重点项目 http://www.news.cn/culture/20230 ... e25ba9f441c4/c.html
4 |6 B2 W1 o' E/ S2 ?20220407 "识典古籍"上线,千万字符在这里跳动 https://gongyi.bytedance.com/detail/7161003434291775518
  h" B' {, x: s
2022年04月07日& a; O$ q, |# m# U

3 t! E5 ^3 n8 D0 h& p8 b近日,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版正式上线了。​
; J4 {) x3 P8 X' y+ t6 u: T6 a8 v& ~. h+ Q
目前,平台已经整理上线了390部经典古籍,共计3000多万字,主要来自《四部丛刊》;预计在3年内,我们将完成10000种古籍数字化整理,基本覆盖儒家、道家和佛家的核心典籍目录,并对全社会免费开放,公众可以通过识典古籍平台高效检索、阅读和利用古籍。​+ ]! T# |  W* C  ]2 I
/ Q: F' F4 X/ B# {! c: t
感兴趣的朋友可以在PC端进入网站https://www.shidianguji.com/进行体验。​
, F0 i# R3 Q% @) E* t* W$ H* X5 _- a1 K: u. U
8 D2 |* o6 ^4 A8 R. o4 ~/ C
* g1 M# ~  \- p9 r! `' ^/ f

- e! H1 }# A9 J( o. r) K( f8 n
# R! u, C2 \& u& t$ F8 G# R  @1 h一直以来,古籍数字化整理面临着技术、资金等诸多困难,导致数字化进展缓慢,或使用体验不佳等。据不完全统计,中国现存古籍约20万种,其中已经完成数字化影像扫描的有8万种,而实现文本数字化的仅3-4万种。​
" N. o' v2 |, T( Y0 z
6 S0 A. v7 Y/ `( {: p$ u# u! _今年3月,字节跳动与北京大学开展合作,希望通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。​1 J4 T. J0 q4 s7 r% D; V, j9 b( `
0 o( B' t; I: D: P5 D8 ], c2 d% U
01. ​
: s6 ^& Q4 ~1 Q, W9 |3 I识典古籍测试版的四个特点​. W5 A  @1 p: k. H: N
* k; p5 H6 y! r+ E. c& b! X8 Q: b$ i% z
目前上线的“识典古籍”测试版有以下四个特点:向公众免费开放,实现知识共享;采用影印底本,来源权威;繁简一键转换,方便阅读;灵活检索古籍,运行流畅。​
* O0 {6 p  ^2 d) u  _: R( s& k
4 Z; R/ B% W6 n5 j首先是免费开放,知识共享。为了让更多人阅读到古籍里的内容,促进知识的共享,“识典古籍”数字化平台将长期免费向全社会开放,同时,我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人一起共建。​
, @% b) \! Z* G6 d3 q: g8 T7 l, V# j' F0 f3 y3 z! ~
其次是影印底本 ,来源权威。进入“识典古籍”测试版,用户任意阅读一本古籍,均可通过点击“原本影像”,查看古籍的底本影印图像。通过左右对照,大家既能用现代人习惯的方式顺畅地读懂古籍内容,也能感受原汁原味的古籍。​
/ [: @4 G$ W" y( a$ ]8 b1 i, L8 j: x8 U( i' y
+ J0 g( {# U5 E' Z

/ R5 y" ?2 E, ]( [* A4 z8 [* h! P$ F& w2 @6 w! n4 I0 [& x
2 j" y. ?3 q: R9 l* z: c
第三是,繁简转换,方便阅读。点击右上角繁简体转换功能,可轻松切换繁简字,方便专业研究人员、古籍爱好者以更加高效便利的方式读懂古籍内容。​
% |. k  h0 A& U. I6 Z5 v
- ~! \& M+ s. n3 F% I' n( e0 O! Y- |( J& q" C

3 }* S& i# t' S. ?: D) L( Y$ Y: r' o1 C! h. X
; n2 C, T' r; E( c9 q: O& L
第四是,灵活检索,运行流畅。用户还可以通过关键词检索,快速找到来自不同古籍的相关内容,方便大家对文献内容进行灵活运用。依托字节跳动积累的产品研发与设计能力,“识典古籍”测试版也保证了使用过程的稳定、快速。​
& S' ]4 D9 d3 Z9 @9 ]2 e
1 q/ @8 h4 U! |6 o; }/ C' i8 g
% @; e; E5 D" X( y8 k; L* G0 c' d) x2 Y  r; p; g$ r5 F; K

8 c: w# e5 Y+ |/ n, j9 f/ }. V- G
02. ​
6 n, Z* G$ [4 ~9 B/ q古籍是如何实现数字化的?​
7 I$ l4 V4 J* `5 }" ?; a" T
$ |8 b  l; q/ s1 ]* }“识典古籍”测试版的开发与上线,依托于字节跳动与北京大学在OCR文字识别、自然语言处理、知识图谱等技术领域的合作。​$ u6 b; @1 F, B. Y4 b; A% G: r: \
( k: A0 I# O+ M
古籍的数字化主要经历了文字识别、自动标点、命名实体识别三个过程。​
- k2 V( d0 B, l% R9 [. Y2 N
  C( H5 F! B* i. Y% w3 L* k2 G第一,在文字识别阶段,OCR技术首先将单个文字从图片中一个个切割开,再将切分好的图片送入模型,识别出具体文字,最后结合文字内容和文字位置获取阅读顺序,完成了文字的识别。目前行业内OCR的识别准确率平均为93%至94%,而“识典古籍”将这个数字提高到96%至97%。​) I$ f# t- j" I2 V

# U$ F/ {! H  z. Y; f. h/ {- a9 Y" G( q, {8 U; j; q  r

- y3 Y: S: u" m: m  N
) ^& R% k  N' H' e# S8 Q
5 G- _2 e9 ^2 ~2 ^9 P
. v) H7 q) d- X6 X) J第二,在自动标点阶段,要通过算法,给原本缺少断句的古籍自动打上标点符号。文字识别步骤中被识别出的文字,在编码后被转换为计算机语言,通过计算,文字被打上标点并输出。举个例子,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”​* x4 ~' C. }5 ?$ t1 d. N* ^0 {% E- l

1 t1 r+ n- N) u% T# {$ L0 ?9 c& ~8 c. y3 T

/ @% k" H7 H# X. [/ s
' W+ W9 z8 W1 {5 s# {  W; t4 {. e7 [1 G* ~4 c! f7 G
第三,为了进一步优化文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职五种类型的专有名词。​
% b2 U, U2 s5 ^6 j( v) F
: F/ d" J7 l5 P0 [& g
$ _% B8 ]5 g# H  z, \# c9 ~* c
' A" y! J4 Z7 T% ~
, K0 ?) p6 {  R1 l" u8 u9 i
# y( T8 _/ Y% A+ Q* Z( y除了搭建古籍数字化阅读平台,字节跳动还在助力古籍修复、古籍活化上进行了探索。2021年6月,字节跳动联合中国文物保护基金会成立古籍保护专项基金,与国家图书馆开展合作,预计1-2年内修复珍贵古籍100余册件,培养100名古籍修复人才。同时,我们还通过古籍纪录片、激励创作者以多元形式演绎古籍知识等,让古籍鲜活起来,吸引更多人喜爱和关注。​7 F/ @0 k* d4 f
3 n! v( O& B& P; t0 _) X* p8 \" H( ~
文以载道,源远流长,古籍穿越历史的长河,带着古人的智慧向我们走来。我们期待与更多的古籍收藏机构、研究团队、爱好者等一起,助力古籍传承,让古籍真正活起来,传下去。

, M0 p0 Z# C6 |
5 `0 H; C' i& _& O$ q- C% F$ C+ B. N4 h

( I8 ^" m6 k/ `

评分

1

查看全部评分

  • TA的每日心情
    开心
    2023-12-28 15:41
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2023-7-2 11:41:24 | 显示全部楼层
    好东西啊!
    3 Z% d) |$ d8 n8 o! \& V  X7 ^多谢分享。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-19 15:06 , Processed in 0.020374 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表