掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2220|回复: 168

[语言/文字] (20220919更新)全宋体及部件检索再次升级(收入H区)

  [复制链接]

该用户从未签到

发表于 2021-12-28 16:49:52 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2022-9-19 14:57 编辑 / @) ?' @) D# ^/ v

+ \0 A: N8 ]% U$ o  b3 k2022/09/19 因应unicode官方增订,全宋体增修历时半月后发布最新版,H区正式投入使用。老版的大量补充字扶正,有使用老版制作词典和其他资料的朋友需要迁码,H区迁码表一并提供如下。一如既往,感谢W兄和他的一众好友。本次修订细节详见https://fgwang.blogspot.com/2022 ... 71290485227680462290 i5 c; P" Y! A$ n! ]- z4 Y
2 y6 Y* x! W6 `5 }! F6 l; I* x
2022/06/10 距离上次更新不过两月,全宋体收字再次暴涨一万。此次更新重点在于“《教育部異體字字典》的所有字頭全數「文字化」。至此「全宋體」這個大型字庫,收字正式突破了十八萬漢字,涵蓋了四大字典(《漢字海》、《教育部異體字字典》、《中華字海》、《漢語大字典》)的所有字頭,應該足供專業等級的漢字應用。”
& ?: b, S: ?, _# X* B& T部件检索程序也同步升级至最新。3 f; u  S2 Z( _/ h, ?" f  |& ^4 A
! \5 h9 \, k. T9 m; f

3 S' {* @( ~7 z4 R5 O2022/04/06更新内容:十七萬漢字第一次更新——主要把落在15字面的《異體字典》字頭清理完了,拆分數據有缺漏部件的予以補齊,有錯誤的予以訂正,並做了最小拆分的優化。同時整併了三百多組重複的收字,讓這些位在不同字典中差點錯身而過的字重新再關聯起來,後續就剩下位於16字面的一萬四千多字尚待清理了。請重新下載。
8 P/ k6 P3 K/ l5 @
+ `3 Z5 n) `2 Q, V' y' I$ N' l7 a+ t+ S. Q' H# W$ |3 r+ x
年底收到WFG兄要发布最新版全宋体的消息,内心雀跃。从2018年我在本坛首次搬运到现在近四年了。四年里见证了这款字体的“野蛮生长”。
- d5 F4 d' r  O我也和论坛内外许许多多的网友一样成了这款不但大而全,且优而美的免费字体的忠实拥趸。2 U& \0 N" A5 ?- N+ {! Y6 X8 Q
翻查了一下论坛记录,距离上次更帖不过五月,全宋体收字居然暴增三万,达18万之巨。不说市面所见库容最大,但绝对称得上免费字体之最。
0 s/ E% O2 j$ N+ {& P1 T+ o作为一名长期关注该字体,并在后台见证了几位好友为之默默奉献、常年投入的粉丝,其间甘苦了然于胸。: Q, i/ W" {7 m  F
所以但凡遇到朋友问及哪款字体值得拥有,我都会不遗余力推荐全宋体。虽然我也听说过另外几款大型字体,有些甚至还有官方力量背书,但是我还是相信自己的亲眼所见。5 y( c/ {" D" j2 L0 i5 x& m( n; Y3 E
几位好友于这款字体的修正、增删、以及与Unicode官方标准的各种适配中苦心孤詣,我历历在目。好几次我都围观了他们为该执行哪种标准,是否应该增补某个字形以及能否认同异体字据理力争、不断博弈的场面。
: B+ Q/ D% \, [8 T" B何其有幸我能从他们的一次次争辩、一次次援引书证、一次次求证官方、一次次反复修改中受益良多!! l+ J) c& a1 v. f. b# `
我真心感到能认识他们我是有福之人,我也希望能将这福分分享给各位。
, S0 a2 M6 u( h+ D
/ t2 [& W, a1 M0 |. X' Y话不多言,宝贝自取。时值岁尾年头,预祝各位坛友来年更有进益,喜乐常在。
游客,如果您要查看本帖隐藏内容请回复

) f( u. m/ O; x% s. T; J" F
" T% X8 s5 t  D! K& H同时,一如既往推荐W兄的博客https://fgwang.blogspot.com,各位有话想说、有谢要表的尽量移步,我就不代为周转了。+ }* S' z+ n2 L" P

, ]/ |2 ?; B  E5 S& U, u/ }+ s以下内容照例悉数搬运自W兄博客。1 Q: R) Z* j2 f; x5 _
————————————————————————————————————————————————————————————————
- i5 l& t' o$ @, v% Z漢字使用環境的建置 ——十七萬漢字初稿登場
6 v/ J1 I$ |4 [2 F9 [6 B- Y2 \! D3 ^3 ~七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。' y) }, O: u. c, c# j. E5 H. |$ g

0 Q$ a0 |! r! _+ Q  `, r8 E6 _' t$ c! Q# {& n- R8 y* c& w
4 w% v' ^: ], @  b+ a& _  R" D
有不少朋友一直奇怪我為何要花那麼多時間去整理這些「幾乎用不到的」生僻漢字,甚至很多朋友很排斥使用這些「Unicode 官方沒有收錄」的私造字。我一直執著地要清理《異體字字典》的字頭,一個很主要的原因便是這項工作的邊際效益其實很高:6 b) @8 ^0 v' g  L* R. f0 v* O! [
可以還原《異體字字典》的圖片字頭,成為純文字的可檢索字頭。這可以大大提昇這些異體字的檢索、利用效率。5 ^! [& E4 C; d) g/ X& }4 ]. Y
可以建立起十萬漢字的橫向聯繫關係。一旦圖片字頭還原成可檢索的純文字字頭,利用《異體字字典》的異體表列,便可以將這十萬漢字的橫向關係聯繫起來,有助於字典查詢時的橫向擴展。
2 j' B" Q3 W" @) M7 f9 ?可以利用可還原的字頭(表示既有字庫有收)來優化既有字庫的字形。目前字庫的字形來源多元,有些質量很差,《異體字字典》的字形質量較高,可以進行替代優化。- A5 n& {2 }" v) V' t0 g" K
可以將不可還原的字頭(表示既有字庫沒收)補進字庫,擴增補充字的數量。《異體字字典》的字頭多半來自歷代字書,有完整書證,有了這些補充字,便能更精確地數位化歷代字書、文獻。
( i( T6 v; `9 u要等待 Unicode 官方收錄大量古籍用字,緩不濟急,況且若是沒人整理提交,Unicode 官方也無從收錄起。所以這一年來我大量整理幾本收字量最大的漢字字典,就是希望在最短時間內,吸納這些前人的成果,將它們匯總轉化成可再利用的資源,建立一個方便使用、容易檢索的大型免費漢字平台,方便讓一般大眾、業餘愛好者、學術研究者都能快速地加以利用。
% P7 \1 b2 K2 x. G% h) R- f( x& s1 |, w7 q6 l
昔日日本的AINet開發了一款商業販售的東亞文字檢索軟體名為「今昔文字鏡」,從 1985 年至 2019 為止,最後的版本收錄文字達十七萬以上(據維基百科的記錄,2018年社長古家時雄病逝,改由石川忠久接手,於次年散會,「今昔文字鏡」正式落幕)。不過它的收字包含了甲骨文、篆體字、楷體字、喃字、水族文字、悉曇文字、西夏文字、變體假名等等,不純粹都是漢字,若是以不重複的純粹漢字而言,應該不到十七萬之數。現下我這個完全免費開放的「全宋體」字庫,漢字的收字規模實際上應該已經超越了「今昔文字鏡」,希望能成為對大家更為有用的漢字平台。- p5 x5 r& G0 s# {6 i6 V

# u; E- ]- C% x: s' C$ T$ S由於國教院提供的《異體字字典》構形數據並不完整,很多無法輸入、顯示的部件都被直接略去,導致大部分的構形數據都是「缺了胳膊,少了腿」(我去函國教院確認,確實如此)。這也印證了為什麼我利用官網的構形檢字來查字,經常會有查不到的情形。為求快速可用,我只能大致先修補一些較嚴重的缺失,然後就硬套入這些帶有瑕疵的拆分數據,先求讓這 18366 個新增字有被檢索的機會(檢索結果可能暫時跟官網一樣會有不正確的情形),之後再慢慢逐字檢查、修正數據,邊用邊改。從十月中到現在,花了兩個月的時間,我獨力檢查、修正了兩千多個新增字的拆分數據,後續尚有一萬六千字待檢,估計要完善全部的新增字拆分數據,起碼還要一年多的時間,只能再一次地發揮「愚公移山」的精神,長期抗戰了。3 n. c+ w- A* y! o0 y5 {

- T6 ?, U6 j' F; G4 g2 W
( |+ r* L" F2 F7 C; T- A* Z- e$ h5 a8 p" z; ~, M
(國教院提供的構形數據經常「缺了胳膊,少了腿」)1 d& f( n3 v" Y# q

) `$ e; p( V# V8 J! O* e期間有網友問起了台語版聖詩的一個缺字「⿱艹吐」,經過簡兄的指點,我到台灣聖經公會聖經網站找來了「臺客語漢字字型3.1版」作為參考,將它的 123 個外字,扣除 17 個台語注音字符外的 106 字清理一遍,加上「⿱艹吐」計有 75 個缺字,全部以宋體風格重新造字補入字庫,讓字庫也能涵蓋臺、客語的一些特用漢字。特別附上對照表,讓有使用這些字的朋友可以在兩種字庫之間快速地轉換。
, Q$ g3 u. g3 P# O. ?- ?8 {; W6 T2 w& _8 {+ Y1 Z7 g
值此歲末年終,我先將這「並不完善」的「全宋體」字庫初稿發布出來,讓大家能先行使用,也為今年一年我與 suns99 兄連續挑戰了《漢字海》、《中華字海》、《教育部異體字字典》三部收字最多字典的清理工作做一個 Ending。這一年,幾乎馬不停蹄,總計清理了三大字典的 96175 個字頭,為字庫新增了 54620 字,涵蓋了《漢字海》、《中華字海》所有字頭,以及《教育部異體字字典》的九成字頭(還有一成是手寫字形字頭,尚未處理),成績可謂豐碩。在此也要再次向 suns99 兄致謝,感謝他這一年來沒有二話的義氣相挺,陪著我這個「傻子」衝鋒陷陣,完成了一項項的「不可能任務」,呵呵!
% k; o  a9 d) z. ]& g
, N( X+ n) r: I' k" {# _未來一年,我應該會將重點放在繼續完善字庫的拆分數據上,至於尚未處理的 13830 個《異體字字典》手寫字形,雖然我已經做好了工作用的臨時字型,可能還是會暫時予以擱置。畢竟經此一年,我與 suns99 兄已經「兵困馬疲」,就算 suns99 兄還願意再繼續幫忙,若是前債未清後債又疊加上來,我也負荷不了。所以未來一年先以「還債」為主,至於「未竟之功」只好「且看且走」了。9 g* N$ [2 Q* t7 b+ g

- S" c' |9 ]& a2 o6 f& o3 k$ N% p& U, g+ [8 D0 x
2 t# T( r9 b7 a* b0 D: A
(暫時擱置的《異體字字典》手寫字形)
0 }6 h. j( B' P7 S& W2 w* {! J* E! C* S2 K$ H6 t' w
由於《教育部異體字字典》尚未像《國語辭典》一樣開放授權,我無法將其製作成離線辭典開放給大家使用(會涉及侵權)。折衷的辦法是我捨去所有釋義的內容,只留下字頭,做成一部《教育部異體字索引字典》,方便大家以「部件檢索」檢字之後,利用這個索引字典來查字,查得後點擊字號連結便能自動跳轉至官方頁面(我曾去函向國教院請教,以連結的方式跳轉至官方頁面,應該沒有侵權的問題)。雖然不是最完美,但還是能達到比官網查字更好、更便利的使用體驗,希望這部《教育部異體字索引字典》能幫助大家更方便地利用《教育部異體字字典》這個專業級的漢字資源(《教育部異體字索引字典》見https://www.pdawiki.com/forum/fo ... p;extra=#pid2547945)。
% D& y& b2 r/ L
3 B3 v- \' R2 M; L- t樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。6 h$ I8 _2 ?6 P" h3 d5 L

: F, s3 e2 t% D下載連結:全宋體.zip$ N4 i7 m: \! z
下載連結:部件檢索(測試版).7z
5 r  X  r# `# I6 M下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)
9 e8 y$ i* w% m: n下載連結:臺客語漢字外字對照表.7z2 _0 H# p; }3 E+ P6 F1 ]

2 r" T2 t+ V, l最後,將一些整理過程中記錄的工作日誌附在這裡,做為一個回憶與紀念:8 f. M9 u! x3 v. s# ?
2021/07/19 將欲清理的 35046 字製成一個臨時性的工作字型檔,並將尚未還原的字頭摘錄出來做成工作檔,每五千字一包,切分成七包,發給 suns99 兄,正式啟動作業。晚上去函國教院,申請《異體字字典》字頭的構形數據。
; w, r: @6 G! I8 w5 W. j8 E- n2021/07/20 收到了國教院的罐頭回信,表示收到申請,要等待他們研議後處理。
. q7 @+ d- W, g( O2021/07/30 收到國教院回函,同意提供數據。
' k$ G' D$ b& q7 y: G2021/08/01 第1包核對完成,累計清理五千字。
3 }8 Y8 ^6 ?5 k7 P2021/08/13 第2包核對完成,累計清理了一萬字,還原率約四成八。
, T# s, W1 W- Y  ?- }; _0 s2021/08/24 第3包核對完成,累計清理一萬五千字。7 ~8 N8 o- V) p& H8 w8 _- s
2021/09/05 第4包核對完成,累計清理兩萬字。* M+ W' C0 p8 q" C7 K2 b2 N
2021/09/17 第5包核對完成,累計清理兩萬五千字。; f' [1 b. o% L+ o2 Y
2021/09/29 第6包核對完成,累計清理三萬字。
2 m* V& S6 ?' u) ^& U2021/10/04 遲遲未收到國教院的構形數據,再度去函詢問。
) b" P! p- ], H" P7 o* n2021/10/11 第7包核對完成,累計清理三萬五千字。
  ~# r0 Q) `! Q$ q2021/10/15 終於收到國教院的構形數據。回函致謝。- V8 J* B4 v& e, w: n  Q3 [
2021/10/18 初步完成新增字的字形編碼及部件檢索,還原九成的《異體字字典》字頭。
8 A; }4 J. p& G4 Q: s' T: t9 g6 q- q2021/11/12 完成一千多字拆分清理。去函國教院請教數據瑕疵及授權問題。5 W: a+ C; M. m& Q  V
2021/11/20  網友問起台語版聖詩的一個缺字「⿱艹吐」,去信向簡兄請教。7 ?3 N2 [; R4 ]6 N7 W
2021/11/22 國教院回覆數據瑕疵及授權問題。
7 U& A% t6 x% Y2 o2021/12/13  完成75個臺、客語特用漢字的造字。
5 b' Y: |) v2 q9 d! D. ~2021/12/24 完成兩千多字拆分清理。
( i+ o  |: Z+ m. ?  _$ o$ \
7 T3 X! G, Q5 X! C8 k, W# C$ S- `; A7 i
p.s. 由於收字量龐大,第 15 字面(FSung-F.ttf)的空間已經完全用罄,因此這一版字型開始啟用第 16 字面(FSung-X.ttf),接續存放補充字字形。
3 P) G, Y2 J* b3 g3 _0 {- \6 b) n: d7 i$ _  m

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

评分

4

查看全部评分

  • TA的每日心情
    擦汗
    2022-5-20 11:41
  • 签到天数: 222 天

    [LV.7]常住居民III

    发表于 2021-12-28 18:35:41 | 显示全部楼层
    謝謝分享 精品之作
  • TA的每日心情
    开心
    4 天前
  • 签到天数: 860 天

    [LV.10]以坛为家III

    发表于 2021-12-28 22:54:25 | 显示全部楼层
    求教,我下载在链接里面下载了仓颉的码表,并且安装了全宋体字体,当用全宋体—F字体的时候,是显示字最多的,但是依然还是有个别字无法显示出来,请问这个是字体还没有完善还是我设置有问题呢?感谢!

    该用户从未签到

    发表于 2022-7-30 10:30:46 | 显示全部楼层
    本帖最后由 worldepic168 于 2022-7-30 10:31 编辑
    0 Z2 ?$ }; R) N* _1 }4 t/ l) ^/ Y; c2 c/ M; b2 o6 w
    / h7 k7 D: r3 D  _  L
    图片地址: https://postimg.cc/NKfdJ6PX- G$ U6 d' Z; C( A5 Y
    5 D/ f/ L- |2 Y" e8 D
    ^不知道为什么用這個索引字典來查字,查得後點擊字號連結自動跳轉至官方頁面后就出现这个显示模式, 选择了也没用一直停留在这里
  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 1290 天

    [LV.10]以坛为家III

    发表于 2021-12-28 18:11:39 | 显示全部楼层
    好作品谢谢提供!!!
  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 670 天

    [LV.9]以坛为家II

    发表于 2021-12-28 18:21:30 | 显示全部楼层
    谢谢搬运工eeshu,每次都是通过你搞到大神作品的。向WFG致敬!
  • TA的每日心情
    慵懒
    2021-9-18 11:29
  • 签到天数: 32 天

    [LV.5]常住居民I

    发表于 2021-12-28 18:40:51 | 显示全部楼层
    小学者,国故之本,王道之基。
  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 1699 天

    [LV.Master]伴坛终老

    发表于 2021-12-28 18:57:05 | 显示全部楼层
    真心感谢有此大作,谢谢你
  • TA的每日心情
    奋斗
    2022-8-23 23:18
  • 签到天数: 1002 天

    [LV.10]以坛为家III

    发表于 2021-12-28 18:58:02 | 显示全部楼层
    恭喜全宋体再次全面升级
  • TA的每日心情
    开心
    昨天 10:07
  • 签到天数: 256 天

    [LV.8]以坛为家I

    发表于 2021-12-28 19:15:11 | 显示全部楼层
    太好了,取代图片文字,是字体库的一项系统工程。
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 412 天

    [LV.9]以坛为家II

    发表于 2021-12-28 19:21:07 | 显示全部楼层
    查看! 查看! 查看! 查看!
    7 u8 s* H1 Z1 y1 c- Y8 n7 j" E
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    发表于 2021-12-28 19:21:33 | 显示全部楼层
    真的功德无量,惠泽学林
  • TA的每日心情
    无聊
    2022-6-14 08:32
  • 签到天数: 105 天

    [LV.6]常住居民II

    发表于 2021-12-28 19:29:51 | 显示全部楼层
    感谢楼主分享!
  • TA的每日心情

    2022-6-15 10:43
  • 签到天数: 127 天

    [LV.7]常住居民III

    发表于 2021-12-28 19:36:51 | 显示全部楼层
    时时刻刻Thank_you_very_much.7 G% }0 Z* v' {  E: z# q
    奔避投人远,漂离易感恩。愁髯霜飒飒,病眼泪昏昏。孤馆秋声树,寒江落照村。更闻归路绝,新寨截荆门。
  • TA的每日心情
    开心
    前天 10:43
  • 签到天数: 426 天

    [LV.9]以坛为家II

    发表于 2021-12-28 19:44:46 | 显示全部楼层
    好东西 谢谢分享。
  • TA的每日心情
    开心
    2019-10-10 05:35
  • 签到天数: 328 天

    [LV.8]以坛为家I

    发表于 2021-12-28 20:10:07 | 显示全部楼层
    已去博客下载。谢谢
  • TA的每日心情
    开心
    昨天 08:14
  • 签到天数: 1258 天

    [LV.10]以坛为家III

    发表于 2021-12-28 20:19:33 | 显示全部楼层
    谢谢,下来看看

    该用户从未签到

    发表于 2021-12-28 20:51:59 | 显示全部楼层
    多谢楼主,多谢wfg!
  • TA的每日心情
    奋斗
    2022-7-18 17:14
  • 签到天数: 413 天

    [LV.9]以坛为家II

    发表于 2021-12-28 21:04:34 | 显示全部楼层
    谢谢老大。辛苦了
  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 626 天

    [LV.9]以坛为家II

    发表于 2021-12-28 21:07:36 | 显示全部楼层
    感谢楼主分享资源
  • TA的每日心情
    开心
    4 天前
  • 签到天数: 860 天

    [LV.10]以坛为家III

    发表于 2021-12-28 21:22:58 | 显示全部楼层
    好东西啊,感谢楼主分享!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2022-9-30 14:08 , Processed in 0.079217 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表