TA的每日心情 | 衰 2022-10-14 17:24 |
|---|
签到天数: 52 天 [LV.5]常住居民I
|
项目地址:https://github.com/asgsdbrseg/ToyMDict
. d" }& y4 \* L2 L" B8 R' W% B
) D* f8 R7 q$ H' ]Mdict工具不乏其类,尤其是AI时代,更是井喷,为什么还要再做一个?
4 z+ G8 Y5 \9 Y6 B3 o0 X# N/ Z' _" E: f, A! ~8 I" F7 |
毫不客气地说,其他词典软件的初衷都是学习外语,只有ToyMDict是专为汉语开发的。6 I& p( ]. a8 m3 E$ S
$ ]2 S; {: K m
先说一下当前主流的词典软件的简繁实现和不足。
8 F% B; m- C ^0 ?. U9 ^8 S9 ]7 }! b$ {" H8 K) t* B0 {
Mdict和深蓝词典把一对多腰斩了,「发」只和「發」对应,无论如何是搜不到「髮」的。
) i- B& y" j+ G
( }/ v3 L2 g0 P" g' E' f平典(又叫无限词典)倒是解决了一对多,它的问题是不支持扩展区汉字,也不能自定义。- S. j$ O1 A% F" u- s( a6 T
5 s5 z+ \# j, {- ?& H. @) qGoldenDict和DictTango接入了opencc,局限也在于opencc。# V! ]3 u$ n$ O
. T4 F0 g/ d$ Y% l$ F' ]/ R8 x
首先,opencc的体量太小,《汉语大词典》收词37万,相较之下,opencc的体量可以忽略不计了。
8 [) M- v+ G& Z+ ?6 L P" F8 Q+ s; O g' ^& G* ?8 ~) [
其次,opencc对一对多的处理是默认返回第一个。这意味着所有包含「髮」的词组你要手动加入转换表,否则默认转换成「發」。
6 v' ~% n4 S* ?8 J% M+ x! v- H: Z' x0 b1 c+ p$ w
# s1 I- p* Q. j, M% u4 m
/ L/ s' z. Q1 x) K而一旦将含「髮」的词加入转换表,它就再也匹配不到「發」了。
% j- C! ~' K3 G4 e, x
4 l* X* C$ U6 T- i$ ]0 E- a0 |$ @& U
' O1 d* U$ Y! B1 U
! K; a, ~* \8 b$ z! ]( z! D# B/ I第三,opencc以及主流的简繁转换本质都是「陆台转换」。opencc至今没有新字形的词表,所以你无法得到「戰争」。
, p+ O& ]1 O/ A' G
* }' \, T: K% ?: e
, Z9 {) X9 [' {- ?, X7 C6 _: ~% H# ]* [9 A
/ m& M. m- M. |% z, K4 |2 ~诸位如果也使用以上软件,可自行验证我的说法。
8 b& e' T% g& s$ \& f, h; X3 y
7 Q5 E5 e3 O0 ?即使opencc能完美解决简繁转换的问题,也不能解决词典搜索的问题。
5 Q' i" S- N& u, g% q7 S. w% H1 \; Q0 y5 l' F8 V% v: ~
「钱钟书」和「钱锺书」不是简繁关系,「説文」和「說文」也不是简繁关系。
, ]; a$ @7 p/ Y
/ S$ s) K/ L1 R% T% G* Y% ~opencc是输出工具,它需要精确。但搜索是输入工具,它不需要这种精确,只要在一组关键词中命中其中几个就行。
) R! {/ w+ V. h& {) O; C w) L7 n% W1 @$ h4 ^9 g
所以,我们看到古籍数据库没有只做简繁转换的,全部都是异体字关联。
) y# }4 K' g: i' a* H
5 y. w0 `+ ?! `8 F+ T转换和关联是不同的。5 T3 t% X' x& \& M# V; z
3 _1 b3 U$ y- s7 G
转换是单向的,简→繁,或繁→简。
7 s3 D2 a3 x4 k0 M; S+ C6 s% d B# k9 d( B
关联是多向的,每个字都有简繁异多种形式,和其他字的简繁异多种形式任意组合。& R& \$ E5 H6 R
4 i+ D0 u/ d% |0 ~+ o Q
ToyMDict也是相同的操作。在异体字表中加入这样的内容。
0 o2 ]4 z, ~; q) o, a
3 k1 C1 g9 D$ S9 F
) T7 ]) N9 G/ z* a4 Q' s* |4 x7 W
2 U% d5 z& }0 j' P1 m/ [4 l, c/ f4 Q/ X, R! z
当你搜索「黄钟」时就会自动匹配2×4=8种组合。这和你手动搜索8种组合效果是一样的,软件唯一的作用是把手动变成自成。: C9 d# ]/ S9 R H6 Q' O# G
B, |# T5 H1 E6 w
4 f- ^4 @4 v- P; A9 w8 ^6 b6 T: p; B3 K5 u* e
当你收集了1万本词典,却查不到任何有效内容,等于白收集了,只是1万个占空间的垃圾。; n2 T4 X8 N" O4 m* p
! h/ b6 M& n! h) n: S5 o
查不到任何内容的GoldenDict, G2 W5 S3 O; x7 c6 O$ ]0 y
3 A: ~, _+ Y" l$ O- A. k
& Z5 D& H- p- M
5 Q, T( I" z% Z# F1 @! o+ _ToyMDict' |( M( z6 s$ T) G) _/ W
: Y/ y2 M2 n: G4 D/ r- @( a7 A
* O5 _. w8 Y* L6 L
' r2 j( j3 ]$ R3 B, o% U" V+ C$ i这就是核心功能,至于操作方面,没有什么可设置的地方,只有两个按钮和一个搜索框。7 a4 H/ j1 s. p: [
: n& J8 _2 X# f# ~& \+ i# P! g! g
4 o: t: K) K( j. C3 u6 d
0 g+ f9 v6 t0 f一个导入词典,一个给词典分组,然后就可以搜索了,纯傻瓜式操作。
2 l3 l" t, R, \! W
1 w* ]8 U. W' z0 f W8 g
! @, B' J- b) N: _% B |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|