掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2754|回复: 28

[经验心得] J̥H́-交流 - 词典数据分析方法与思路

[复制链接]
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-5-3 18:27:21 | 显示全部楼层 |阅读模式
    给论坛里面的玩家放点星星之火吧,希望能够有朋友能有类似的观点去将词典数据运用起来。
    / ^7 n7 u1 ^8 d- N# R* h! f9 v% w
    : e& n6 V1 P7 l: A' M# }, i! t3 `言归正传,本次分享的词典数据分析的主体是 - Ding。
    7 e! ]4 |3 f0 Y0 Z6 ]: w+ s# ~' e; g, }4 D3 }
    总体思路是
    ; a) X5 L- R5 O! o* w$ l
    " J+ W$ Y) v, ?4 R- }4 |- 将原始数据转换为结构化数据) M; B. @6 W8 q+ \; K6 N; e
    - 将结构化数据加载到dataframe, n% i+ I% ?2 ~6 \; B
    - 通过pandas提供的各种方便的函数进行数据统计. K+ s6 t9 m* z: m! Z7 B7 l; u

    & K, Z( M9 Q2 G5 q5 i, g通过的Ding数据的分析,得出以下一些统计数据。
    ) w7 i2 I' Y9 Y% M% J$ A8 ?0 _# ]  ]0 `# J# [' x! v

    " G8 B- \5 J, X( Y1 V# G- N) n  Z
    相关细节(代码等)见 https://blog.johannhuang.com/English/Data-and-Algorithms/20200502i
    - h: y3 W/ O4 O4 a
    * K6 n+ o' c# J0 p  r! {  Z$ k4 i1 A  L" g

    6 O+ u' f4 O! ?在将词典数据运用起来的基础上,还希望能够推一把StarDict。因为如果目标是词典数据运用的话,mdx+mdd确实不太好用。html天生的优势或者劣势就是灵活/包容,灵活/包容的结果就是,计算机程序处理起来太麻烦。
    & y1 P3 g0 _7 \+ U# m; p5 ^0 [
    ) P  G  I$ p7 B& D0 \' [! R: I
    / f; X! b3 \5 U6 V( s7 G" e
    % U2 o0 k! m, u# p6 i9 z# f7 Z. g: F+ O7 u- s  r9 z
    相关贴(自行百度搜索标题): - F+ a+ h, s$ G4 C  S1 d9 u
    ! z( ]+ W+ K. ]# V8 h6 V/ I" {9 B" N
    - J̥H́-交流 - Apple Dictionary特征收集与整理, /t/topic/1582
    + a& q8 U  J. H  F. C1 V- J̥H́-交流 - StarDict的前世归纳与今生展望, /t/topic/1474* v4 k5 d5 U; |
    - J̥H́-交流 - StarDict 词典排版设计与多媒体支持研究, /t/topic/1523
    / D4 R( ?) k* o- @9 a' _1 U
    8 W  b( d# X! n1 C/ ]+ s' e4 u: ~PS:看另外的帖子,说管理员在修论坛图片问题,希望赶快搞定吧。为了发这个贴,上传图片折腾耗时差不多半小时。(因为在找可以当图床用的个人网盘或者可以允许借链的博客平台/在线笔记平台,因为一般意义上的图床,不太好管理自己以往上传的图片。)
    3 U2 W9 j; b0 X$ ^+ X) `( Y9 ?$ A: y

    : g7 P& J" [  z' Q( _9 c: S
    : u* r. T( j' y* e" _$ _/ i3 h3 G

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2020-5-3 21:40:30 | 显示全部楼层
    本帖最后由 klwo2 于 2020-5-3 21:41 编辑
    8 d, U  Z3 O  {3 e/ ?( b# z  c& n# M! Z* r6 r: |
    再补一段,纯属个人意见,可能和你的意思差很多
    : q, [. R4 a: F+ \" ^' F" k
    $ K6 Y2 `: j1 d所谓「国际化」,很大程度上也就是「谁声门大谁国际化」,跟某某标准是否合理、是否完美没有关系。
    ( Y9 C9 P: Y+ s4 e7 H
    , }1 C# q/ v4 v+ s西学东渐以来,国人向西洋看齐,希望汉字拉丁化的声音不绝于耳,其中一个小浪潮,就是厌恶「部首排列」,尤其是康熙字典的部首,里头有很多「不合理」的归部。
    ) T1 o7 v5 l5 r+ X3 f! j$ D! N. ~4 _" I% O
    所以1949年以后中国大陆出版的词典,《新华字典》《现代汉语词典》《辞海》《辞源》《汉语大词典》,各有自己的一套「部首改良方案」,大搞「多开门」,不互通,读者知道某字在一本词典里是什么部首,换一本,居然会扑空!
    1 z, I. V9 P: w- i  {7 X, h* Y
    ' I. P! ^8 w1 _4 K2 H而港台词典一般坚持用康熙部首,不合理也不改,所以「问」在每一本词典里面都是「口部」字(不是「门部」),你别管合理不合理,反正统一。
      O! @0 `# `) Z6 V2 K! Q3 j1 _9 p. L" U9 r+ P
    到了unicode时代,康熙部首成了「最国际化」的东西,中国大陆的那些「部首改良方案」无人关心,新推出的201部影响也有限。这跟康熙部首合理不合理没有一毛钱的关系,我也觉得「问」 不是「门部」字很麻烦啊,但是词典不统一更麻烦' e$ @( B8 U- _1 ~# U
    9 {; T# p' V2 n1 D5 E" S
    所以说回来,我不知道mdx在你眼里有什么原罪。我用着很顺手,也许哪天外国人看我这么顺手,要嗤之以鼻的,但谁叫我自己做了那么多汉语词典给自己用呢,没办法呀

    该用户从未签到

    发表于 2020-5-3 21:12:30 | 显示全部楼层
    本帖最后由 klwo2 于 2020-5-3 21:18 编辑
    6 m) m3 I& U% n) V
    8 d6 i& }2 @2 r& R. g$ M2 U$ t& B% W3 S9 w喜欢stardict就去转换嘛,转好以后发其他词典资源区就行了,坛友里面多的是人用goldendict,可以直接加载stardict格式,作品比什么都有说服力,你光说「mdx+mdd限制了人的视野」,怎么个限制法?用了mdx+mdd就别想学会外语了?, W1 m( M/ M- Y6 h+ l# a
    你把stardict弄火了,可以开新分区——其实论坛里的分区从来都不是一成不变的,也没有只推mdx+mdd这种事。有一阵儿还想开apple dictionary专区呢,纯看需求, Q* W+ A. Y/ {

    ) b/ o) a$ X" i- q% u如果想要复兴stardict,最好的办法就是把优秀资源都转一遍stardict,让大家都觉得stardict好,实际上stardict当年还活着的时候,资源就大部分是转的。7 ?3 a& U# Y% Z

    6 ~  K# O3 {* i8 R# D9 Z* \你对stardict开源的特点念念不忘,可以理解(但开源的WordNet在小白口中的口碑死活比不上牛津朗文),但是我实在不同意类似「mdx+mdd是中国特色,不国际化」的论调,二战以后,跟「国际化」最沾边的就是美国人、英语,连法国佬都愤愤不平,美国人什么特点?就是不会说外语,只会说英语啊!扔掉词典软件,不是最国际化的嘛?我们一路以来用过的各种app,什么babylon,lingoes,ABBYY Lingvo,stardict,goldendict,哪个是美国人写的?呵呵,全是学英语的人写的!
    + \3 S* ^$ m7 t1 a& t学英语的人觉得什么app好,什么格式资源丰富,就认可哪个。我觉得挖掘mdx本身的什么民族性什么狭隘性有点——容许我不礼貌一下,吃饱了撑的。再深一点,算不算 reverse discrimination我就不知道了。我是看到论坛里有些不懂中文的朋友也在发mdx,也许你要说人家是上了当。3 D! b. ~/ k% K- J
      E* W: D4 }: T6 w# j8 @( p' s
    再退一步讲,现在学汉语的人比二战时候多了,汉语词典还是要么部首排列要么读音排列,要找到一本「国际化」的,「外国人看见一个字长什么样就能查到」的字典,比登天还难。四角号码按说是最接近的,可惜已经没人用了。pleco词典用手写来解决这个问题。日语词典多的是坚持不按ABCD排列的,日本人该是学西方学得很勤快的民族吧?—— 说白了,「国际化」从来就不是什么非要不可的东西- P  e& |; q: Q  [6 }4 F; v
    / q8 B5 V  d& P3 `! N
    还是那句话,喜欢什么格式就去转,转好了大家的眼睛都看得见。既然要鼓动大家做事,就不能停留在纸面上嘛,如果你的热情有100分,我从你的文字里只能看到30分,再细细品味一下个别字句的意思,再加20分……
    ' U( n: |$ _1 b& Q  X% V- I  r
    ( K% f( ?( ~" r# v2 Q; k  w& e$ I! D

    1 X8 k& Y* z: V
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

     楼主| 发表于 2020-5-4 20:53:41 | 显示全部楼层
    klwo2 发表于 2020-5-4 10:18
    2 ]- t- y6 T$ D+ d  z& y) H$ h你这个「推广」太软绵绵啦,广告要诱人才行啊,我都没看出诱惑来
    . T: v& K* e5 }  `2 Z0 C0 I0 l3 g
    我说一个实际应用,你说说stardict可以 ...
    9 V, v, T. D; o
    这个问题,虽然在这里回应的人不多,但从其他渠道获悉 —— 总有“愚民”想笑“朕”。所以,也就借着这个问题多说两句吧。/ J. F* z& W3 Q* Z
    # @  X0 `. v8 i2 Q
    首先,回应一下推广想法。我的推广本来也不是想强推,只是希望星星之火给能看见的人。8 Q8 Q1 g* S1 x) t

    6 _2 x& [$ l  e+ k* x其次,就像论坛里面很多元老用户有各种不同参与方式,作为加入论坛还不到一年的算是新人吧,基于对论坛用户群以及论坛氛围的认识,我在这个论坛也基本选定自己的参与方式,也即:我更喜欢基于我对词典以及词典软件的认识和热情引出一个我觉得值得交流的问题,然后和有相似视野或者想法的人多沟通以使得关于特地主题能够有更多新的思路。词典及词典技术相关的论坛我主要逛两个,在pda里我更期待的,是和有一定词典制作技术及对词典生态了解的用户交流(这也是我很多帖子过了时效以后就改高权限的原因),因为毕竟pda也十多年沉淀。
      b$ F/ Y& C. f: P+ Z, p) D, n
    3 z$ M. r1 b' D+ b" |8 M在网络空间里,很多人对彼此只能知之片面而甚少,所以我一般不太愿意去回应索取性的交流。我个人不太喜欢,嗷嗷待哺的拿来主义者(盼着别人替之嚼好粗食,而不愿意花一点时间动动手、读读文档,自己解决问题)。我不想去说服谁什么道理,我只是更多的想告诉别人我认为是什么道理。别人接受,或者不接受,其实我并不是特别关心。就像,我会告诉大家,我认为StarDict的数据格式就词典设计来说,比mdx+mdd设计的好,只是希望给大家知道有人认为StarDict挺不错,或许值得了解一下(而且我也提供了如何或者很相关资源的信息(因为鉴于本论坛对一些关键字的屏蔽,所以没直接贴出我之前的链接),随便也希望有人给出有理有据的认同或者反对,而不是希望让别人来问我要科普。科普/教育,不是我的义务和责任。# c( W, C' ^8 F& l2 h; r
    . S- _4 |' n0 W
    我个人很尊崇klwo2兄对词典内容以及词典品牌特别是中文领域的词典的渊博学识以及广阔视野,所以算是作为受教过的回报,也替klwo2兄从StarDict的文档中摘抄一些相关部分出来吧。3 O7 T0 T# g  ]7 k8 R" I
    ; c2 H4 @0 q. d$ p- r
    As for the replacement for `@@@LINK=` (which I personally think quite ugly) in mdx:4 R0 w! q/ X3 f6 V+ B! J) r# W
    9 \( v  ^" a) m. o6 q2 G6 y2 [
    > It is possible the different word_str have the same word_data_offset and word_data_size, so multiple word index point to the same definition. But this is not recommended, for mutiple words have the same definition, you may create a ".syn" file for them, see section 4 below. -- in the .idx section# ^6 o( L# C, m, n2 l( L7 Z8 ]' V) @
    > The .syn file contains information for synonyms, that means, when you input a synonym, StarDict will search another word that related to it.* k! T% b  C% o/ j
    5 G' S8 f3 p; p' T: O+ T+ q& O& u
    PS: if you want to know more, there is https://github.com/huzheng001/st ... /StarDictFileFormat, although it is in fact written for people who understand at least some about the basics of programming.
    + L0 R6 m! l& Y# r: N( i) ^! Q  Q/ U
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-3 21:51:42 | 显示全部楼层
    而港台词典一般坚持用康熙部首,不合理也不改,所以「问」在每一本词典里面都是「口部」字(不是「门部」),你别管合理不合理,反正统一。
    ) E  [) D! x- |. w, H

    # [1 M8 E8 e1 H& U8 b* e4 F教育部重编国语辞典有把“善”从“口”部改为“羊”部。

    该用户从未签到

    发表于 2020-5-3 22:01:34 | 显示全部楼层
    oversky 发表于 2020-5-3 21:51) ^, ~8 a( i, ]4 Q) d
    教育部重编国语辞典有把“善”从“口”部改为“羊”部。
    . s6 e8 a2 B5 U) @) u/ S
    国语辞典确实是例外,它改部首的目的,一般是为了契合《说文》,也就是改得更合字理!+ i# H  |$ s  C8 M0 _0 d
    0 N8 I$ D4 [9 g9 I' r/ f# t
    「善」从「羊」因为《説文》:譱,吉也。从誩,从羊。——它不取康熙从「口」
    5 X( ~* I$ ^/ Q7 ?2 |2 }「章」从「音」因为《説文》:章,樂竟為一章。从音,从十。——它不取康熙从「立」) Y- X' k/ `+ L5 L0 x

    - _. v+ |( e, E7 L* B. ~# d% f. n6 X其他词典,比如《国语日报》《中文大辞典》,都是不改的5 \- ^0 L4 L" L8 o3 t$ Z
    ' E9 C8 ?/ o& p; P
    从「统一」的角度讲,我当然对国语辞典有意见,但是它跟中国大陆词典漫无标准,强行认定相比,我会原谅——我可以说它以《康熙》和《说文》为标准嘛。吃一次亏,下次记得查《国语辞典》的时候取说文的那个就行了

    该用户从未签到

    发表于 2020-5-3 22:10:40 | 显示全部楼层
    oversky 发表于 2020-5-3 21:51* C0 ?: W4 ?# [: T
    教育部重编国语辞典有把“善”从“口”部改为“羊”部。
    * k" r7 l% T+ u+ c# [
    再补充说一下,重编国语辞典改部首,是只有在线版改,纸书——也就是最后一版纸质的《重编国语辞典》,我刚去查对了一下,仍然是《康熙字典》习惯,善从口,章从立。0 @$ m. M# ^5 [( M- y0 z

    # N; M8 W; `2 R3 h8 T( J在线版改部首的缘由,我认为是编者觉得现如今读者已经习惯打字查询,不会出现部首不统一造成困惑了,修改以后的部首更能体现字理。

    该用户从未签到

    发表于 2020-5-3 22:20:49 | 显示全部楼层
    本帖最后由 klwo2 于 2020-5-3 22:22 编辑 $ T3 m6 {& i  q5 Z/ M
    4 L: w  s1 ~: n) s5 m3 e
    我在2楼说词典app都是非英美人写的,不料这就意识到一个例外了——pleco
    2 P% t: M3 o6 {* f! T) X
    # w/ |: M1 C% D/ ]0 n/ [7 Q2 y% _: xhttps://www.pleco.com/about/
    2 K" H/ o" \2 U( W+ Y0 V6 w; _) z7 u. _- {
    这位是为了学汉语的目的写的,专为汉语、汉字的情况优化 —— 所以嘛,人是「国际化」的,就是欧美人,至于app……国际化……还是不国际化,我就不知道了呃
    5 Y+ N* }' ^5 Z6 I1 o' c4 k7 G/ \3 y) Q/ g% W
    pleco不支持pc,里面的词典也不是开源的(但人家是正版的),所以……0 w( p5 z" p5 r# @' s

    / F2 s/ p$ V1 u( y! A我搜了一下人家的论坛,里面也有人拿这个搭配mdict用的,说实话我也不懂你也好,我也好,为什么要纠结这个问题,我反正从来没有鼓吹过mdict天下第一要去统治宇宙称霸世界别的格式统统死光光这样的话……
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

     楼主| 发表于 2020-5-4 01:04:48 | 显示全部楼层
    klwo2 发表于 2020-5-3 21:12
    8 ^& Z& }' }7 P4 a2 H# d( b喜欢stardict就去转换嘛,转好以后发其他词典资源区就行了,坛友里面多的是人用goldendict,可以直接加载st ...

    ! `' k1 f/ F" c6 M$ Y5 z  l* emdx+mdd并没有原罪哈。其实我自己制作的多的也是mdx+mdd,因为简单。而且就我自己制作的需求来讲,一般不需要逆向,也就是从mdx+mdd逆向到html,然后处理。当事实上,在制作阶段我会选择使用sqlit3,因为结构化的数据进一步变形及衍生就是很方便。
    & X0 A2 ^+ F" P! g- E8 v; g/ c9 B% c1 A( n. a0 e
    同样,如果社区里面用stardict制作的词典多了,从.syn或者.dic导出的xdxf能够提取并进一步加以运用的数据就多了。7 `/ X! P& Q" f
    关于mdx+mdd与stardict格式的偏好,其实不同人当然会有不同观点。我倒是没有说想复兴stardict,只是觉得这个设计的不错的词典格式,是值得偶尔帮忙推广一下的。不慌不忙,岁月流长。点个星星之火,燎原也好熄灭也罢,其实我并不特别急切。毕竟,我也与mdx+mdd利益无关,我也与stardict利益无关。只是,遇见好的东西,就像让大家也知道而已。
    / P4 K( K5 [+ d

    该用户从未签到

    发表于 2020-5-4 10:18:10 | 显示全部楼层
    johannhuang 发表于 2020-5-4 01:043 Q* [8 A/ z& s2 k3 l9 s) H7 r: A5 U
    mdx+mdd并没有原罪哈。其实我自己制作的多的也是mdx+mdd,因为简单。而且就我自己制作的需求来讲,一般不 ...

    / r) {0 X6 @: `% i' v你这个「推广」太软绵绵啦,广告要诱人才行啊,我都没看出诱惑来$ \1 A$ D) ^: x7 y- i$ ^
    " D% V( \1 b/ m2 m
    我说一个实际应用,你说说stardict可以怎么解决这个问题吧:
      k& F. s3 A: r$ W, L1 H
    % s  ]% i) D) H7 O繁简转换是一般词典软件都有的功能,和格式关系不大,比如goldendict,靠openCC,输入「眞」「真」都可以查到彼此,输入「眞正」也能查到「真正」。openCC不是粗暴等价,不会有错误的组合,「干隆」(乾隆的错误写法)就不会触发。4 @1 e" n. W" G" a

    , y, `3 z0 G$ M/ }; A  R5 t但也有一些异体字,openCC没有收录,做mdx的时候就必须时刻注意,用@@@LINK机制写入,比如:8 Z6 c* F3 j3 S  [  z. v

    8 ^# h4 h0 ]& ]" W5 I: I# R4 e! e* a: O
    @@@LINK=朵
    * y6 E2 k  h7 j' G" u; Y1 n! {0 r7 K: [& O& n
    花朶" x  t* C7 s' L" k9 z  {+ S  r
    @@@LINK=花朵
    ' R$ x; ^* I7 |* g4 k0 R- b) X, x. p5 \7 S

    & E, ^& @, f: o# [5 P3 {* q" r@@@LINK=清) W; T% W! {& j  P
      q, \: S/ v+ X2 l' j; Y: @
    (你想想带「清」字的词有多少啊!每个都要排查出来)
    ; v) @- {' j1 @) M9 x
    ( N* L; W/ x9 M8 k3 A如果换用stardict,怎么做呢?
  • TA的每日心情
    无聊
    2021-1-15 05:13
  • 签到天数: 271 天

    [LV.8]以坛为家I

    发表于 2020-5-4 21:10:10 | 显示全部楼层
    本帖最后由 EarthWorm 于 2020-5-4 21:20 编辑
    0 b1 g  P4 Z: V# H2 _2 [- }
    klwo2 发表于 2020-5-4 10:183 q( h. z8 g5 A! {/ E
    你这个「推广」太软绵绵啦,广告要诱人才行啊,我都没看出诱惑来1 c4 n' x8 v8 p  m; T6 ~# r
    / U) y$ o5 f" [3 j# T
    我说一个实际应用,你说说stardict可以 ...
    - k+ u' T* Z9 Y! ^# U$ c; Q
    你不会或者你没听说过不代表 StarDict 不能...( l! E" a% t# g
    4 m: ], E  [9 p2 _. y7 R+ G
    就我知道的至少有一种方式: 8 g3 S2 T) f( }
    : ], R' u& S1 c" b; F
    朵|朶1 `) O- \. x4 z- @- |- @4 \' Y6 u
    (定义)0 ~4 t% p/ O2 ?4 I  Q5 Q" y
    6 X1 H6 K) ?$ n0 `
    花朵|花朶* c2 L" E. c# r' ^" |0 M# j
    (定义)1 H/ `* K9 O! |
    6 r( l/ N5 z% E" t# ~- D
    清|淸
    * Z$ r  m; q/ e6 |(定义)
    ' e, R+ C! v$ p9 |1 @5 z5 \7 Z4 M( C1 z" v: B, F
    然后以 Babylon file 格式编译
    7 f7 A! [3 @/ g/ S; M& i; ]- ]9 @! `7 {
    这个我很早在论坛问过, 也早就有高人回答过(不是在我的问题贴里)
    1 c) k1 d1 S( B) \2 V( N( a" Z如果 StarDict 的源文件用 xdxf 格式编写, 应该使用 <sr> 标签就可以实现, 这个跟 Apple 的词典应该是类似的, 因为两者都是 xml 结构的
    * v; `  p0 {! V) J9 R5 ?9 E2 a: X$ Z* m关于 xdxf 词典格式, 有兴趣的可以去这里研读: https://github.com/soshial/xdxf_ ... xdxf_description.md
    3 \0 v6 ]: u9 I- |
    ) R; u5 ?8 P0 b  _这就有两种方式可以实现了...
    ; K) V: k4 R: L: ?3 b
    ) @. q8 y) X0 F  m* T
    - |5 k4 ]. A. d5 J% |1 K; r* i& O, j6 V. b+ U" I8 N
    1 ~2 R% z* s$ E2 {

    ) g9 w6 }) v1 W9 S6 I9 w" ?
    ! g% m. f- A( j5 M

    点评

    喔,那就是我没表达清楚,请看12楼  发表于 2020-5-4 22:09

    该用户从未签到

    发表于 2020-5-4 21:32:08 | 显示全部楼层
    johannhuang 发表于 2020-5-4 20:53
    / U% R2 u# S# z这个问题,虽然在这里回应的人不多,但从其他渠道获悉 —— 总有“愚民”想笑“朕”。所以,也就借着这个 ...
    # Y+ ]* @0 i1 P: a$ g% N: A
    你大概没明白,我希望做到的是:5 ~) `0 i) b8 r( \3 Q
    7 l9 p7 R) ?# ~/ a' Y
    淸=清
    1 j/ M! g6 d" I+ J6 M4 F
    * e1 p! Z- Z9 _+ a& \6 d「淸」字出现在其他条目里面的时候,也一律=清7 H" n  O% e3 L* p
    ; }/ v+ M1 E0 Q4 Z* m7 h* i
    这样,不用写「淸白=清白」「淸晰=清晰」……一大串了
    - H. w) m9 F2 _/ F% d/ K
    ' [  H" {; i7 i. D6 i& t" x( j又比如,color = colour
      E) w% y9 D! z, i% ^& h# w+ H" ?
    color 出现在其他条目里面的时候,也一律=colour# J% V/ [6 r8 h

    : B0 w! _0 O: Y% H- e7 q这样的写法,stardict支持嘛?
    + \% O4 T: Q: M0 Z/ r& i! {6 U$ {+ \% f5 @6 @1 z
    mdict采用的@@@LINK=优雅不优雅,不是我关心的事,过去babylon用「|」,我也照样做词典嘛,没有什么不同。能灵活支持「别家做不到的功能」才是我关心的。
    . H( ~& t% S% d
    " _$ E0 i+ a% Z# t: m6 |; N3 r6 A论坛里的人,各有各的喜好。我对css完全无感,有个看得过去的用用就行了,但有人很痴迷这个,改css得鱼忘筌忘了学英语,我挺理解;再比如有人追求真人发音,一个词典没有真人发音就浑身觉得没学会发音,这当然也好理解。你看stardict好,当然有你的角度,不过我是讲实用的,自然更希望知道stardict格式有什么别人做不到的potential嘛,哪能动不动就mac好还是pc好,Emacs好还是Vim好呢

    该用户从未签到

    发表于 2020-5-4 22:03:43 | 显示全部楼层
    本帖最后由 klwo2 于 2020-5-4 22:08 编辑 % C' i8 a, A3 y& G
    johannhuang 发表于 2020-5-4 20:53
    / \% ^6 ?; R+ _) n$ ?! X# J这个问题,虽然在这里回应的人不多,但从其他渠道获悉 —— 总有“愚民”想笑“朕”。所以,也就借着这个 ...
    + q, B6 T. c, @/ {# K: E' e& `
    论坛交流,有的人喜欢抽象的,有的人喜欢具体的
    0 G' ^9 v/ _( ^+ {. x! m8 q4 N, {( X( h7 V7 ?" z
    我见过多次有人问:为什么你的东西有那么多图片版?图片版不好,文字版才是王道云云。理论上我当然知道文字版最佳,可是论者似乎忘了,完全没有现成数据,做汉语词典文字版的成本、精力有多少,做得过来吗?既然这么高屋建瓴,为什么你不多做一些无现成数据的文字版给大家看看呢?这是太抽象的坏处) \! D7 ^1 c% M
    / E' r  r9 m" ^7 s. d- {1 H
    我不用手机查词典,我做的素来都是整页图片,不过有好心坛友把他们中意的作品转成切图版,手机也能用,材料没变,形式更灵活了,这是功德一件,跟理论跟思想无关,就是具体的活儿0 l' v% E8 Z4 B4 T. v

    : \, O( }  L# c现在你要论述stardict和mdict格式的优劣,甚至mdict格式背后反映了什么思想,这样的话题我很为难,我要做什么功课才好理解你的思路呢?我说一个实用的事儿:假如我要去学一个新语言,需要词典,stardict好用还是mdict好用?
    ! s, M2 B7 Y! Q; a  S
    % G4 @% W) i# d我找到一个拉丁语词典资源网:https://nikita-moor.github.io/dictionaries/docs/docs.html
    2 N3 ]( w! H, Z- G' g( L# i* L1 N' d
    这个资源网提供了XDXF, Slob, StarDict, MDict 四个格式!PC上它推荐用goldendict。9 g. X9 b2 w: q3 v
    8 V3 G  T' m9 E& ], ^# N2 M
    手机上呢?它觉得Aard 2+Slob格式好,Slob忒偏了,但是有资源呀。不想用Slob,用Alpus GoldenDict Mobile 这两个程序支持StarDict,但免费版最多只能加载5个词典……呃……最底下是国货深蓝还有mdict,支持mdx,同时morphology 方面不错(有本论坛许一诺的资源加持)……
    ( c2 h( a! }% r4 V3 w* q" Y8 ^- T/ g
    前一个帖子我说了,我没法回答mac好还是pc好,Emacs好还是Vim好这样的话题,爱讨论这两个话题的人,关心的是philosophy,而不是写出来的代码会不会赚钱(最近COBOL又热了一把不是);stardict和mdict格式背后有什么philosophy,我真的勉为其难,但是……我关心能用什么格式下到资源,学会外语呀,或者,我关心哪个格式做起来方便,灵活,让制作词典的人用着顺手呀
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

     楼主| 发表于 2020-5-4 22:47:11 | 显示全部楼层
    klwo2 发表于 2020-5-4 21:32
    ( e% S. S# b2 f8 U) T5 |你大概没明白,我希望做到的是:
    $ M2 M( J- ]8 d" w0 s
    ( |7 f- |. q& u: t. d$ \/ A4 d淸=清

    3 Q0 k3 }( ^$ G+ \淸 全部换成 清 的问题,这么说吧,mdx能做的stardict都能做,而且并不污染词典数据本身也即.dict,因为放到了单独可方便增删的.syn,也就是说可以做的更好更方便。这里更多讨论的是stardict词库格式和mdx,简繁转换在用stardict的情况下,还是可以借助goldendict的转换啊。( X$ ]" \  a" w4 j5 \- H- Y4 {; s' g

    该用户从未签到

    发表于 2020-5-4 23:23:52 | 显示全部楼层
    johannhuang 发表于 2020-5-4 22:473 J+ Q( w. T3 ^) {$ [2 o2 E" _
    淸 全部换成 清 的问题,这么说吧,mdx能做的stardict都能做,而且并不污染词典数据本身也即.dict,因为 ...

    % k' Y! u! D4 w0 _! o淸=清,一般的繁简转换不支持,goldendict用的opencc也不支持
    " b3 L4 s/ z) V3 \$ U% S! I9 _* q) V+ W  k
    「淸」字出现在其他条目里面的时候,也一律=清,这个写法,mdict格式是没有的
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 17:06:22 | 显示全部楼层
    本帖最后由 oversky 于 2020-5-5 17:21 编辑
    5 N0 T' ]3 @! F: m7 Q% e' U' ?
    klwo2 发表于 2020-5-3 22:014 _" _  L" R" w2 ?- F
    国语辞典确实是例外,它改部首的目的,一般是为了契合《说文》,也就是改得更合字理!+ s. t9 O) s  x, W3 \& H
    4 ~* G( m. x6 E
    「善」从「羊」因 ...
    ' w7 z8 u4 p8 W3 M) T- `3 o
    前天一时没想起来,高树藩的两本字典也有改部首。( z5 X& Z. X2 t* P

    7 x- l- I. r7 `# T国民常用标准字典9 a' h( S8 z" C- O% U# I+ o
      a$ O4 ]) T, f0 V7 E' q* a
    7 U: T: f. {2 a) m! V  g

    , ~6 Y: s: G. H
    - B! l  ~+ `  ^, S  N" Y$ o+ W* K# F- K! c4 x
    正中形音义综合大字典还有把改部首的字列出来& F% E2 h7 N/ b: e- I
      `7 T9 `. K8 L8 K/ I2 U

      R9 L( y! p4 U9 v, Y; S9 H
    8 v$ x$ ?, d/ C4 H) |8 e这两本的资源就比较少看到。
    4 P" u: U; x3 ^- P% v
    1 P8 e: N% I, S) p  t* P# v9 \4 T' _5 e- d, {" e
    3 X& C4 U" [& Z4 e2 W) f9 S

    . @" z5 }5 j- V* c! L* O% W2 H# u, h7 }/ z4 l7 [) K, d/ a: g+ a

    该用户从未签到

    发表于 2020-5-5 18:20:04 | 显示全部楼层
    本帖最后由 klwo2 于 2020-5-5 18:23 编辑 7 r9 o& J# H: m
    oversky 发表于 2020-5-5 17:06/ a& a: ?2 H) J  _5 \7 n6 |* l4 ^
    前天一时没想起来,高树藩的两本字典也有改部首。0 w3 z2 L# K0 E* ]

      c  B4 g7 U1 M7 G6 ~' ^' X国民常用标准字典
    ) `- ~2 ?4 q; C" N' u
    《正中形音义综合大字典》改归部,读者显然不买账,该书的「增订本」里,有些字神奇地回到康熙归部了!# b3 E- C! c( w, g; q- P

    . m" {6 J3 w7 |  P% O# Z; T! s2 `. z$ V6 Q% T, b0 B
    * R8 x, \/ l5 ]7 F
    「章」字回到「立」部了。
    % W( m; x1 l2 s: C- h8 z3 g$ K* g& l9 R
    增订本没有全面回归康熙的归部。估计只是读者抱怨哪个就恢复哪个。「章」字归「立」部是不合字理的,但是大家都习惯了。; O0 U( H/ ^0 F& A; v, N

    $ R" \; O' m: i' B. z4 ?3 q4 _/ d1 d《正中》还算老实的,把改动的地方都列出来。不老实的就多了去了。
    ; i* h& P3 y( G8 o
    8 `+ e0 Y0 M4 D% |高树藩老家在湖北省孝感市大悟县,大概因为这层联系,他的《正中形音义综合大字典》(中华书局改叫《中文形音义综合大字典》)《新修康熙字典》翻印本在中国大陆图书馆都能找到,翻印质量一般,不过好歹有,并不少见。《国民常用标准字典》大概因为「国民」俩字,大陆无货。; W" h9 n) D* g# f' c

    5 [# Y( {3 ~4 e, w  X1 ^. q高树藩在《新修康熙字典》里头也有改坏东西的情况,性质比《正中》只调个部首什么的恶劣多了。《正中》一直有增订本,《新修康熙字典》则没有看见再版了
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-5-5 18:53:29 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-5-5 18:59 编辑 2 v5 e& z) I$ j& G# Y
    klwo2 发表于 2020-5-5 18:20
    7 }' q8 F( k: x+ n3 B2 @6 I1 W% l7 `* r! n《正中形音义综合大字典》改归部,读者显然不买账,该书的「增订本」里,有些字神奇地回到康熙归部了!

    & R3 J, R2 N2 Q$ E9 p' d& P; w* E9 I: U& ^/ G4 ?8 P$ n  A& ^. `
    klwo2兄 是 正中書局 這本嗎?
    $ ]4 l2 |( _  N+ g這家書店很久了....記得更早之前的一些高中教科書是 正中書局 編印的) Y6 ~( T/ H5 P- b  i8 O, v
    在重慶南路上離總統府不到 500米吧. l0 ~. |# l) N$ A0 v
    和北一女也不到 1000米吧3 K* `3 e4 z, s2 D# H$ L% D* P
    後來 高中教科書 公開招標, E8 `; C) d% J7 i- ~
    正中書局 似乎就沒落了.......* }% A4 K' Q6 r# T5 s

    ( d# n) l4 m6 U& p8 b+ `5 a" Y( E5 ]( |% K; B& g" f+ V6 r

    ( `7 Q7 a) g4 T% {% t
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 18:59:43 | 显示全部楼层
    姓章的多用“立早章”,来说明是那个姓。久了就习惯了吧。& y% N$ T) `- o7 ?3 z
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-5-5 19:09:00 | 显示全部楼层
    oversky 发表于 2020-5-5 18:59. K& r3 H+ {" T+ w% ?: L1 j8 U+ \+ Z0 m
    姓章的多用“立早章”,来说明是那个姓。久了就习惯了吧。
    : E5 L5 i; {/ h# D( v* I6 _
    oversky 兄:2 Z) ^. B# b! R+ P1 p
    此本 国民常用标准字典 如何....?, v& }1 R/ t) z0 J: J
    我也沒見過有人用這本' j, E1 ]6 Q: ^5 U# w
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 21:18:50 | 显示全部楼层
    喬治兄 发表于 2020-5-5 19:096 p5 H  h% P4 G  g  j9 O9 W: N
    oversky 兄:
    3 U# o* Z5 X/ w此本 国民常用标准字典 如何....?9 L* y- @3 @; u( L
    我也沒見過有人用這本
    ! @) Y+ n# u  O0 S; f6 l2 [: O
    这本 google 有扫描,可以看七、八成内容
    : s; \% ?1 G, P5 A/ x8 @https://books.google.com.tw/book ... 4%BA%BA&f=false
    1 `* d  x# K1 L" |( Z3 c  r, n3 i- [- N! w& Y' t
    大至算是形音义综合大字典的简编本,: ~- O0 E' n! X5 M- B
    收一万六千七百九十六字。5 d1 ?$ g4 t0 H1 p5 S1 z; o% p  Y' v
    也是恰巧在二手书店看到才买下来的。
    ( I% f; T/ o0 T* N! s' u! N( Y: n: p# T
    7 |1 H* U5 o6 A( A- E3 O
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 21:20:19 | 显示全部楼层
    喬治兄 发表于 2020-5-5 18:53. X# T6 k  v8 T8 I& N9 t
    klwo2兄 是 正中書局 這本嗎?
    5 C% g$ C# O! F! |+ o1 I7 l* l這家書店很久了....記得更早之前的一些高中教科書是 正中書局 編印的5 T1 S. k2 M4 a1 w  W# }8 C+ q+ W8 Z
    在重 ...
    + _$ A/ R3 z* d/ Y4 Z
    对,买到的就是这一版本。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-5-5 21:23:57 | 显示全部楼层
    oversky 发表于 2020-5-5 21:18
    5 W9 \" c2 e; w这本 google 有扫描,可以看七、八成内容
    4 c1 F# L% i- I4 E8 {0 L& uhttps://books.google.com.tw/books?id=ILiusf0IWVgC&lpg=PP136 ...

    + x! C7 n3 z. T5 H7 \/ g4 toversky 兄:
    / T; h0 ?, {) n3 q. R台灣二手书店大概也只剩 2~3 本3 s  l( p7 l( I1 h3 r& z6 n; ^
    Thanks a lot
    9 }* h0 \% X8 ^- V- r/ c+ `
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 21:36:37 | 显示全部楼层
    klwo2 发表于 2020-5-5 18:20. \2 M& M  ~" J$ ?
    《正中形音义综合大字典》改归部,读者显然不买账,该书的「增订本」里,有些字神奇地回到康熙归部了!

    + W8 R* R. p, X) q/ r昨天在二手书店看到的正中形音义综合大字典 1987 年台二版第六印刷,
    / W, u% G3 G* E5 K4 K! C' \善是在“口部”里。
    ! t' Z- v% e. p& i- X- }因为手上的 1989 年国民常标准字典是在羊部。, f" B1 Z/ Q) }7 K0 ]9 O6 x8 G2 y
    所以我本以为是二版有些字还是套用康熙字典,要到三版才有改。% L" r# E: |+ A, y
    倒是没想到有应读者要求改回康熙归部。
    $ a- S0 m$ G6 a% s" X3 H( x改天我再到图书馆找三版的正中形音义综合大字典确认一下。
    5 ]9 k5 N  a# a
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-5-5 21:48:20 | 显示全部楼层
    喬治兄 发表于 2020-5-5 21:23$ W! P' ^  W2 z: z* g; E" A
    oversky 兄:& w& ^5 i' u- {2 |+ x% N$ o
    台灣二手书店大概也只剩 2~3 本& `0 |7 y5 {' X
    Thanks a lot

    # p% b: Y5 A4 F这边有 90 年版的,和 google book  上的同一版本。9 m- L. n) @( S
    不过我看序言是和我买的红皮版一样。
    6 S# X% V) y- t6 L. Shttps://goods.ruten.com.tw/item/show?21742221682018
    + T: G2 W. A9 \0 o$ b: t  H2 W. S
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 00:54 , Processed in 0.075045 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表