掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2472|回复: 14

[讨论] 索引字典詞頭的排列順序

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 15:11:28 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-1-18 21:15 编辑
    - f* Q2 @/ U. V% ^, K; G! w  ?$ X1 J1 X: r
    不知這樣分類對嗎, 若有不妥請管理員移動....謝謝
      j2 }/ f9 E' B9 B4 w' g您若有制作索引字典/ y1 g1 P- ]: o: h
    以辭量較大的 wordlist 去匹配字典上每一頁的第一個字和最後一個字為基準頁碼時0 c& U, `$ |- n
    可能需注意一下, 以 Excel vlookup function 去匹配相對的頁碼時
    , `  x( P8 Z% ?, j, d) l  y* e您的wordlist 可能需處理一下以免 vlookup 匹配到錯誤的頁碼
    # z1 {0 \$ p7 ~) x% Q. K5 p: ]情況在於一般紙質典詞的 headwords 排列的順序規則如下# E/ T- L3 W% E* Y

    $ }  o% A: ^% Z: Y* w( qvarying hare ==>varyinghare
    4 x  ]8 q  [+ {: A. a0 j1 K  spanic–stricken ==>panicstricken# c6 Q3 n* v- T, J
    一般字典是以去空格和連接號來排序的8 m8 y8 L/ L. @' i3 N' q/ G" N
    所以需以紅色粗體字那樣來排序
    ; J; X$ T; R) `! {* y& j) }9 e則其順序會和紙質典詞的 headwords 排列順序一樣9 n! ]/ U0 }" q7 Q, `+ I' |2 B
    若以籃色字體那樣的來排序則順序會和紙質典詞的 headwords 順序有所些微差異而導致跳頁
    / `& v7 H& ?) U# v4 l: Z# ^貧道已試過蠻多次的,您可試試答案是否也是和貧道說的一樣5 J/ W: [9 Y" L- E2 b
    # o4 W* k2 T- {% p4 @2 _

    1 l( _( t9 \8 p( t8 r" v/ yPS. 補充: 感謝 tsiank 兄提醒
    " X5 Q8 [( M& b还有带éè等字符的也要处理一下  _! e2 {7 P' j6 l# Y
    排序時都排到最后去9 f0 m0 E" s; E
    èéêëìíîú
    ē, a- H% G; q, e! o+ N% p
    類似這類的字元那就需替換成一般的英文字元再排序
    . Q. P+ l% Q3 |! o再看排序後的位置是否正確( v$ [7 J$ O# O# W) @8 h0 o
    若不符在字典的順序還需調整
    / H1 u1 C0 ^+ V8 C. Z9 S; L% ]
    9 Z& _: j/ b; Z9 k! ~! W" r

    : d4 W& `# f7 o

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2019-1-18 21:07:40 | 显示全部楼层
    一般我都先正则替换掉所有普通英文字符和数字、空格5 i7 Z0 T1 E/ P2 @2 K
    然后剩下的特殊字符根据情况替换为相应的英文字符或者替换为空
    : A! L( |2 u% b1. [a-z] [0-9] 空格 统统正则替换为空4 I% D: D3 N2 L# b' o
    2. (\S)替换为 \1\n  删除重复行
    2 d& w' j$ I5 W) S  x9 ]7 S- X) L3. 替换特殊字符为普通字符

    评分

    1

    查看全部评分

  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 21:05:00 | 显示全部楼层
    只要有排好序的词头,我就能把mdx按这词头排序好。
    8 F# n7 ]* {; n+ `* `1 H" Z) s
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:15:28 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:076 t  {9 m  W2 C5 t$ Q
    一般我都先正则替换掉所有普通英文字符和数字、空格
    - c! t/ b1 S2 o" Y! B& d然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...
    , J1 c! h2 h! T( D8 C1 t8 ]8 l+ e3 P
    chigre3 兄:$ I6 D. V" Z6 |
    這樣的字元情況,.....在下沒處理過9 K! k( q. H- |: l; c3 i, q' B' o
    只是 tsiank 兄提醒,覺得可能是這樣處理吧. Z# }, x! `" ^. e) }3 \$ k
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:18:32 | 显示全部楼层
    y8888 发表于 2019-1-18 21:05
    ) g* @. Z1 s8 c# r1 o6 l9 `只要有排好序的词头,我就能把mdx按这词头排序好。
    9 }% y4 G1 W7 [. e- ?# J
    不是很懂 y8888 兄的意思
    - w+ F9 `6 ?0 O# G+ w6 o是另外做個字表嗎
    * @7 X7 D$ h2 a8 y6 b
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-19 07:45:54 | 显示全部楼层
    喬治兄 发表于 2019-1-18 21:180 f) B" ^$ B9 l6 k  Q
    不是很懂 y8888 兄的意思) X% f' w- q. |8 ]7 C
    是另外做個字表嗎
    $ X6 g0 w! }4 Y4 w/ X& j9 S9 ?/ R; D
    可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸版的排序对应出来。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-19 12:16:58 | 显示全部楼层
    y8888 发表于 2019-1-19 07:45* v$ r6 e+ O  }1 \0 W
    可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸 ...
    7 ~% j# E% v2 A3 u3 o* C7 F# j
    y8888 兄:; k! m" w8 o* _! w' `# Q
    我的意思是利用辭典頁面上的第一個字和最後一個字來作為區間; M" x# H) c- ~* K9 T* G
    然後用vlookup去匹配在此區間的其他單字4 c8 F: C' o3 M* L3 p
    所以wordlist 的順序一定要和辭典的順序一樣
    ! w9 @, p! M, {% [不然有的在此區間的字會跳到別的區間
    - K8 Y) a. ?0 a8 o- f; V2 _
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-20 17:31:50 | 显示全部楼层
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事。

    该用户从未签到

    发表于 2019-1-20 17:45:29 | 显示全部楼层
    这个不能解决短语的问题; Q! T: }; @- h. T9 W9 u: L

    & @% S. Q: p& l8 ~3 @# N, mW3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用
    ' w3 H; U' C& x9 N6 D- C9 l$ v! j* o5 ]! y7 a
    短语只能手动来

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 09:54:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:39 编辑
    " Q9 l# q" ~) |/ x6 e
    y8888 发表于 2019-1-20 17:31" {9 u% A- }, m
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事 ...

    # S* T+ h( D5 m) F+ F
    / M9 \  O6 C) U0 c. Vy8888 兄:
    # C: W8 p# u5 s' E4 S& A. s若辭典的排列規則如小弟所述且並無 klwo2 兄 所遇到的狀況7 i0 R: f  r: m
    則必然在此區間+ b1 s" f: K9 L0 M& s
    Oxford, Longman 都是如此排列規則
    8 M0 }3 W! z. j7 P4 i
    0 c& U7 p+ p- w( O' n$ B. N( @( E0 Z# `
    其實小弟此文的真意是- t* }' @! p' \$ y2 n  v- Z  \
    1. 當您可能沒有此字典的wordlist 時想配其區間的字
    ; f5 h  B, B% L4 S6 E  U0 A7 W: q2. 當然不可能會精確因為不是此書的字表, 但是能確保匹配在其區間7 T, i7 u8 y/ ]+ u
    3. 按其字典的排列匹配在其區間==>只剩多配和少配的問題此取決您的 wordlist 辭彙量及密合度了; n5 W4 U: B8 q! Y6 E2 \  `4 N, P
    ( O$ w9 F/ E2 q' K! E- \, _
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 10:02:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:24 编辑
    / _2 y/ y6 J3 W% @' C* i+ V
    klwo2 发表于 2019-1-20 17:45' R# w! S: C! @& {9 n# `
    这个不能解决短语的问题
    3 f4 a3 h) u  z. D% r0 M9 }$ a; S. ?- X6 k5 H
    W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用

    : d. W. `: E! \" y# N, O. y
    ' c$ _8 C5 i3 P1 O: r8 i, Mklwo2 兄:
    & `" v+ W( X3 G$ D# }. _* a謝謝提醒,把短语給忘了...哈!哈!哈哈哈
    ; ~9 u4 u5 L; b3 P* c4 B! I這樣的狀況短语只能要先抽出額外處理. J. ~0 Q3 E/ N2 H6 e# m+ Y
    0 A4 Z$ `4 M$ F# N2 ?
    還是 klwo2 兄經驗老道呀
    ( s2 E9 E; e8 m  H( g6 s: E+ G一瞄就能看到此文缺失....太感謝了0 ]4 w8 s6 h# r1 |
    讚呀!+ C" @5 L+ p+ Y# j' @: E4 V- Q
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 18:51:40 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:07: o7 n, P' U( D! P9 N; V
    一般我都先正则替换掉所有普通英文字符和数字、空格
    4 ^, ^" q1 f" }( A然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...
    : c/ ]$ x4 @# {7 \# i6 ]3 o( u
    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:17:14 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:20 编辑
      `) v1 N# s( q+ ^+ E4 h
    starmars 发表于 2021-2-26 18:51
    6 R, j' J5 u% d! m5 [: M* B0 `  l为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗? ...

    6 w, ?+ D2 r# r+ Z& U- y6 P) P% k. l. Z9 W3 d
    starmars 兄:, ^: g( K+ R& E/ m$ P2 b' F  w& T0 q
    道理很簡單這樣才能知道有多少特殊字元要處理
    1 ^: q+ G% W) g+ ]  o. g若是這些特殊字元并不影響排序的順序,其實也可以不需要作替換處理) p' h0 t: `5 D6 g8 B
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 20:31:07 | 显示全部楼层
    喬治兄 发表于 2021-2-26 20:17
    9 M% |3 p7 a6 o+ rstarmars 兄:# n7 N: v/ e. L1 ?
    道理很簡單這樣才能知道有多少特殊字元要處理
    $ Z% k1 R) S3 ^% Y  k2 v若是這些特殊字元并不影響排序的順序,其實也 ...

    # M+ B/ ]$ L8 D$ Z/ s7 {" j$ @4 M原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通英文字符和数字、空格都是做图片词典可以丢弃不用了呢。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:46:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:55 编辑 / c! x+ E0 j; Q3 t
    starmars 发表于 2021-2-26 20:31
    8 k2 [3 w- _# |, ?. q& g% e原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通 ...
    : r' W; l6 R7 k) |6 r6 x# X

    7 Q8 c- u& V& C0 L0 jstarmars 兄,Chigre 兄的作法是正規的處理方法,我猜他應該是把一些法文或西文的字符替代成英文字符後排序,但根据個人經驗,沒去替換好像也是不影響順序,你可以找幾個試試,基本上我是都沒去處理,只處理幾個我所提的字元
    7 S, T% @" ~+ H* T8 t* I# r+ ~" x$ m2 n% Z; b
    '  ,   .  -   / 和 空格' q* y1 z3 X: [1 L2 W

    : N  D3 B9 [) e% a2 ?1 c( ) ==> 看詞典情況 可能只去括號, 也可能去掉括號+括號內的內容. t; F. G. k0 J2 D; W
      R' s. R4 o, u! ^
    &==>and
    9 @; w+ }2 y. g( xSt. ==> saint ( 看詞典情況 )
    - I$ T( O! k! r2 I0 A
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-22 05:56 , Processed in 0.027092 second(s), 28 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表