掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2022|回复: 14

[讨论] 索引字典詞頭的排列順序

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 15:11:28 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-1-18 21:15 编辑 ) ^! c+ c3 t1 t# I) e
    - X  o5 S: P. g0 c0 }  ~1 s
    不知這樣分類對嗎, 若有不妥請管理員移動....謝謝$ `& w3 S- o+ W' \. H% x/ _* }0 W3 B
    您若有制作索引字典
    ! ^" C" e0 c9 S. Z4 l以辭量較大的 wordlist 去匹配字典上每一頁的第一個字和最後一個字為基準頁碼時
    * J! ]- J1 @3 I$ f  F可能需注意一下, 以 Excel vlookup function 去匹配相對的頁碼時
    9 P& Y( O  n0 [2 ~. K' G" \* k您的wordlist 可能需處理一下以免 vlookup 匹配到錯誤的頁碼3 a, u0 |+ \5 x# y; X) U
    情況在於一般紙質典詞的 headwords 排列的順序規則如下
    * V1 v* V7 c" p# u: g" V& Z. W1 c$ x
    1 D8 m' D! z. m5 U) `varying hare ==>varyinghare
    ' @. q: W! B5 V( H8 D* S) Ypanic–stricken ==>panicstricken( v% r: G% k8 I
    一般字典是以去空格和連接號來排序的
    2 Z$ ]8 l4 i8 M. ?5 a8 A所以需以紅色粗體字那樣來排序2 z5 w% }1 J; f. n$ `
    則其順序會和紙質典詞的 headwords 排列順序一樣
    , G/ ~$ _% C( _4 D+ `若以籃色字體那樣的來排序則順序會和紙質典詞的 headwords 順序有所些微差異而導致跳頁 7 t* D4 \8 Z9 H* b- M
    貧道已試過蠻多次的,您可試試答案是否也是和貧道說的一樣+ K) B9 @% t) P2 k7 \8 B; z

    ! s: c- r, h; T. Q' O2 w/ x( D8 ?6 s5 a% I. T2 J* f9 q
    PS. 補充: 感謝 tsiank 兄提醒
    : l% s) V; T9 A还有带éè等字符的也要处理一下
    " G6 A- D8 t5 q0 `) g9 v' U9 Q
    排序時都排到最后去
    . C" Q4 M- q% T% q1 ~2 V
    èéêëìíîú
    ē3 K- v# `/ H* u5 p& B" u
    類似這類的字元那就需替換成一般的英文字元再排序
    0 _6 `, c. I  D% F; M再看排序後的位置是否正確9 k( d' _7 g9 u( |, c4 f
    若不符在字典的順序還需調整3 H$ ~) I8 u; w

    8 L4 o- i9 y8 ~2 \3 Y" @6 W8 Q0 e' k' M, y

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2019-1-18 21:07:40 | 显示全部楼层
    一般我都先正则替换掉所有普通英文字符和数字、空格4 \8 \, L5 J& z, E) V- g* Q
    然后剩下的特殊字符根据情况替换为相应的英文字符或者替换为空
    1 E4 ~. u/ V( w& |/ f# _1. [a-z] [0-9] 空格 统统正则替换为空$ _5 `3 [' p7 B5 M
    2. (\S)替换为 \1\n  删除重复行
    / k* C, ^9 b! V4 L: b3. 替换特殊字符为普通字符

    评分

    1

    查看全部评分

  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 21:05:00 | 显示全部楼层
    只要有排好序的词头,我就能把mdx按这词头排序好。
    - y4 F- m0 {3 x6 G# B! V( f
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:15:28 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:07
    9 J3 b# h- g0 v  F' U一般我都先正则替换掉所有普通英文字符和数字、空格
    0 F8 X1 G. B4 h6 O1 A* d0 Q然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

    : P7 x$ W3 d1 o; O, q% G' ?chigre3 兄:8 M9 B" B* g7 s5 Q, P
    這樣的字元情況,.....在下沒處理過. `: i4 u6 w$ U, M
    只是 tsiank 兄提醒,覺得可能是這樣處理吧
      O; j6 B9 d) A* N% \8 m' C0 ]" i. u
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:18:32 | 显示全部楼层
    y8888 发表于 2019-1-18 21:05/ _4 Q- L' h: E3 h+ j; N! u5 `8 p
    只要有排好序的词头,我就能把mdx按这词头排序好。

    , ?) G% h& n2 z- q2 `$ g% V( _不是很懂 y8888 兄的意思
      K( o  J- u8 m是另外做個字表嗎
    + m" |* ~+ \4 Y. T3 Y" f& g
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-19 07:45:54 | 显示全部楼层
    喬治兄 发表于 2019-1-18 21:18
    - O7 g! S$ ]; f2 ~: f不是很懂 y8888 兄的意思
    ! I8 F3 }( |; n- n: u4 e' K是另外做個字表嗎

    ) N: W/ n' \, M5 f4 C% [& _! u可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸版的排序对应出来。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-19 12:16:58 | 显示全部楼层
    y8888 发表于 2019-1-19 07:45
    ) W9 C. q4 r& }  c可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸 ...

    ; {8 Q7 F- V$ N( a% e* \y8888 兄:
    2 r, r' g. o) M* C9 v我的意思是利用辭典頁面上的第一個字和最後一個字來作為區間. l% W% P, t8 h5 f6 J+ C
    然後用vlookup去匹配在此區間的其他單字
    9 l" i4 M5 q" j& i7 D所以wordlist 的順序一定要和辭典的順序一樣% V6 w6 a9 e% q* A% i; T" l* Q* ]
    不然有的在此區間的字會跳到別的區間
    ' N0 E: }. m' v8 G" A# r) p
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-20 17:31:50 | 显示全部楼层
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事。

    该用户从未签到

    发表于 2019-1-20 17:45:29 | 显示全部楼层
    这个不能解决短语的问题( f! [2 ?2 P( U# ~5 Q
    ! e# m2 n- x3 M0 U
    W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用/ j: m5 y. o) }5 K7 ^
    " _" t4 f& V( s* J3 ?' ~
    短语只能手动来

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 09:54:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:39 编辑 $ S+ L5 Z$ u( l0 @
    y8888 发表于 2019-1-20 17:31
    ( n1 A- k" c. T估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事 ...

    - S0 f7 R6 g; K; a- f" N
    * F- g% l6 a1 r, R# M2 x) Q7 _y8888 兄:
    5 v! ^  h6 m+ a, M若辭典的排列規則如小弟所述且並無 klwo2 兄 所遇到的狀況; K" {8 T( g2 r0 ^- c0 \' n
    則必然在此區間
    : ~. R  t$ ?2 _$ COxford, Longman 都是如此排列規則2 o6 G1 k8 X  |8 i6 G

    7 o( c+ P5 m0 O' x/ l" m5 h* m' l+ F6 [# f& U
    其實小弟此文的真意是# U0 a$ f1 [; ]0 U8 Z
    1. 當您可能沒有此字典的wordlist 時想配其區間的字5 B' S+ k+ ]* Z! A7 j
    2. 當然不可能會精確因為不是此書的字表, 但是能確保匹配在其區間* \; y4 A6 Y& y+ T: c3 Y# b4 L
    3. 按其字典的排列匹配在其區間==>只剩多配和少配的問題此取決您的 wordlist 辭彙量及密合度了
    , l- B9 o' y) u8 m$ W7 H
    6 f. v; S  e$ i
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 10:02:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:24 编辑 8 z, N  T$ o( w. H* {
    klwo2 发表于 2019-1-20 17:45% p' G" M* I% ]" Z, u. N0 y
    这个不能解决短语的问题
    2 Q* v( P) _; M8 A4 t" W; I5 j: K/ H: V; ~0 E9 u/ p$ v! _' z
    W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用
    ' b; u& i3 g$ g- q+ O0 h5 m3 ^

    ' {+ q* X6 h, Y( i5 Iklwo2 兄:4 @' C: m# m& s! G7 A( i
    謝謝提醒,把短语給忘了...哈!哈!哈哈哈
    - K/ I% t9 h! S  h這樣的狀況短语只能要先抽出額外處理
    2 |8 ]$ f3 D3 b, D' M) K) R' d& C) ~$ E5 ]) M  F$ R4 s; S" N/ G7 d
    還是 klwo2 兄經驗老道呀. u! ]& q  i% F( U
    一瞄就能看到此文缺失....太感謝了
    7 K9 Q: p1 E2 _讚呀!  b, W6 Z8 c9 C0 o7 Q: {6 W
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 18:51:40 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:07# I, k0 O" b# g; H) P  A) y* C( A# F4 N
    一般我都先正则替换掉所有普通英文字符和数字、空格
    / o8 \! ^4 u: @/ s9 d0 [" C! ?+ c0 F- N然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...
    1 w. q" K5 H/ i$ d) E
    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:17:14 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:20 编辑
    4 j+ h9 g! x: U
    starmars 发表于 2021-2-26 18:51+ T' P# d7 N. g1 u* R- Q# x+ B' v" |
    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗? ...

    6 v. s% R. k3 k, q2 N
    : c0 R7 x" `" ?  C- |+ C2 E$ O) estarmars 兄:- b4 j& ^4 T5 I8 f# p+ J5 k1 @
    道理很簡單這樣才能知道有多少特殊字元要處理
    6 M: f. P2 N( J5 O若是這些特殊字元并不影響排序的順序,其實也可以不需要作替換處理6 k8 g. s$ ?$ A0 _; i1 G2 O% T
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 20:31:07 | 显示全部楼层
    喬治兄 发表于 2021-2-26 20:17
    0 _. K' V/ `0 L7 x  d5 O1 `  Vstarmars 兄:; t% I( }2 N4 p; `0 _6 V, _- b+ \/ b
    道理很簡單這樣才能知道有多少特殊字元要處理
    ! `+ t: Z7 N9 Y5 X4 d若是這些特殊字元并不影響排序的順序,其實也 ...
    6 ]' P0 m" Y) a3 x; f7 k1 g/ |
    原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通英文字符和数字、空格都是做图片词典可以丢弃不用了呢。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:46:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:55 编辑 # e- |, F7 S) c9 g! K% b& U# x
    starmars 发表于 2021-2-26 20:313 C% z& K# C, x
    原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通 ...
      F/ Z- i! \2 B+ M# R5 u- ^# L

    : O# Y" F! l) |7 A; m3 d2 @1 kstarmars 兄,Chigre 兄的作法是正規的處理方法,我猜他應該是把一些法文或西文的字符替代成英文字符後排序,但根据個人經驗,沒去替換好像也是不影響順序,你可以找幾個試試,基本上我是都沒去處理,只處理幾個我所提的字元
    5 s- ^& {6 n' F# S) E
    $ }: Q8 a: q# G% _; Z  V '  ,   .  -   / 和 空格
    * ~7 |& _: D) o, z! x5 m
    2 z9 @/ \& S8 V3 X$ h& S9 O( ) ==> 看詞典情況 可能只去括號, 也可能去掉括號+括號內的內容
    8 Y( Z7 }6 i6 ?5 Z; u4 A" |/ Z5 @
    ! k  q" ]8 Z( L# `. e&==>and
    ; f, j  w3 v; z% A: ]; RSt. ==> saint ( 看詞典情況 )% l5 l+ C' l8 G* M8 ~
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 19:32 , Processed in 0.065510 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表