掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2025|回复: 14

[讨论] 索引字典詞頭的排列順序

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 15:11:28 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-1-18 21:15 编辑 : R1 ?) {' Y- ^+ F

    5 c/ Y4 m8 V8 R' H5 {3 D不知這樣分類對嗎, 若有不妥請管理員移動....謝謝2 `, d0 X/ G  ]* w; w9 k
    您若有制作索引字典
    - m5 R0 K4 @3 u5 l' F以辭量較大的 wordlist 去匹配字典上每一頁的第一個字和最後一個字為基準頁碼時: K) f5 W3 L9 b* P$ @& m
    可能需注意一下, 以 Excel vlookup function 去匹配相對的頁碼時
    6 E" x9 V/ ]8 V% ~. f您的wordlist 可能需處理一下以免 vlookup 匹配到錯誤的頁碼1 r# ?# E1 @) |0 Z
    情況在於一般紙質典詞的 headwords 排列的順序規則如下
    ) I& m  C' o5 C0 x: l5 D% \! X6 Y$ X! y( ?9 I
    varying hare ==>varyinghare
    " D5 F5 x7 w* o: qpanic–stricken ==>panicstricken
    0 P* y) e3 h* [9 U0 K一般字典是以去空格和連接號來排序的
    . k$ {% x% A3 O: T  r所以需以紅色粗體字那樣來排序
    + x" U: D- e, j" ~. ^5 |則其順序會和紙質典詞的 headwords 排列順序一樣
    1 f( F3 i5 I/ d3 g2 @6 b若以籃色字體那樣的來排序則順序會和紙質典詞的 headwords 順序有所些微差異而導致跳頁 ) z1 E+ c4 h/ W5 r
    貧道已試過蠻多次的,您可試試答案是否也是和貧道說的一樣1 F! G: d" f7 _# ?+ j
    9 p- H6 i4 |( r6 ~! `- A

    & {* V( g/ ?) ]. }  r* }PS. 補充: 感謝 tsiank 兄提醒- N! E! ]+ y6 u# X+ P& E0 A
    还有带éè等字符的也要处理一下
    & }# f5 k( `7 ~# B+ m
    排序時都排到最后去1 N- M* x! m" t
    èéêëìíîú
    ē# w6 f$ y* n8 G6 @" D3 Z/ ]
    類似這類的字元那就需替換成一般的英文字元再排序
    5 X- ]. |6 h% R3 E3 g% y再看排序後的位置是否正確0 h. _9 j2 L8 X* j7 ]
    若不符在字典的順序還需調整7 S! Q* o: G- N( K+ J8 C

    - }8 m$ D1 }4 T4 D0 y4 B0 y7 \, \3 Q8 ~, ^& d3 \7 ]' b" a4 b) @4 P* N

    评分

    1

    查看全部评分

    该用户从未签到

    发表于 2019-1-18 21:07:40 | 显示全部楼层
    一般我都先正则替换掉所有普通英文字符和数字、空格7 l' b+ L; ]9 Z* @+ o' r" \
    然后剩下的特殊字符根据情况替换为相应的英文字符或者替换为空2 J  P4 V; P- E; r- D
    1. [a-z] [0-9] 空格 统统正则替换为空
    1 {# m* h$ n9 _& u/ r3 L% g2. (\S)替换为 \1\n  删除重复行9 e0 n/ P$ Y; }1 }1 [: O; a
    3. 替换特殊字符为普通字符

    评分

    1

    查看全部评分

  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-18 21:05:00 | 显示全部楼层
    只要有排好序的词头,我就能把mdx按这词头排序好。
    , h9 N  e4 ~. o+ A
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:15:28 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:07
    , [; o% s" U# e( J- z3 u4 ~2 D% T一般我都先正则替换掉所有普通英文字符和数字、空格
      d6 i9 w; ~/ l0 P$ q3 [3 Q  F+ E然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...
    ( _8 E  `7 Z! P+ j
    chigre3 兄:
    6 j( Z$ r" G8 O. y+ L# D這樣的字元情況,.....在下沒處理過
    . e" E. h! d4 M2 }" H; `只是 tsiank 兄提醒,覺得可能是這樣處理吧  I& d( y2 K* z* @2 b
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-18 21:18:32 | 显示全部楼层
    y8888 发表于 2019-1-18 21:05( Z8 ], M2 d- V' V+ ?7 ~- n
    只要有排好序的词头,我就能把mdx按这词头排序好。
    , _/ U# L& `) B( Z! x
    不是很懂 y8888 兄的意思
    " m( B7 c  n  p是另外做個字表嗎) Z3 H, J. L1 K0 j$ f! _, q
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-19 07:45:54 | 显示全部楼层
    喬治兄 发表于 2019-1-18 21:18$ u2 T9 g" ^0 V- L
    不是很懂 y8888 兄的意思
    ' u9 P4 O& ?% W是另外做個字表嗎

    : g$ H! z7 a0 v" \可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸版的排序对应出来。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-19 12:16:58 | 显示全部楼层
    y8888 发表于 2019-1-19 07:45: I5 i) B" s& W; _4 e
    可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸 ...
    . b7 ^$ N& l% T! ~
    y8888 兄:1 z' j# z/ r% c  m
    我的意思是利用辭典頁面上的第一個字和最後一個字來作為區間
    $ x, Z/ W& v; w3 A+ X, t然後用vlookup去匹配在此區間的其他單字9 x$ M$ x  e( t9 v' R: P
    所以wordlist 的順序一定要和辭典的順序一樣
    , T) D7 U$ `$ t; Z; V不然有的在此區間的字會跳到別的區間* U" N# c9 ?2 x# f# F  Q! y
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-1-20 17:31:50 | 显示全部楼层
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事。

    该用户从未签到

    发表于 2019-1-20 17:45:29 | 显示全部楼层
    这个不能解决短语的问题
    . B3 H' ~7 ~3 m+ j! b! l
    % q( z- E+ p; e3 D1 T& L7 P% NW3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用
    % c8 U; h# E; R7 H* ]2 ?7 Z1 K8 ^' B$ W7 @
    短语只能手动来

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 09:54:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:39 编辑 " g! |# z- b( D( \
    y8888 发表于 2019-1-20 17:31) f; i$ e2 \9 }8 ]1 Z
    估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事 ...
    ' x! M- W* W$ c* a# v9 P5 d% r
    ( m, W% T7 n+ _+ ~. L. u* a
    y8888 兄:5 U/ x# s% \/ W
    若辭典的排列規則如小弟所述且並無 klwo2 兄 所遇到的狀況$ N$ C3 X+ v9 i$ y
    則必然在此區間) B8 V- b# c1 q& `
    Oxford, Longman 都是如此排列規則3 ^4 f" e( `, r: _! c
    4 k% ~6 ]" @+ m$ g+ v
    ' G" i+ \8 K( i8 V+ b# D, J% Q
    其實小弟此文的真意是
    . K; f8 A1 D1 q) f6 [! W0 q1. 當您可能沒有此字典的wordlist 時想配其區間的字2 J( @9 ]# Q$ z5 M- u- I
    2. 當然不可能會精確因為不是此書的字表, 但是能確保匹配在其區間
      q2 l9 S% Y/ Q! `; N- m0 l9 J3. 按其字典的排列匹配在其區間==>只剩多配和少配的問題此取決您的 wordlist 辭彙量及密合度了. j/ b( f/ G* z7 Z" T4 x$ P
    8 c  J/ a* {) i  Z, Z6 K+ ?& l
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-1-22 10:02:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-1-22 10:24 编辑
    ; w  x& E8 R( A# h4 p5 w9 \
    klwo2 发表于 2019-1-20 17:45( I$ j& M7 R5 w9 I7 R. Z
    这个不能解决短语的问题
    9 S, d8 p/ _" k+ ^
    ! T6 d: y% ~6 u* ]W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用

      T& f! J) F! Q+ G  r' j( J. j) z# Z/ f  a* j- J3 t
    klwo2 兄:
    # w' X4 ]: r% O# {. k1 O1 A2 L謝謝提醒,把短语給忘了...哈!哈!哈哈哈; F; U$ A/ Z8 `& g, H3 ]; F) Q
    這樣的狀況短语只能要先抽出額外處理
    ! v3 w1 W' I: y8 x( P& I$ Y
    . m' [' E: J8 k還是 klwo2 兄經驗老道呀
    ) x" a$ a* U' m0 v3 t一瞄就能看到此文缺失....太感謝了
    $ q! U( t) F+ g0 @$ P9 h) U讚呀!
    * u& @/ c8 O3 I1 f- W# t* r  `+ |
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 18:51:40 | 显示全部楼层
    chigre3 发表于 2019-1-18 21:077 e, A9 D8 h0 e$ ]; {
    一般我都先正则替换掉所有普通英文字符和数字、空格
    % M1 H7 l' {+ x然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

    # ?% ~$ t3 w& L! D# j1 p2 ^% x! A为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:17:14 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:20 编辑 7 |" p- Z3 P, ~
    starmars 发表于 2021-2-26 18:51: D; I1 Q6 j- P- L
    为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗? ...
    , C8 K* ^% t, _$ n( d( a
    1 ^8 w- }9 B2 T% u/ F# `8 k6 g2 g
    starmars 兄:
    / R, L) E! J" u7 k) c道理很簡單這樣才能知道有多少特殊字元要處理
    7 i8 H; i% `5 o( u! F若是這些特殊字元并不影響排序的順序,其實也可以不需要作替換處理
    # a4 b. H' s- T) k6 Q; I' X
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-26 20:31:07 | 显示全部楼层
    喬治兄 发表于 2021-2-26 20:17
    4 C2 K' F! x# s7 G5 A9 _1 l" }4 Rstarmars 兄:* N8 r# h; [, n8 e7 }
    道理很簡單這樣才能知道有多少特殊字元要處理& n( s5 A5 x  j9 _" F9 }+ L$ T
    若是這些特殊字元并不影響排序的順序,其實也 ...

    ) a' h0 R, @  U- `- \原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通英文字符和数字、空格都是做图片词典可以丢弃不用了呢。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2021-2-26 20:46:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2021-2-26 20:55 编辑 % X) B  l! a) Z3 {" z3 Q' `
    starmars 发表于 2021-2-26 20:31
    , h3 {9 j7 v! x& t7 ?, k原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通 ...

    ! k' ^" N& U9 A
    % \$ w7 C, Y# k! d! B, E9 Z2 L( [starmars 兄,Chigre 兄的作法是正規的處理方法,我猜他應該是把一些法文或西文的字符替代成英文字符後排序,但根据個人經驗,沒去替換好像也是不影響順序,你可以找幾個試試,基本上我是都沒去處理,只處理幾個我所提的字元4 w! b' y$ @* C2 b6 t+ K
    / H4 B! H( ?, p( Z/ h
    '  ,   .  -   / 和 空格: r  f1 a' a$ [# q

      h* I: f3 F. N( ) ==> 看詞典情況 可能只去括號, 也可能去掉括號+括號內的內容, G& d3 E# h# `: M. ^: G
    $ H/ b9 V2 \" |3 r. _" G
    &==>and. r8 J" V* K  z4 b
    St. ==> saint ( 看詞典情況 )
    , X) l& ?' }, o( l9 a# E
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 05:31 , Processed in 0.078859 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表