喬治兄 发表于 2019-1-18 15:11:28

索引字典詞頭的排列順序

本帖最后由 喬治兄 于 2019-1-18 21:15 编辑

不知這樣分類對嗎, 若有不妥請管理員移動....謝謝
您若有制作索引字典
以辭量較大的 wordlist 去匹配字典上每一頁的第一個字和最後一個字為基準頁碼時
可能需注意一下, 以 Excel vlookup function 去匹配相對的頁碼時
您的wordlist 可能需處理一下以免 vlookup 匹配到錯誤的頁碼
情況在於一般紙質典詞的 headwords 排列的順序規則如下

varying hare ==>varyinghare
panic–stricken ==>panicstricken
一般字典是以去空格和連接號來排序的
所以需以紅色粗體字那樣來排序
則其順序會和紙質典詞的 headwords 排列順序一樣
若以籃色字體那樣的來排序則順序會和紙質典詞的 headwords 順序有所些微差異而導致跳頁
貧道已試過蠻多次的,您可試試答案是否也是和貧道說的一樣
{:4_105:}

PS. 補充: 感謝 tsiank 兄提醒
还有带éè等字符的也要处理一下
排序時都排到最后去

èéêëìíîú
ē
類似這類的字元那就需替換成一般的英文字元再排序
再看排序後的位置是否正確
若不符在字典的順序還需調整


chigre3 发表于 2019-1-18 21:07:40

一般我都先正则替换掉所有普通英文字符和数字、空格
然后剩下的特殊字符根据情况替换为相应的英文字符或者替换为空
1. 空格 统统正则替换为空
2. (\S)替换为 \1\n删除重复行
3. 替换特殊字符为普通字符

y8888 发表于 2019-1-18 21:05:00

只要有排好序的词头,我就能把mdx按这词头排序好。

喬治兄 发表于 2019-1-18 21:15:28

chigre3 发表于 2019-1-18 21:07
一般我都先正则替换掉所有普通英文字符和数字、空格
然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

chigre3 兄:
這樣的字元情況,.....在下沒處理過
只是 tsiank 兄提醒,覺得可能是這樣處理吧
{:4_105:}

喬治兄 发表于 2019-1-18 21:18:32

y8888 发表于 2019-1-18 21:05
只要有排好序的词头,我就能把mdx按这词头排序好。

不是很懂 y8888 兄的意思
是另外做個字表嗎
{:4_105:}

y8888 发表于 2019-1-19 07:45:54

喬治兄 发表于 2019-1-18 21:18
不是很懂 y8888 兄的意思
是另外做個字表嗎

可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸版的排序对应出来。

喬治兄 发表于 2019-1-19 12:16:58

y8888 发表于 2019-1-19 07:45
可能我也没有看清你的意思。你意思用电子字典按纸版词序对应起来?我意思若有纸版词头,则MDX我可以按纸 ...

y8888 兄:
我的意思是利用辭典頁面上的第一個字和最後一個字來作為區間
然後用vlookup去匹配在此區間的其他單字
所以wordlist 的順序一定要和辭典的順序一樣
不然有的在此區間的字會跳到別的區間
{:4_105:}

y8888 发表于 2019-1-20 17:31:50

估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事。

klwo2 发表于 2019-1-20 17:45:29

这个不能解决短语的问题

W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用

短语只能手动来

喬治兄 发表于 2019-1-22 09:54:50

本帖最后由 喬治兄 于 2019-1-22 10:39 编辑

y8888 发表于 2019-1-20 17:31
估计你这方式不很精准。C大给我一份韦氏的词头我则按词头排序好了。其实你想实实现的效果与我说的是一回事 ...

y8888 兄:
若辭典的排列規則如小弟所述且並無 klwo2 兄 所遇到的狀況
則必然在此區間
Oxford, Longman 都是如此排列規則
{:4_105:}

其實小弟此文的真意是
1. 當您可能沒有此字典的wordlist 時想配其區間的字
2. 當然不可能會精確因為不是此書的字表, 但是能確保匹配在其區間
3. 按其字典的排列匹配在其區間==>只剩多配和少配的問題此取決您的 wordlist 辭彙量及密合度了

喬治兄 发表于 2019-1-22 10:02:01

本帖最后由 喬治兄 于 2019-1-22 10:24 编辑

klwo2 发表于 2019-1-20 17:45
这个不能解决短语的问题

W3(英汉辞海)把「no go」放到[go」下面,你怎么排都没用


klwo2 兄:
謝謝提醒,把短语給忘了...哈!哈!哈哈哈
這樣的狀況短语只能要先抽出額外處理
{:4_105:}
還是 klwo2 兄經驗老道呀
一瞄就能看到此文缺失....太感謝了
讚呀!

starmars 发表于 2021-2-26 18:51:40

chigre3 发表于 2019-1-18 21:07
一般我都先正则替换掉所有普通英文字符和数字、空格
然后剩下的特殊字符根据情况替换为相应的英文字符或者 ...

为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗?

喬治兄 发表于 2021-2-26 20:17:14

本帖最后由 喬治兄 于 2021-2-26 20:20 编辑

starmars 发表于 2021-2-26 18:51
为什么要“先正则替换掉所有普通英文字符和数字、空格”? 这些难道不是需要的吗? ...

starmars 兄:
道理很簡單這樣才能知道有多少特殊字元要處理
若是這些特殊字元并不影響排序的順序,其實也可以不需要作替換處理
{:4_105:}

starmars 发表于 2021-2-26 20:31:07

喬治兄 发表于 2021-2-26 20:17
starmars 兄:
道理很簡單這樣才能知道有多少特殊字元要處理
若是這些特殊字元并不影響排序的順序,其實也 ...

原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通英文字符和数字、空格都是做图片词典可以丢弃不用了呢。

喬治兄 发表于 2021-2-26 20:46:50

本帖最后由 喬治兄 于 2021-2-26 20:55 编辑

starmars 发表于 2021-2-26 20:31
原来先正则替换掉所有普通英文字符和数字、空格,是为了只留下特别字符看得更清楚啊!我还以为是在说普通 ...

starmars 兄,Chigre 兄的作法是正規的處理方法,我猜他應該是把一些法文或西文的字符替代成英文字符後排序,但根据個人經驗,沒去替換好像也是不影響順序,你可以找幾個試試,基本上我是都沒去處理,只處理幾個我所提的字元

',   .-   / 和 空格

( ) ==> 看詞典情況 可能只去括號, 也可能去掉括號+括號內的內容

&==>and
St. ==> saint ( 看詞典情況 )
页: [1]
查看完整版本: 索引字典詞頭的排列順序