喬治兄 发表于 2019-6-2 14:16:27

Wordlists 匹配密合度(2)進階

本帖最后由 喬治兄 于 2019-6-6 01:08 编辑

小弟不才深感各位同好製作辭典之辛勞
只因幾個抽樣概念欲與同好們分享
若用抽樣的 Defect Rate 來看匹配密合度也能有所答案
假設如下:
詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
a = 2000 ,2500 , 2800, 2900

AQL=acceptance quality level
LTPD=lot tolerance percent defective
AOQL=aver outgoing quality limit
OC=operating characteristic curve
AOQ=average outgoing quality .............後面的幾張表為 AOQ:請留意一下, 當達到某個值時幾乎為 0 Loss
也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的

倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 {:4_105:}

若把 AQL 當成 匹配率
a = 2000 , 65.3%
a = 2500 , 82.2%
a = 2800 , 92.6%
a = 2900 , 96.1%

誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇{:4_105:}望同好們多加指正......感謝大德
此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據


https://www.pdawiki.com/forum/static/image/hrline/1.gif


PS.
所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
純.......參考
并不需要真的去計算
而是了解此現象
把定量分析的性質
轉化作為定性之選擇字表的依據的應用


https://www.pdawiki.com/forum/static/image/hrline/1.gif






喬治兄 发表于 2019-6-4 17:01:42

本帖最后由 喬治兄 于 2019-6-4 17:11 编辑

oversky 发表于 2019-6-2 18:20
如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

oversky 兄:
外研社新英漢詞典匹配度大概如下:
共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
因小弟是用 72374 的字表去匹配 Lot Size N = 72374
但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
經過算後匹配度 = 63.445 %
由此可知選用的字表並不佳.......{:4_91:}

喬治兄 发表于 2019-6-4 17:34:11

本帖最后由 喬治兄 于 2019-6-6 00:13 编辑

oversky 发表于 2019-6-2 18:20
如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

oversky 兄:
另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典

朗文當代大辭典詞典匹配度大概如下:
辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039
因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
經過算後匹配度 = 97.289 %
由此得知應該算是不錯的選項{:4_105:}


water-sea 发表于 2019-6-2 15:25:59

太深奥了!哈哈

dailiangzhen 发表于 2019-6-2 17:29:04

看不懂呀!!不过看上去,挺高大上的

喬治兄 发表于 2019-6-2 17:49:43

本帖最后由 喬治兄 于 2019-6-2 18:01 编辑

dailiangzhen 发表于 2019-6-2 17:29
看不懂呀!!不过看上去,挺高大上的

dailiangzhen 兄:
沒有 高大上

只有小弟純脆在話(畫)唬爛{:4_105:}

oversky 发表于 2019-6-2 18:20:59

如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

喬治兄 发表于 2019-6-2 18:49:08

本帖最后由 喬治兄 于 2019-6-2 18:52 编辑

oversky 发表于 2019-6-2 18:20
如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

oversky 兄:
误差在前后一页
這個不太一樣
您所在乎的問題是屬處理英文單字排序的問題
英文單字排序處理好了 vlookup 不會有錯頁的問題
小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
{:4_105:}

喬治兄 发表于 2019-6-2 19:00:38

oversky 发表于 2019-6-2 18:20
如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

oversky 兄:
小弟過兩天再以外研社新英漢詞典 那本為例子
計算一下其匹配率解釋說明您應該就大概會了解了
{:4_105:}

dailiangzhen 发表于 2019-6-2 19:34:58

喬治兄 发表于 2019-6-2 17:49
dailiangzhen 兄:
沒有



大師,謙虛了。一般厲害的人士,都是這麼說的 :)

喬治兄 发表于 2019-6-3 18:32:44

本帖最后由 喬治兄 于 2019-6-3 18:42 编辑

dailiangzhen 发表于 2019-6-2 19:34
大師,謙虛了。一般厲害的人士,都是這麼說的 :)

dailiangzhen :
仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
若有硬純屬 placebo effect
哈! 哈! 哈!哈! 哈!

{:4_105:}

thresh 发表于 2019-6-5 21:36:25

这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??

喬治兄 发表于 2019-6-5 23:30:31

本帖最后由 喬治兄 于 2019-6-6 00:58 编辑

thresh 发表于 2019-6-5 21:36
这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

thresh 兄:
小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表


此是用
1. 每一頁的第一個單字集合而成的單字列表 or
2. 每一頁的最後一個單字集合而成的單字列表 or
3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數

1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確



然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
有對到的當成是 合格的樣品
沒對到的當成是 有瑕疵的樣品

此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
此可由小弟所假設的例子得知

此是以計數值的(single plan sampling) 為基準

所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
純.......參考
并不需要真的去計算
而是了解此現象
把定量分析的性質
轉化作為定性之選擇字表的依據的應用
{:4_105:}








thresh 发表于 2019-6-7 00:03:48

喬治兄 发表于 2019-6-5 23:30
thresh 兄:
小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表



额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?

如此疑惑颇多~特求教于兄

喬治兄 发表于 2019-6-7 10:27:02

thresh 发表于 2019-6-7 00:03
额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋

喬治兄 发表于 2019-6-9 00:41:32

本帖最后由 喬治兄 于 2019-6-9 00:50 编辑

thresh 发表于 2019-6-7 00:03
额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

thresh 兄:
譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值

如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   
2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 {:4_105:}

若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
計數值抽樣檢驗方案及程序, 應也有各種公式的陳列

thresh 发表于 2019-6-9 02:15:05

喬治兄 发表于 2019-6-9 00:41
thresh 兄:

1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
页: [1]
查看完整版本: Wordlists 匹配密合度(2)進階