掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 896|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    ) m7 T0 {8 _- I
    . |4 r3 E1 M" t! N* {2 [8 M小弟不才深感各位同好製作辭典之辛勞8 l" u8 s  Z$ f: W) z$ _
    只因幾個抽樣概念欲與同好們分享
    ! C# D7 m8 q# ~  r- h( {& l若用抽樣的 Defect Rate 來看匹配密合度也能有所答案  R7 a4 B* W4 c; \4 H& F9 l
    假設如下:. {) H- P. Q# o) _4 ?" _
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N), h6 t: i5 n# C1 |# @$ O7 [- C
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為! i; E; i; b: g+ P, Q1 w
    a = 2000 ,2500 , 2800, 29002 h# p# K, A9 w  G' X% `  B

    4 |' L0 T1 u/ r) g/ c9 M% h+ K' CAQL=acceptance quality level
    / L' M# A# X6 y) @6 I. \) aLTPD=lot tolerance percent defective) g( Y8 S$ n5 ^! u9 |) D1 l
    AOQL=aver outgoing quality limit
    ; a5 B4 q7 M( S& x: N8 rOC=operating characteristic curve
    4 p: {2 s3 m2 d/ i) M8 q" A7 G. EAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss+ ^, f0 \! w" m, H7 u0 T% j. Q
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的7 P/ m6 T+ h( }  T7 K0 T: O

    , o8 Y. L% G' S% X倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    # J! c5 @7 j4 }1 N

    / A, }: x. v' @6 e若把 AQL 當成 匹配率
    5 ~. I# ]; e/ q' ga = 2000 , 65.3%& t( R3 V$ f9 t( n- ]( T
    a = 2500 , 82.2%! [# t4 ]# o& I/ B1 S. i, N9 W
    a = 2800 , 92.6%2 Q+ c3 c1 \4 I4 \
    a = 2900 , 96.1%. f: v1 T; ?& {2 d! h

    ( o3 R. c+ ^& c0 D% [誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    ! D* R$ ~) k9 O) T( n$ d5 q此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據; q& n, k# [* x( a( m- j

    % a3 K9 N. T0 F/ ]0 U6 `7 {) K" l1 p# w# m. n4 X

    # W* [4 L5 _6 d: C- X
    3 L  A0 X( E* g. L3 z

    7 h/ t- F& M* N6 l) mPS.
    - l! t* G( L/ W7 l/ D所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已: S* O6 ^: o1 f9 |9 z
    純.......參考
    : ?- Q; @( N4 c+ k9 Y并不需要真的去計算8 h# c9 G8 G1 u7 o5 Q& Z
    而是了解此現象* W5 t& ?+ X5 s/ A0 P
    把定量分析的性質* t4 j, h4 k. J6 }2 w: M' o3 H4 X. v
    轉化作為定性之選擇字表的依據的應用
    9 a0 g1 T5 [7 g$ C- P  J2 f7 l9 j: K' o# D3 e

    / M6 B3 e7 B' a0 w0 a
    ; I: [+ c3 f4 n
      D/ O9 K6 P" T- D
    ; K6 E& F- k$ [" y6 K
    8 s8 D: Y0 Y, S, }6 u6 O/ d7 z$ @- b5 p: z. k

    ' T. k( h# L+ O7 w
    ; ]6 Z3 u# i# E! p8 x( R* B

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 ; F3 S6 T0 }- q7 M
    oversky 发表于 2019-6-2 18:20
    4 `9 V( m4 I4 b1 A如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    - d  l% @  @/ {- A& E* a: }# t/ y' P. ?
    oversky 兄:
    2 ^$ u2 a1 p. o外研社新英漢詞典匹配度大概如下:
    2 |* \7 I% y) m9 u4 v共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795- N+ V, a9 _6 I
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    * v+ `5 z) I8 K' Y3 i) M但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
    / `+ G8 v$ F% L但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    $ J* ?, j- j2 X: x" m3 C- R5 D經過算後匹配度 = 63.445 %% q- U5 p  d2 v4 E, ]4 @
    由此可知選用的字表並不佳.......
    1 Q6 v! W: h6 D  ~- }% h5 J- G

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
    2 R) g% ?) v9 W! o7 H
    oversky 发表于 2019-6-2 18:20
    ' h1 \- n# R9 W- L如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    / F/ U! f+ M- C6 i( f7 _, C9 _
    % v7 J; J) R4 u8 `
    oversky 兄:; I" F3 s$ c8 o
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    ; k+ s, V5 B( m
    " l5 ^; g; o" N- b7 Q9 a. k朗文當代大辭典詞典匹配度大概如下:' Z2 E" B2 I. r* R0 j: ?3 ?" v' T
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039- e% x; W" c' P8 K) f% M0 F
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 621903 t! A. P6 u3 y1 ~, C: a! a/ q
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 19956 U( U, t! Y/ U
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    7 o0 N, e1 O! A/ |0 C5 A) o經過算後匹配度 = 97.289 %6 \' X% e- n) W' j& ]
    由此得知應該算是不錯的選項
    % r: |- H6 P6 L) N9 s8 l) X) s9 Z+ p) j; |/ u# Q( A: Y

    5 l) k+ }1 a/ J8 j7 K3 c8 p" A

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑 - k) S: g4 U" A8 ^& K5 I% d
    dailiangzhen 发表于 2019-6-2 17:29
    " G) e9 T  S/ S2 z看不懂呀!!不过看上去,挺高大上的

    7 q; e* E) b2 s- B. N' K
    : T6 y4 b! |) c3 e2 ldailiangzhen 兄:
    / ?" U* X5 b! ]" Z沒有
    高大上

    5 b" T) J" e1 G/ t4 k% u( t9 F( i, m) J- L% \; e* T
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑 " y$ A7 V) ^. `& i" ^- k
    oversky 发表于 2019-6-2 18:202 y. j' }, {+ g0 l. \
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    6 Y$ [% w  Y* B& j" `

    + _* J4 a( T" ^5 j1 x2 e* x' `6 Goversky 兄:
    7 B1 L5 b; d/ I; I+ m7 s. D, R
    误差在前后一页

      @- r3 i; M% X' B. q這個不太一樣+ b1 h0 e9 O1 q; @# W2 e
    您所在乎的問題是屬處理英文單字排序的問題% t3 {1 n! ?3 E7 C9 F# V
    英文單字排序處理好了 vlookup 不會有錯頁的問題
    3 N  W! ~! d6 ^! `1 A2 E小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況, W% `) M3 @. S8 D
    " N! x; {. s- c" c8 i
    + F5 e# I- v. Y! ?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    2 l- X" w: X/ M# o( v+ Q如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    " {- j/ ^: u0 O: s: Voversky 兄:$ x2 j$ u7 G+ |7 p' K6 h+ w
    小弟過兩天再以外研社新英漢詞典 那本為例子
    * b& f: a6 t2 ~- i2 ^- ?  q計算一下其匹配率解釋說明您應該就大概會了解了
    : e6 r  P# x: ~: R; Y3 K
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    , o( \. r2 ]% w' B( N0 k6 zdailiangzhen 兄:/ }3 j# Z3 L1 `2 v+ C/ _  b
    沒有
    6 p/ D  s4 \: t. k
    2 h8 e% i! `; E0 ?7 v
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 3 M! Z6 ]) a" v9 K& k" x
    dailiangzhen 发表于 2019-6-2 19:343 E0 f$ w& M/ G/ R8 i: N0 E5 A
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    & E! K4 o& E, B5 `- c
    2 o: h- i% v- t% P7 v* o7 Z+ k
    dailiangzhen :) m8 ?- \8 }  y8 d! ?/ x. [" a8 D" r
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    0 j6 h* y) v' C+ i3 I3 \若有硬純屬 placebo effect/ W% O: B* d9 x. j
    哈! 哈! 哈!哈! 哈!1 U# x( H* k9 ^! _
    % [- m6 f% G' T' G

    ' G% H' w6 ?) c# C5 u' @* q
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 % Y% W! F" M' O7 }
    thresh 发表于 2019-6-5 21:36; i3 v. l1 A$ G2 _+ G+ v5 Z4 O
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    + f& u% Q' u& ?
    ! T- d3 M& M9 `9 @thresh 兄:' h8 _5 b" q( u+ S
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    % V' U* i& d2 g# [8 G
    # w' h* M" x# X) B3 v: @; G( ]% _9 X& W6 R2 X  \$ p" s$ F
    此是用
    3 ~; b; ]* e/ b* m1. 每一頁的第一個單字集合而成的單字列表 or
      }& y9 N5 l- Z, E2. 每一頁的最後一個單字集合而成的單字列表 or
    6 F1 _& @+ w' v4 Q1 x9 {' r; e3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數
    ! e; v9 E4 k! X1 z1 Q+ F! O+ o
    0 B* [+ G+ i9 \# N/ `1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確. |9 `5 }  o( q

    7 X/ Y. u) c7 H2 @; @# S0 d7 ]# o+ y/ O

    / [/ r  \# g/ H/ b6 Q然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量. E1 n$ t$ E# ^+ T5 }- `' H
    有對到的當成是 合格樣品
    & F7 ^4 l5 O7 b% l- F/ O沒對到的當成是 有瑕疵樣品6 m4 l& \" W& m. }

      t  _" e0 L: S9 v; U, t; s此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    2 Z! l0 r- }% K9 F- P8 K1 j" C此可由小弟所假設的例子得知
    / C% M3 K' X, l% M
    1 k' d+ q7 n' T$ y+ o此是以計數值的(single plan sampling) 為基準
    0 r( {1 `- k- N- a& i- ~$ P
    . }; `- r1 r2 m. a: z, N' J" O所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    8 Q) X0 ^) H+ W6 H# U( p, Q純.......參考
      w% x4 t8 t0 Y% I4 q+ X9 [* P并不需要真的去計算3 U" j& a, L/ L3 |
    而是了解此現象' d' H$ m' b  ~
    把定量分析的性質" s8 p. @( h, {' P8 j& V; J
    轉化作為定性之選擇字表的依據的應用- h( ^  U* o1 q0 U& `0 y

    3 }+ y9 ]2 y- Q# q
    4 F, m3 J7 k. s  L
    9 @, ]. w+ s: H0 ~* {: U* w2 d3 W/ c6 b4 d
    + J  ]  ^4 P0 T  v
    * c; b* ?4 B, P
    9 }% \" g& `4 f1 e. I

    ) {- a0 c0 V' t! S/ I  L: Y! P$ \3 @
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    ' e* e2 e* x: Rthresh 兄:
    6 @& M. `6 a" f5 |. d% M小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    $ b! Z4 e  h! J# z0 n" \
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    ) C* ^- s/ P: n! b/ y/ ^4 B% J* K
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?) n% a+ l; J7 Z" O* i

    9 Z7 _/ }' [, I1 _' z如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    5 G) z* l8 q8 }5 {$ M1 Y( Q额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    , X% {1 B7 u" T+ _4 i老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 5 d: w( Y7 A( j/ x* z
    thresh 发表于 2019-6-7 00:032 E, w+ a2 h  c8 N0 B( ^% B' e. w5 o: ~
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    3 j  w& l8 y: `- w$ H
    . d2 l+ L% S8 s, l
    thresh 兄:- d. F! R; B: F1 R$ W
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    ; S# B+ ?6 Q) T* d
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值( B$ O( o: Q9 f
      ' u, G$ M+ ?8 [( S. w  k9 z
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    ) O& l$ R5 O7 ~; v2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 ) m, T: B/ U: r0 l: T) j

    $ f( V4 Z9 u  N2 f若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的& m! i9 k" P. n
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列1 w4 ^; X9 t/ j! z2 E; j
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    % N6 @# }& [9 b0 _9 Hthresh 兄:
    ) v$ H9 d1 p5 ]% [% Y7 Y# ]3 `  W5 j6 h/ F! {) t2 T; m/ A9 K
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    : a4 E6 ^- E' b
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 17:23 , Processed in 0.049184 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表