掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1126|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    9 |( h6 f& x; x( \9 T0 ^7 `! H# \) T7 h
    小弟不才深感各位同好製作辭典之辛勞, r, N' j0 A! m. R5 S
    只因幾個抽樣概念欲與同好們分享4 u/ S0 v7 q+ m( Q: i3 L
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案
    3 E' K5 @5 z. [6 G假設如下:
    6 L9 `9 q/ v  M0 d, U' H/ o1 M1 x詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)/ \$ L$ o) F0 P; M. ~
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
    * b( K" z* K5 B4 Sa = 2000 ,2500 , 2800, 2900' ?) \# I  {6 p! L0 I* ^' P9 a

    1 h6 f+ W/ Q8 S  A3 Q1 A4 q5 }; a0 K7 _AQL=acceptance quality level
    1 ]& ?: u+ D4 W/ O) X; ~- {LTPD=lot tolerance percent defective
    3 q. q: A9 w) @3 NAOQL=aver outgoing quality limit* l) C; u1 Y& |  \( |' w0 ^
    OC=operating characteristic curve
    + ?2 E+ R) K/ |9 BAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    4 Y' W( g! x0 W0 S! V+ |$ {( n2 K8 i也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的) ?5 @# z$ p6 Z, f' k5 s/ n. q$ o
    0 q: T2 n5 Y: `' n( V7 P8 q" s" _
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    7 e) K- v: `+ c

    1 Q- R6 I# R) r, \- Y若把 AQL 當成 匹配率
    4 E- P" S# Y* p/ R: _a = 2000 , 65.3%
    8 s1 ]; k8 Y1 b4 j6 v& sa = 2500 , 82.2%
    ( Q+ p9 E9 i/ a1 w3 n3 ya = 2800 , 92.6%
    4 c/ a% h  T5 `( b% h8 R! pa = 2900 , 96.1%
    7 N. D% f& v) Y) V
    6 x" }+ w8 g3 v7 Y1 E/ p/ d誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    $ ]% F. ]2 E4 x9 }! b此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據/ E/ \0 T7 Q; }6 s6 d3 t1 B
    7 m$ C! }3 B8 l/ N

    / I8 L) \9 R3 l: p0 q! \6 H
    ' V* A' W( i5 ]  z" }$ h. o
    4 _$ _4 ?5 ]6 G8 x" I
    & R& B5 E. @6 m% Q
    PS.+ s6 h, t& E2 m+ N9 T% T0 M
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已2 c, n6 g8 V- _: L
    純.......參考
    + z8 N) O' C) L! M0 I并不需要真的去計算
    & d+ J) H6 L2 V而是了解此現象
    ' Q$ Q( m9 E8 u: o6 C$ q$ @+ }0 a把定量分析的性質! ?2 Y3 _& L! `6 P& s
    轉化作為定性之選擇字表的依據的應用2 K% ^! F: d. d9 i  M  ?1 [
    9 c' L( I( y6 B+ y
    ! n9 t6 E0 B6 o, z
    & y4 b9 o; e- [* i6 J8 G

      p% x( ~; K5 _0 u# A+ }4 g9 A7 p4 T/ g& n8 @3 a! @
    ) N6 |4 _; e6 c( w5 t

    7 V: p- H' @" a1 C
    ' M: q! H- T- {  b4 T
    " X* o% w# S, `$ s

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 5 x# [7 O! e1 n! Q6 @
    oversky 发表于 2019-6-2 18:203 ?. j* M% q' O* N8 e( f
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    " e. {8 h. K3 k; V. }+ G. G
    % ?2 _0 b' \& k& Z; Noversky 兄:! s$ a. p8 A) @! B/ M- I3 K  f
    外研社新英漢詞典匹配度大概如下:
    3 _# P6 b; ^) E+ g共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    ! ]. e) ]& S' q9 Z
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374+ ?8 D* p2 j# C. F% `
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
    - j1 J0 F0 ]: M( D但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    : _: \4 ]( |+ {9 d; o: P/ t2 A經過算後匹配度 = 63.445 %
    ( G& F6 v% q; M+ T由此可知選用的字表並不佳.......5 D! V3 }0 B& D2 c0 s) O$ G/ ~3 W

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 $ @1 x# X. u: C0 C# |1 I
    oversky 发表于 2019-6-2 18:20; V7 G  w& S: a" I  A: i& h0 L; L
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    # S1 A* H8 D5 H$ C+ I4 @4 p) \; v6 O
    oversky 兄:
    7 t, L" c" {3 m% \1 I0 x另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 6 `9 }( g" |7 Y( E" h( M

    3 e$ T/ a6 t" S" Y1 S5 T$ t; A: S朗文當代大辭典詞典匹配度大概如下:* `0 G8 ?) k7 }( {
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20399 `- d( C. a3 {9 L5 P$ V8 {  x* N
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
    6 U8 s! q5 B8 z. U- a1 F# J# ?但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    , {3 S- q: V$ s& Y$ H/ S: X5 p, O但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    8 A* T% n/ `. y7 l/ h) N經過算後匹配度 = 97.289 %
    ' v% `/ I8 f  a1 Q( T由此得知應該算是不錯的選項; M+ F6 M4 _- R, p# n3 ?
    ) @5 }. r8 |0 C' T

    9 ]) {4 B  n0 m4 o# ?; r7 _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑 & i: S/ K% ^; k
    dailiangzhen 发表于 2019-6-2 17:29
    / K0 D( P6 ?7 q) z7 J4 Z看不懂呀!!不过看上去,挺高大上的
    3 j! F7 k) y- i! |2 {+ K& j

    8 y% `8 b, {1 k" |5 E) F. p, v- Q' w2 Vdailiangzhen 兄:
    ! F/ W8 J. C" H沒有
    高大上
    " o. J7 V0 W5 k1 P* B2 P. w

    + e& e% t3 c: }/ e) x" ?  \! N只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    ( v' p4 p% k. x
    oversky 发表于 2019-6-2 18:204 G5 c( r# R; A" B2 B8 ?
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    + P7 E1 o8 i( K% a5 f4 ?6 R. \( @0 H/ c7 M
    oversky 兄:5 d- a( M! t0 b6 `0 q4 T0 e
    误差在前后一页

    ; j- U  T0 s: y# J, b這個不太一樣
    + @# ?8 U  v  b# c/ {+ C( c您所在乎的問題是屬處理英文單字排序的問題# |# E3 W% z1 a
    英文單字排序處理好了 vlookup 不會有錯頁的問題& q" H8 C) x9 B% |7 w$ J4 L4 x
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    2 z0 m% F5 J6 Q8 a+ Q4 c+ b
    / C& Y$ g8 ]1 \! f8 G. u6 E
    7 P  x% T) ^4 c' F0 P
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20+ p  k! s& c) z  C$ ^* T
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    1 X. t# Q8 N8 e+ l: eoversky 兄:
    * R. o0 J8 L8 z% h小弟過兩天再以外研社新英漢詞典 那本為例子
    ( p5 A" ]1 F/ s計算一下其匹配率解釋說明您應該就大概會了解了
    ) r7 v! H5 B+ E# q0 M% S* j
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49: Q! L5 F+ {0 b6 k
    dailiangzhen 兄:5 z; `* L* z! v! k3 @
    沒有 1 {7 p, ^) I# [. }' {

    & Z, t# o; Q" [! O大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    3 C+ ?6 c# R  ]/ D# {: c
    dailiangzhen 发表于 2019-6-2 19:34
    ! A. C8 Y7 M5 z, L大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    ; o" l: K9 W* w+ V7 G' y% b
    + i, p2 f4 d; b9 J4 E8 X6 f" Jdailiangzhen :* |% a7 k" I$ X: j% @; T
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    7 U9 Q% {4 z' P- F% s若有硬純屬 placebo effect% o; C  x! q) d; ~4 y- I
    哈! 哈! 哈!哈! 哈!. G4 A& l7 _; o, u8 h

    : d- q9 y8 |1 Y$ u: K
    : ~' w% [8 i3 V( `, ]: c; _
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 ! V& k& }) a$ \
    thresh 发表于 2019-6-5 21:36
    " K. w0 P2 D3 W( M' O7 e- f这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    4 a" b- D6 \# d* {6 D- u  f7 P
    $ b+ q4 H+ j7 H' u1 Zthresh 兄:! x: L4 m8 A% u: @" k+ i
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表" d, |" m# l/ v6 f7 Z

    & I) g3 }$ J, J1 I0 F/ b1 C, h$ J
    9 n+ m) Y8 H+ ^" r+ \% r此是用
    % s  K5 e: F, J# X" n1. 每一頁的第一個單字集合而成的單字列表 or
    " u! N. `3 H0 D2. 每一頁的最後一個單字集合而成的單字列表 or
    ! T& V/ z8 c6 P" a& m3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數
    % \3 L# ?- a2 V
    - R4 K7 v4 \3 Y3 c1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    1 D$ G  r5 o3 J' U0 {: t
    5 l( |1 ?/ }+ M; c' Y/ O( p+ h: M" f$ e7 U8 i: X% w! x

    1 g3 ?: J5 ]1 O" i/ K/ W: Q3 t然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    . F, M6 Q* Q9 x* X有對到的當成是 合格樣品4 j% n/ `5 W+ Y# p6 w: l0 L
    沒對到的當成是 有瑕疵樣品  W3 }. G8 n- i  S( c# Y0 d, |

    3 p" O* A1 X7 B. M1 c" ~此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加! c) G1 e% p) z* i, [5 \! k
    此可由小弟所假設的例子得知9 |% E" w& q6 X3 q! ?

    * S, ]. P: p. W/ l- t- `% \4 q( p此是以計數值的(single plan sampling) 為基準
    * r* Q! s; t# j. a. }) n" ~. N
    - m1 J7 ?: c6 i/ ?4 x0 i# X所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已2 m0 k* M3 V" \1 C
    純.......參考
    ! N6 }5 {. |  S并不需要真的去計算: R! a+ Q+ w% d6 b: r1 y% t# }
    而是了解此現象
    - x* y& X" o0 s0 s* E把定量分析的性質' S  V% f3 r! B
    轉化作為定性之選擇字表的依據的應用
    # e" o* ^" Q9 }8 w# L
    + S, F* `, Z* r5 S9 [: D# d7 I. K1 R) Z4 o
    # D9 G4 ^, a( t- c7 I  G
    1 i( I8 y7 U% t. v+ t
    * z1 H' `" n# @$ w, w6 u

    3 ~# d+ n+ o% b$ C9 ~
    % B4 _: c6 y- E
    - j% ^. U% k, T" f1 J7 `0 J/ S* [  f! ]( ~. y7 r7 I
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    + g  N1 d) G: J8 x+ j& |* e  |/ t, g) |thresh 兄:
    - ?& p9 t$ I' a7 U0 o小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    ! M; D8 y9 V/ r# k额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?, Y0 @. P6 R' q: e: H$ C
      a3 O$ P7 y9 T; |. S# w
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    5 [3 E: y0 q" B4 |! r1 a: o9 W4 a8 i( }3 E
    如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03- n# _0 ?" S' P  q  _) N
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    6 U% F. B' R/ b$ K; T: N
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 & t: P7 T$ o, C8 M
    thresh 发表于 2019-6-7 00:03' q; d* C. p( y9 `4 N. h
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    + O. b; q1 H4 q( ?  q) r  ^6 A: J7 u: Q. y6 \5 e1 a
    thresh 兄:
    + g- l' s% Q1 @7 {
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
      h! N7 a% Z1 m- [
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    ! ?) f6 i+ p. u3 q0 H  r7 e+ l  
    # F$ t. Z5 j+ w" b
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   
    % q7 `: W! v/ i! ]8 p- h
    2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配
    * c  O" U; |/ D" }$ t! ~! Q5 G5 G6 V
    # p- I& e3 J/ o8 E8 b/ K3 ~若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    ; b2 W3 i5 H+ g計數值抽樣檢驗方案及程序, 應也有各種公式的陳列! ~- [- S9 E7 b+ |8 J: L4 i
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    , S8 l7 F7 I5 P4 i: v; D6 v# kthresh 兄:
    2 s* g- ~5 `: Y0 e, E7 i6 K- {, M! Y8 C
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

    . f! [$ v$ z. J; V好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-5 13:31 , Processed in 0.026719 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表