掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 900|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    1 K1 m7 R, I2 a& `" Q
    ) a: j6 `& J- ^- Q* I小弟不才深感各位同好製作辭典之辛勞
    9 x% Q9 E- ?3 S% Z+ C只因幾個抽樣概念欲與同好們分享
    ( R; @" M+ b6 n若用抽樣的 Defect Rate 來看匹配密合度也能有所答案, K  E) {* r/ v
    假設如下:
    - ^! P2 ]: T  r. P' o% E詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
    9 A, U& O4 t& n' X5 ~而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為% Y! P6 V* [3 S( t9 H
    a = 2000 ,2500 , 2800, 2900" L$ @: X4 B% O' p, T. i8 ^

    & [3 p! L1 L& G9 G+ nAQL=acceptance quality level
    . a5 ]6 Z& m; G7 Z  X+ oLTPD=lot tolerance percent defective$ a# \3 K6 J1 a% L! Z' H8 S5 B- ]8 a
    AOQL=aver outgoing quality limit
    : G+ v. x# P: H' I6 ]0 POC=operating characteristic curve! Z: ]6 u5 t) s$ l2 E6 {' K
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss  t- Y$ O1 a% B! d9 k1 C6 R
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的
    ) W! Z. o# X! _( y7 Q
    ! t) ~* o. r4 N倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    : c5 y* n. V( \6 ?! n: d

    ; P  T& k, ~5 E: t" `$ w, l若把 AQL 當成 匹配率
    4 F  O+ f& w: L: t- B! fa = 2000 , 65.3%
    7 T. t* \4 i/ a' @a = 2500 , 82.2%
      O9 S0 [& j3 S% p9 ya = 2800 , 92.6%
    ; U) W$ v3 X3 T; \% q2 Ma = 2900 , 96.1%
    ) ?0 ]5 @- ^4 L& a* p% g
    8 z" W, ~) \, p& P誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    + v8 |, J2 k7 s* V' E此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    0 y2 ^0 J1 N7 M7 E
    1 l" i6 j  P+ w, u% c
    % G" E, K# r3 |- h" \' V2 ~9 d9 H8 D0 u% w/ O4 b) j6 L  |7 l
    , _, R, b1 h4 {- @7 Q8 _9 T
    . ]% F! d" [  F* u) A2 I
    PS.
    4 S3 V/ }) G. y9 I' B所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    " [' c, |8 B  W% J# T& ]純.......參考% ]! z& p* h7 D) Z6 S, w) p- ^
    并不需要真的去計算
      h9 F# y5 o/ `  A而是了解此現象! m' ]( G' W& Q' d4 D8 @
    把定量分析的性質
    * @/ j8 s0 f, J; S轉化作為定性之選擇字表的依據的應用0 o7 R, P5 m$ f' m  u3 F6 @7 v

    # O+ U" w) V6 K2 u* }4 K4 y  l% q
    - n& Q- U$ f, J0 J
    0 G9 J6 X" I# O/ M' ^+ p& o* K* a8 T0 h; {5 v

    2 }) N! O; S# U1 `( f$ e* [$ e1 b9 n7 _
      l9 h: U% K  k* S4 U' F. \, ^
    4 j, Q) Y' G- H; o4 i' L
      S* a* ?% C3 b3 j

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 ) o- L8 D# ]6 i9 k
    oversky 发表于 2019-6-2 18:20
    1 t* [2 H$ B- c+ i9 ]! M如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    * Z" n" W! E  a9 k& {* S* l/ X% H' v: D' E  t4 b# I) o
    oversky 兄:
    5 k5 s2 P0 M* x5 [9 `$ a$ g外研社新英漢詞典匹配度大概如下:* ^- f& j0 V+ X- `: A: p8 K
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    . r2 s  r+ H% }. s7 e$ ?
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374( {8 I. Q; K; l- D5 d
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 11725 `) z! l% w6 Q$ ^; g. Z& \' `
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    * A( N. d& e( q) _經過算後匹配度 = 63.445 %8 B( x+ r. R3 ~6 }) ~( a  e: y
    由此可知選用的字表並不佳.......5 O4 V3 P  Y3 l$ v% g) `. ?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
    9 S9 o) h) g( L4 N  p1 y6 |9 \
    oversky 发表于 2019-6-2 18:20
    : m" C, @  B+ X, ]如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    ) B* Q$ m! D& m+ M" G- d
    , T0 c4 X1 g1 J. [3 s: zoversky 兄:
    ! H1 b# O2 T. h3 a: X- f' O1 i另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 ' e: u/ ^3 O1 i# y# |
    ; }0 Z1 P+ t2 [. J, J5 `
    朗文當代大辭典詞典匹配度大概如下:
    $ S: e$ A, y, R2 }9 r/ y- o辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20396 H& a  t9 s/ ]' N( [- Y
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190. j7 L7 [+ |* t
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    ( ^# B1 D# t; R7 ^但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    ( f' P* s  X4 h經過算後匹配度 = 97.289 %8 R& J5 E: s& Q7 f
    由此得知應該算是不錯的選項  g2 Q! n" ?- I7 V
    ' g: c! D* ]  Y9 J

    " u+ A% A5 U8 A  r- u

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑 7 ], s, M; {3 m% R4 D  y8 ]
    dailiangzhen 发表于 2019-6-2 17:29/ U2 T# Q- O8 N2 Y
    看不懂呀!!不过看上去,挺高大上的

    6 V% y( E# V+ ?, n6 s0 V
    . I. B3 O* K7 o( C4 E7 M8 Rdailiangzhen 兄:4 p! C- k9 m' [; h$ y
    沒有
    高大上
    $ I  `# K$ X6 p. c9 A& q1 {) a

    7 ?+ {$ n" M! O. l只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    5 i9 s5 l/ \0 R6 T4 h
    oversky 发表于 2019-6-2 18:20- Y! |2 S& u+ ^; k5 Z
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    1 d( k! p! x* q: w- k
    ) X8 V7 w4 \" K+ Xoversky 兄:% G- Z' T) L3 `8 k4 x( t
    误差在前后一页

    8 d5 ~( L' \4 @2 m( ]% R這個不太一樣
    7 \# F2 C! M* k您所在乎的問題是屬處理英文單字排序的問題
    9 R+ m5 G, F- X0 z- ?5 |7 ?- c英文單字排序處理好了 vlookup 不會有錯頁的問題
    . |4 ?+ E) I5 V2 M% b5 A8 t小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    . i3 i3 e8 F! e6 O4 ^, t5 P& f
    ) X) q8 f/ t6 B5 [7 r# h' U# _( l( M" ^
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:203 ^/ T! y3 r' h3 N. C
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    : J% l2 V: F7 y* D
    oversky 兄:
    5 d5 X  C" a2 m小弟過兩天再以外研社新英漢詞典 那本為例子
    2 p6 L- B( [9 H計算一下其匹配率解釋說明您應該就大概會了解了
    6 ?+ s0 w  t0 Y6 J1 t! R% Q$ k
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    1 ?, E/ n+ x& U% n6 L9 Xdailiangzhen 兄:3 `+ o8 W+ @8 E
    沒有 ' x* |1 }0 K9 E: m. d
    7 ~3 G! C  m3 H2 G) ?, K3 B
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    # o2 K( S! I$ f) a! |4 j  Q: X6 K+ T
    dailiangzhen 发表于 2019-6-2 19:34$ h, E) B$ M& [9 y/ ]* _7 ]
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    1 O- {0 O' p" G0 `* W+ k5 R) t& C% ~* t) w
    dailiangzhen :, y1 |- w7 T  |( [* }" N) u' h7 u3 V
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子8 ^. \' y6 W- ^& {" U$ {
    若有硬純屬 placebo effect
    1 v( d( X6 \0 ]5 x$ G3 W% N哈! 哈! 哈!哈! 哈!- I; j" m; m! t  o
    $ U# q- {. g' h( b0 e; t
    # O( o2 E, E& n  g; R
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    $ j# j3 R2 h7 w) n. q# V
    thresh 发表于 2019-6-5 21:36+ w$ I* p! x9 Q9 C
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...
    & h# i  H5 v7 ~) t" h  T0 ]

    ) N( q5 i6 l  y- ~" P0 ~8 {thresh 兄:
    3 d( z1 k- {3 `4 p小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表/ d8 f, N7 b2 i+ k0 b0 x% W' B- a
    9 K& u/ W, u! Q9 M9 D2 F: G% ^

    4 W( Y! C& P. i, s) h此是用5 }) m4 U, A& z9 Y9 B
    1. 每一頁的第一個單字集合而成的單字列表 or7 U; b' Q& @( [3 ]/ y' k: D1 x6 S& E
    2. 每一頁的最後一個單字集合而成的單字列表 or1 W: ~$ @: F+ P$ b8 U- e
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數" U8 K$ S4 W: f: s
    9 H9 b$ R! g( C# d5 w1 h2 O; D
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    : ?! D) @. s8 j- C
    8 j( w- B# R  d: G. J) C; G
    : ^3 R, F# _: C* I& Z  Z
    ' _0 d" W1 X) a7 P- `. i- m: f然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量4 U/ b8 p0 K. }" b) S( X0 `, g
    有對到的當成是 合格樣品/ ]8 `3 c  N* j9 u! Y1 T
    沒對到的當成是 有瑕疵樣品  Q2 U1 N& t) T  R  ^2 @
    1 k- v+ S4 A& w$ h% C9 u8 Z
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加; k% b  R: @0 w" g6 T% ]$ o8 r
    此可由小弟所假設的例子得知
    * {) R* ?9 W: z1 q5 Q! @6 F; w( W) h9 ^+ q7 Q. K
    此是以計數值的(single plan sampling) 為基準  ]) @) `. M% o7 x0 e2 b
    ) T& s7 v3 Z6 F. \
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已! L0 p. i! r0 {) S9 W4 B/ @
    純.......參考" c" y$ G7 [' o3 {) ]
    并不需要真的去計算
    : _% D* \: T9 W/ f' R5 I而是了解此現象
    0 c6 ]8 A( ?* s6 ^9 W2 J( j把定量分析的性質
    8 J( V" ]' X, ^& b6 V3 S3 o4 h轉化作為定性之選擇字表的依據的應用
    # F3 p3 k! F. g3 q6 ~& a8 M* d1 V) ^( f) }5 {, t) o

    " x2 `5 k3 m8 V/ u) `/ j, l7 b; r9 W  F7 j" E0 X* h/ k
    & s) a3 s/ k9 E8 O5 P1 V0 k! n

    ! V# \; o8 j5 a! e- @! C9 z  F4 q. @* z# p% `5 B

    + |/ y2 U! J. {# m" i6 c: H% x% t; y( g
    / |: L& P# ?. A; }
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30  f( I. L( a. ^# ?
    thresh 兄:
    % D3 ?/ b2 i' X小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    ( N% O9 b3 l) @) w! M9 R
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?) t& `/ ?1 T! y/ W0 G# `5 F7 S

      a! o* T7 w% _  w0 Z另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    . V6 D6 P: c. ^& _5 S; f
    $ ]/ g% r0 u$ q! d( u5 O如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    8 a* @- Y3 J  q) D* Q1 _9 \3 Z额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    6 G2 r, u, a. q8 l9 C( @( J老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    ( c3 k  c+ @1 u& h$ A* k
    thresh 发表于 2019-6-7 00:03) b2 e, C: S8 y1 @5 t& {
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    7 A+ s0 C  v2 E& P) L
    2 l. Z3 r/ R) ]; B2 ^7 m& z
    thresh 兄:3 J! t! c! |8 l
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    8 i* n/ Y& i- }, X/ `9 {( J+ Q1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值/ y$ j1 z2 O* H. s8 m. x
      % `% b! D7 D6 e: E! l, z* J, l& D
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    4 v& h" f& U6 w1 s3 h2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 / }' O" r( ?: ^' A, j( d- Y4 C- Y0 e! i

    / _1 F  w  v' Z4 n0 Q若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    : E) D' k+ ?% ]$ Z" l' r計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    ; x: B0 j% N' s+ p/ j
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    3 i7 F' v) {( e& Z: dthresh 兄:7 \% N. e8 K6 o7 Y8 G9 N0 ]2 l- f" s( f

    * }) _5 Z# j- c1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    ' ]  I9 }' u* `( {2 c- b
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 20:36 , Processed in 0.062133 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表