掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 901|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 % H4 i* F! p( H" J! e- l& ], e' L
    7 q$ Y. T* T, E/ o2 o* [6 V
    小弟不才深感各位同好製作辭典之辛勞
      A/ {% _9 h# G9 U( X只因幾個抽樣概念欲與同好們分享+ V2 m6 J* n+ T$ R. N+ x) G# M
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案* G$ p- Z0 [) M( r
    假設如下:
    % R! d; t8 u) n1 ]6 l詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)4 i! v& H* S" g! z% T2 X4 u0 R2 F
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為9 Q5 }/ m5 p$ |9 S" c7 H
    a = 2000 ,2500 , 2800, 2900
    $ Y: R# {) t- h1 N
    6 r$ b3 r2 t; @7 L8 E' I: MAQL=acceptance quality level# z. r% N/ ~) m
    LTPD=lot tolerance percent defective
    5 _6 K8 s0 ^) S7 g/ \3 _! K* V. SAOQL=aver outgoing quality limit
    0 p0 \$ J3 ^: BOC=operating characteristic curve
    " k3 s4 `7 Q7 M; D# z/ g2 T# j$ CAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss0 u3 {, Z1 h3 w9 t
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的( Q3 ?  f+ C, A* `& Q( t
    % O  }  r, d  K- a  o" B: D
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 3 h* Q1 B7 F/ q$ |

    / r* u) {  }  d6 M8 C若把 AQL 當成 匹配率
    0 t& R7 \. C+ }% s4 ba = 2000 , 65.3%
    ) Q4 g/ F2 f! ~9 H4 @a = 2500 , 82.2%' d$ j# N; J9 O  }  w# X# W
    a = 2800 , 92.6%$ V8 o% x- M* ~' s( Q
    a = 2900 , 96.1%
    5 z+ U2 O! \, p' n$ d: l) V
    3 s3 f# n6 H1 X9 ]誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    8 i+ ]' z6 u4 |6 U7 H9 ^7 v  H5 [% Q* k2 Q此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據7 ^& c# q9 n$ L0 G5 N7 ~* {

    5 G- ^- N7 V1 D3 k: d2 {5 Q
    ! n- k- }2 }/ w4 }3 u2 n& P) }7 j6 u4 [6 e

    6 C6 F7 K  d7 t7 A4 {, B

    3 x9 p! a& ?$ K$ qPS." f1 l6 e/ l- ?
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    # W! F7 s) ^6 p, |( ~) G7 f純.......參考' g) p7 r; y6 A. Z
    并不需要真的去計算. J. y4 \' G3 u: ?8 L7 \
    而是了解此現象& a0 _% v( [( K% x6 B2 a
    把定量分析的性質" J* @& E+ z5 r6 a; W$ ~
    轉化作為定性之選擇字表的依據的應用7 R: ]6 R2 }7 t- J7 y8 ?9 b
      x7 n3 l  ]% u& `$ P

    3 @% n' e. p! Q1 Q6 ~* Y; U  p8 B6 G- d) f1 _

    + f7 q# V) z& r: c/ T7 P
    0 p0 @. l7 |9 a% [9 ~9 M7 D- w. ]  Z  I8 l
    & m  w4 a" }5 x! C; ?

    # m' f, \5 p2 p$ p; }- ^/ A9 U8 ?2 P
    4 J2 H" n" y. O3 x) _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 & f# b/ j: T6 {' ]" V
    oversky 发表于 2019-6-2 18:20+ x8 G* T6 N) n- a$ m# T- `, w) ?) t
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    , B* g" l. L. T. _
    1 S2 `. U" G5 f; j
    oversky 兄:
    7 ]! j& U% g: w. }# @3 y6 w3 r1 h外研社新英漢詞典匹配度大概如下:% {" F2 T% P2 {  a
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795! j  H- Z/ y, I' r
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    / x$ r. k! I2 L  m4 N! ^% E7 s1 b但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172- a7 K5 k0 o0 p! b6 y
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    7 b6 w; n% J/ u& A$ C, P* x1 x  R  `經過算後匹配度 = 63.445 %2 O2 X5 I/ }. }$ I6 q: N! I; U6 i
    由此可知選用的字表並不佳.......( T; c9 {1 [4 H4 ?+ ^( b7 g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
    2 s0 @' V% R/ D/ [$ |. I/ z
    oversky 发表于 2019-6-2 18:20$ t/ a6 }5 _/ J
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    # O1 b5 Y& }+ h& Y& w! |* X- c; T  U* ?2 P3 j- ?
    oversky 兄:8 T$ o8 m  F9 v. {% V. A
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    ; g9 I6 E$ o. h$ n# h$ }8 h
    % _/ ~, `% l$ J' r朗文當代大辭典詞典匹配度大概如下:, u' {1 x, U1 A" x! o
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20399 t, O7 T! N7 [% v) M( B" X
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190" D9 i6 z3 F" ?0 ~! Q
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995
    1 _# P! A8 t1 W但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    8 s0 ]4 w' e0 V" ~4 K8 q  z經過算後匹配度 = 97.289 %" P7 N, Y( O* q! h. M6 ~
    由此得知應該算是不錯的選項
    0 X, c& G% t8 h: Y5 r/ R* G/ C/ E) V: M

    . ]  R- [0 p; v% ?( }) a2 {7 q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    8 q1 S- m) [* f
    dailiangzhen 发表于 2019-6-2 17:29
    & p$ W1 N% C1 a; u/ \  I" C看不懂呀!!不过看上去,挺高大上的
    # X) y7 h) t. s* T$ w
    ! e+ x) |0 [$ L2 q. ^7 R' D
    dailiangzhen 兄:
    2 S: D9 ]- J* g+ A4 j沒有
    高大上

      T4 e1 ~7 S# i) ~& W) ]4 O  t) |! i' E: |/ @$ P
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    9 h" y( D- u/ K  x$ c
    oversky 发表于 2019-6-2 18:20
    9 L& n% H' A0 \2 t, C1 X* ~4 X如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    7 a) d- W9 H0 X
    & o$ ^. L7 G* X, f5 s' A; ^# a+ s
    oversky 兄:
      ]" J# o9 E* N  \/ W1 k% r: {
    误差在前后一页

    " Z7 I6 U1 L6 C3 N這個不太一樣6 {4 r% S/ [' ]; a# a, h
    您所在乎的問題是屬處理英文單字排序的問題
    2 i$ k( _, h# f' p' n2 Z7 }* O英文單字排序處理好了 vlookup 不會有錯頁的問題5 S! h" P- t( P% J+ f
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況9 x$ S2 E* j1 i& T7 m" y
    7 u+ A% o1 \! G  }% S
    4 J" H, d0 x  Q3 i
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:208 L9 [- A' y- p5 n( b
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    4 F& `' L' b+ {oversky 兄:
    ! I/ X9 ]+ ?+ L小弟過兩天再以外研社新英漢詞典 那本為例子) ~4 ^/ J% P* m: i, C! }% J/ C( {9 ^
    計算一下其匹配率解釋說明您應該就大概會了解了9 q  f4 I" y$ X' u
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    # x" L4 A* O0 Tdailiangzhen 兄:6 g! I3 ^) J, i- E" U! c
    沒有
    9 H: D$ ]. [% D4 Q  a: g

    6 u' N: H6 u2 d; u% O7 y. N大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 " x1 L( X9 A( ?3 |
    dailiangzhen 发表于 2019-6-2 19:346 n; L+ `1 H% r0 Z0 ]+ k
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    7 f) b8 S" y7 @1 E( j1 Q
    ; ~% r3 C% c* T) ~$ K- Q: y
    dailiangzhen :# T1 M1 V" s7 P/ B1 B
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    / ~9 S4 ~( O$ w' }( }8 j. _若有硬純屬 placebo effect' S5 h6 {& [# [" v# ^  ]# z( ^
    哈! 哈! 哈!哈! 哈!
    ( [, F& H$ H8 x6 L; K; h8 }: o5 y4 y( r4 r8 J/ N& ~

    : T# C* \8 E  v, g+ E1 [5 n
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    1 p5 H* Q5 g" U
    thresh 发表于 2019-6-5 21:364 J  J4 w0 `& k( t% y0 Y2 n) l9 z
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...
    5 A# d$ j6 I" w7 Z6 ^
    $ }: D/ I$ p4 g8 t
    thresh 兄:
    , s! ]. j% P3 O+ c) \+ F小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表  N2 h; x' p9 ~  l' a9 Q! y, Z
    6 M5 M  [$ I8 E$ v

    3 a& o: Q2 Y* ]. O: O. }此是用% Y1 \, R1 G( }6 W/ u
    1. 每一頁的第一個單字集合而成的單字列表 or
    # U1 `; [# k8 A2. 每一頁的最後一個單字集合而成的單字列表 or) R! w4 D- F, A6 _$ z# w3 O; X$ d
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數* w; q* ^% I' N  f
    ) v# I* x8 w6 F  A0 `
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確8 `" J2 \* @5 X

    ' C5 v) ^$ ~# r- t0 o! n) w8 f) }5 ^- Y7 `# p9 b8 d0 D( v0 ^; x

    * g, x' k% X9 ^  W; G然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    # X7 `( h7 Q. i5 e有對到的當成是 合格樣品
    ) e/ W8 Q& G2 K沒對到的當成是 有瑕疵樣品
    5 l7 `" ~0 q+ S4 c2 p/ R
    " O1 h3 T- Z1 i! Z5 F' j/ D此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加, W' `. w* Y* ?; j  M
    此可由小弟所假設的例子得知) r1 r( _" X- |/ o& Q5 D1 n' ~
      e2 v6 L% ]# H
    此是以計數值的(single plan sampling) 為基準
    1 q1 h" M  T' P; m% X
    7 K, \0 z+ _+ f: x, g1 Q6 p" Z所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已/ |* u0 ~( P' ^7 B5 o& t- d" i& F
    純.......參考
    $ ^* [+ g! r+ s6 [并不需要真的去計算
    ! A$ K, ?  D% n" F% x  j而是了解此現象
    : @  Q& z) p2 S: @- K+ _; N5 Z把定量分析的性質
    0 X" A( t( T% u& N7 A( P2 t轉化作為定性之選擇字表的依據的應用
    0 {! t, Q* q/ u/ R6 U# y& {, D3 V1 y. P9 u5 b
    6 u7 t* k) P: r% m/ f9 H
    . M$ C2 }/ s0 N( C' L8 A- j$ Q

    " ^! a# I0 I9 i9 J' q/ U3 g2 O! J: A+ t" g
    7 L- D" i* [+ d; G- K$ P6 ^
    5 n1 n5 A* E( ]& z9 e8 I3 U
    - {7 G5 C+ g2 f2 U% e$ Z
    " Z) }4 R* z% ^+ i2 c) e  m
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:301 `) y7 C- m7 F9 X8 V6 Y
    thresh 兄:) @" ]5 W2 ?, F5 T
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    % k& t& {* K" f: k8 ]" Y  r  |额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    / W# K' X  o. {3 g  q7 N+ Q$ f; ~7 _, A6 R2 C; Y
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?% s! A, z& T; b2 w7 b4 ]2 k

    1 k' I) ?, k& w0 W- A如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    % o+ x, G/ Y4 p. X  u6 T/ O额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    5 E$ h+ Z% n; X  X: A3 M* J老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 ) A8 D+ C9 C6 f
    thresh 发表于 2019-6-7 00:03
    ' [+ h( u; X& r" E额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    6 p" D2 i" {# @) T# p) c3 o
    6 `' O* A: ?: P
    thresh 兄:) a9 Z3 h* R! A+ v* R/ v0 [% U
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    ; q+ S4 E1 f5 N  T  i- a9 k5 {1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值' Q) F; a4 R& U$ {
      
    " z+ r5 r+ b) B8 j6 f- l$ v8 ?2 Y+ X
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    6 G  L/ u3 }  ?1 Y2 k; L3 \# C2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 - z  L% v. b& y; c! i' P' O
    ( J# O! ]1 f6 u9 t$ e8 ~6 M" j$ M
    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的/ ~# {6 X" J" o" C- b
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    , U9 P% }; Z+ W7 c
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41: G# Q8 ]6 l! j* }5 P3 M
    thresh 兄:5 \( N, W  L$ K, Q
    + k( N3 s2 s8 v0 R" L7 p- e) y' W
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    8 u- B) f. U1 f+ ?/ h
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 22:35 , Processed in 0.074666 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表