掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 898|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    ( A/ L& g. ]% @% x& J, _/ x. G9 v, ~3 E
    小弟不才深感各位同好製作辭典之辛勞
    0 W2 o% A! |" x% z- b; D1 E4 c- N只因幾個抽樣概念欲與同好們分享; r; v/ a# j: s# S7 ?$ M
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案# [) z3 n$ |# l2 Q, O
    假設如下:" [; ?  A5 L( }
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)8 j+ o$ u5 N! b' a
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為2 ^+ r, I" l+ C% ]
    a = 2000 ,2500 , 2800, 2900# m4 ^6 i: R6 l- N0 I
    # F' b& o% w, e& M; D" i
    AQL=acceptance quality level5 q4 _. ?, v. D3 \7 P+ r
    LTPD=lot tolerance percent defective: W! g2 u6 R, q( N
    AOQL=aver outgoing quality limit
    2 P2 b! e4 x& x* s0 zOC=operating characteristic curve
    3 s- N. R4 f% C+ {7 wAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss' o1 }0 r9 y, O! j& ?* J
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的
    - B/ L% Y1 S; S, q. f  p0 G) w; t( S& M0 J3 d. y- ?7 s. y
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 ( S# p: i5 M3 h/ o
    / [6 t+ H$ Y0 I
    若把 AQL 當成 匹配率
    * [, [: {. L$ E3 w4 C$ Y) U/ q* ca = 2000 , 65.3%
    ! ?8 I# X8 i" j: J4 i8 da = 2500 , 82.2%
    8 M2 o; _" T$ W0 ca = 2800 , 92.6%0 b- B* B! t2 l
    a = 2900 , 96.1%
    ( b% F( f8 \* }0 T( ?- V
      o8 r& D- a5 Y" `誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德0 Y; C2 U1 b( A6 T. X
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    8 g3 ]  ]4 f4 u# K: T5 r  |7 `2 p$ P

    1 k# B0 P$ q! B5 M  ?& J6 p
    1 @' x& M0 D' X3 X) r$ T, I6 K- f% t3 H1 v5 M, K# K& _8 v- g1 u
    " ^# u( R( v3 j/ e8 f
    PS.2 g/ c& U/ U' A! h% ~
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已7 B% g7 X: ~- g8 o7 [
    純.......參考) {) e* E( t  v8 x
    并不需要真的去計算$ A1 o! J8 @/ g4 `
    而是了解此現象* L/ I  u9 T4 e
    把定量分析的性質6 T& T: O* i- Q" d2 _
    轉化作為定性之選擇字表的依據的應用
    7 _' w3 Z' y6 k. n+ m) ^7 P$ S) L, J7 ?; y9 m
    # R9 ]) N8 u/ r- u
    / O3 z1 q3 |8 l% P3 ]% a0 k! ?8 N
    1 }7 N2 V0 [; g! A3 w  a
    ; B: o7 K3 ]- p, B

    $ q0 Y& @' F! B- G7 E3 t8 L0 M. l( X" T# G( w* Q) H& H# L: ~

    1 Y. x- I, F1 w8 D/ C0 n# ^5 I8 p# z0 a, ?1 S3 E- ?( u* m' K7 T& z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑
    4 g, e' _3 |  M/ D3 b5 ]7 J
    oversky 发表于 2019-6-2 18:20
    / x6 V7 W2 R$ e, E5 ]; H+ t4 Q如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    3 ?8 b$ m$ y/ j5 U1 a: C
    " E' n, ^; D5 n/ `oversky 兄:% f6 ]$ e& k6 v4 w
    外研社新英漢詞典匹配度大概如下:
    0 j6 x# r! R- M' ]$ e/ n5 k共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
      j* E- _8 E( o$ O+ K7 V, w
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    - Z8 m/ o' }: L/ w但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172( H- P3 T' B5 q; i$ D% K
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    . ^! K$ R) {, q& K; k8 g經過算後匹配度 = 63.445 %
    - J& c2 R5 P4 P6 ]由此可知選用的字表並不佳.......
    ' K' U; ]; i4 v* P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
    + H! H" h) s4 h  h- f% f
    oversky 发表于 2019-6-2 18:201 t. w" s; v" Y1 b
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    # t3 M2 M# `0 i
    $ ]5 _; p6 R& S$ I4 v
    oversky 兄:" n6 z* T: `% u/ [0 v8 ?
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 4 `/ n8 Y2 r0 S

    / B0 D+ `  h% ?' f/ Z: p4 I5 {朗文當代大辭典詞典匹配度大概如下:
    - [: w1 c6 C5 ]# c  o: n3 s8 R辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039
    9 C# v/ I& N8 g- ?$ q因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190, q7 a, T( K# Y. Z, o: @9 C" }
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 19959 B8 U9 k, M" g; W, }+ N# f
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    " H9 d! ?5 c0 ]3 v4 p( L. D7 K經過算後匹配度 = 97.289 %7 v3 Z7 z: M4 E# [& E  U; I3 K8 L
    由此得知應該算是不錯的選項+ e; p9 G6 B! P8 l+ N

    , z* `9 P& N) k* N' J" m: G' L
    + i. S, S/ h  E7 |

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑 2 l4 @. B& p# l, P  W
    dailiangzhen 发表于 2019-6-2 17:29
    5 ]8 k% R* k6 \# _& ?看不懂呀!!不过看上去,挺高大上的
    4 L; I& T4 L+ d: L1 z+ u

    , K: v% l5 z7 ?. Y3 L7 Ddailiangzhen 兄:3 n6 d) ^- l$ P! e0 D8 r
    沒有
    高大上
    % z3 f) q3 @  [( ^. O
    ! D; ~$ ~) Q/ I( Z, m
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    $ c4 S* {% f4 Y. d1 g3 B6 X' m) h
    oversky 发表于 2019-6-2 18:20
    : I0 k6 U5 t5 J+ K9 u如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    / f$ o& \9 y2 x7 Q! S
    ) ^- X/ V5 |+ T( i+ r
    oversky 兄:
    0 u& X0 C! g  @1 C% [& @, Y
    误差在前后一页
    & V% l( Y+ M5 q+ {  T
    這個不太一樣
    ) s- h$ L) o1 p. @7 q您所在乎的問題是屬處理英文單字排序的問題) t! f9 K, f+ e5 `
    英文單字排序處理好了 vlookup 不會有錯頁的問題8 y7 ?9 q% S9 k) d; o
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況7 `3 z4 O. i5 L  b; `9 y3 k
    & b, C' X. y6 g% Z
    4 }9 Z0 q: F! T. J" r1 s
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
      Y0 b8 z% e' R3 t, B/ h如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    & u1 P% h& F" h4 J' ?4 j3 e* N
    oversky 兄:4 N$ M) I8 C  W% s, b  Y! @
    小弟過兩天再以外研社新英漢詞典 那本為例子8 K7 V7 y0 G  E
    計算一下其匹配率解釋說明您應該就大概會了解了1 [& e/ O* L3 H/ i- ]! c2 D
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49$ Q2 C7 @7 O% a: Z% G
    dailiangzhen 兄:* j3 d' N# n9 e8 h% I2 }' y2 J
    沒有 4 Q3 F1 e" _% T$ H( }% O% w7 _; |

    # ?$ i  `( N* R# Y大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 ( {8 c5 \2 k4 H3 g) G
    dailiangzhen 发表于 2019-6-2 19:34( p7 w9 Y2 L4 R5 Z1 F6 O; S; E
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    $ L( |* H5 d! a% M: M
    7 j5 h, p& k& I' Z8 s% }dailiangzhen :
    + X; L7 o7 D6 ~" S, M& L仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    $ ?6 [4 T8 Z! C  ?( x/ L3 z若有硬純屬 placebo effect
    - o( M9 [# z9 i6 s哈! 哈! 哈!哈! 哈!
    6 i' e5 j9 @, S) F
    0 i; d( j& v# \; p  S# i0 i" V5 o* T' l
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 1 {1 G) F4 K7 M/ f) W. D: C% v
    thresh 发表于 2019-6-5 21:364 |! p$ n0 W6 j- Y% g
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    : w' D6 p  N1 \6 f8 |# a$ o, w4 \' l1 I. p
    thresh 兄:6 L4 [: l3 A; J& O4 ?. N+ u' }
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    ) Q8 J1 H( C* r8 y# `: E! k; m/ H

    3 w: @% g8 I5 J% D此是用
      M  ?& L+ g% X) T% D; O1. 每一頁的第一個單字集合而成的單字列表 or
    8 ~/ z" c( l% z4 m% k2 p4 A2. 每一頁的最後一個單字集合而成的單字列表 or  w% @+ w" d9 @1 ~$ o* r* k; d
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數; c: N* Q3 s: a( \
    $ X9 |7 _' I) a" C) v. {3 V6 c
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確/ I- p7 a9 a" b' u
    ( o" ^, }! x: p
      M! Q! o/ b5 c( c3 }: Q

    3 @0 g+ q- ?  V% T" w$ I2 ?然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    ! e' G& N3 b/ t有對到的當成是 合格樣品) w2 X  d, G5 N0 e( Z
    沒對到的當成是 有瑕疵樣品3 K% o* Y* _% u% @) ~% d8 [
    / ~6 @1 K6 ~9 k8 U" V+ p
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    $ J2 s& H9 H' n$ z+ Y: E5 V此可由小弟所假設的例子得知: Z" u$ \1 z6 Z' k8 G  O
    ! N6 r1 z: |0 p
    此是以計數值的(single plan sampling) 為基準; n4 Q" \: L# P+ }3 `

    8 Y  g7 ]9 ~/ H# p! N' A5 U) B所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    1 T+ x/ }; O# I4 O7 x. d純.......參考9 B8 O1 n3 n/ F& n* B" d8 Z$ n
    并不需要真的去計算5 t, W. r1 k: L; D+ k$ d0 ]7 m
    而是了解此現象) d2 h; \1 T3 D7 Q, g7 f
    把定量分析的性質& ]) w$ l& F/ U
    轉化作為定性之選擇字表的依據的應用
    6 v$ B) h  T# E, [2 [# Z
    & B4 c  \% ?0 G& I- p1 g2 l- U; `  E' R5 g
    . R; M8 O$ Q( b7 h! [
    6 B1 c( Y. \$ j0 O* h. {' k' R

    : e( V3 Y* }0 H5 G- O, U1 l6 p
    / [7 @( F& M# K* w
    0 P* O. s! E0 _9 l3 U" V+ g; X- M( ^" ~0 g1 K" o

    2 {9 E, c! u1 N2 S! S
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    6 L0 }1 S$ r0 s* qthresh 兄:% H$ i" H/ Y) r0 F
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    " A4 V) P: ~, p; N额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?2 p3 O+ m9 M) M- M* P9 s
    6 i+ H0 E1 ~9 _. N
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?) s' e: v% l1 l7 ?
    ; m& m0 ?1 F+ z
    如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    3 U- H. u) E/ B9 n额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    # u) p* o$ S/ [; N1 t; D
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    - z& {+ d- }& z
    thresh 发表于 2019-6-7 00:03, A+ X; d- W2 C
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    / X6 M# U* I% ^. I0 n$ X! X  }

    7 W% d. j. y) _( ^; othresh 兄:
    ) V4 f3 N/ y5 v' k6 w' y, n' I
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    9 |; c. q# a7 |/ N0 M+ D% `
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    8 a' P; A9 `5 d) P+ f4 s" q. ~  
    7 y  S9 z1 G1 y1 M  B/ W4 v, N  P
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    % `7 R+ G' R: |1 Z3 f2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 ; q) f' c8 ^$ X; Z: _8 ~$ b% m
    & ]' i% K5 J0 }
    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的4 \1 V' y& Q- T0 z% @, o- x, s
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列' F) w4 E8 g& T6 c; X! D
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41# A  e, c0 L2 O2 {7 x
    thresh 兄:5 [7 C6 j0 h6 ]( x/ h, M) C
    5 j9 p9 R7 B1 \
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

    ! Y) `2 B) n! g好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 18:48 , Processed in 0.099858 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表