掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 897|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    % V3 l, b5 W+ T9 u) j
    & h* G1 O! q* t' k小弟不才深感各位同好製作辭典之辛勞
    ( z6 c9 g  D  n! Z7 P% ?" K只因幾個抽樣概念欲與同好們分享
    , z8 J: b6 e1 W) [若用抽樣的 Defect Rate 來看匹配密合度也能有所答案- g! D. b/ o% i4 r- n
    假設如下:2 D+ v; v! w6 q1 d, b, R
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)4 f# `4 G5 d3 z
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
    9 f3 t0 J& u" r# }a = 2000 ,2500 , 2800, 2900
    2 G& e* P7 O- Y- i9 m5 O% J- h
    - L6 |, E& W! j1 j1 }AQL=acceptance quality level
    + O' @, k6 w1 s- ?/ CLTPD=lot tolerance percent defective
    " S6 o- S4 [: q* o! Z8 I" O+ iAOQL=aver outgoing quality limit
    ) O) ]4 ]' B0 s! x" aOC=operating characteristic curve; A7 v- S; T; i. o% h7 s/ U3 E
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    * x0 k! }( w8 l) D- {% e" F也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的
    8 z7 W! K- V( E( X6 }9 L
    : \8 ]4 |9 n" `倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    $ P. r0 N6 {" p

    ' i; E1 l. A# [7 w5 C$ `若把 AQL 當成 匹配率
    5 A1 z  t* J3 s4 S" m* w7 `a = 2000 , 65.3%
    7 T+ O7 y, u! U8 z* {# B# }a = 2500 , 82.2%# k! s7 v5 P$ s/ j" H
    a = 2800 , 92.6%2 e- H- ]9 e; G8 A: I" G
    a = 2900 , 96.1%* L' H2 ?; P; O  D0 b3 ?+ Q* K7 b
    - x' O, u7 P1 C- D  Y
    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    6 l: O" q1 R# d. x  q此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    / e1 w8 A$ R" \4 ?1 o0 x8 @- f8 q; t( K

    , Q- x2 x) N$ U8 p
    * Z4 a; ]+ b/ I' y) b; R
    2 N9 n. z8 f+ Y7 k% i' u+ y

    / o* |- L5 s8 k' D2 D0 p/ r8 D( UPS., E' n, Q& |( u- ]* F
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    : ~( r  Z5 x& a1 r純.......參考
    % i( q! a) l$ c, C5 X并不需要真的去計算- V8 A6 R2 w! r7 H+ }+ U& Q! g
    而是了解此現象
    + m! U; x0 a3 L$ X把定量分析的性質1 J5 @4 r3 ]/ C7 A  M
    轉化作為定性之選擇字表的依據的應用
    / s$ P9 j5 B0 y$ G; J0 d2 C4 `- |1 t0 J; C

    # G* ^+ T+ f! \9 o2 T3 o, |
    . ?. |$ U% ?3 B! i, M  Q& R6 L
    9 n) A: X$ g+ D: ~" u+ F; Z- k  A% m* O7 M  D& g
    ' ^! r2 M$ Y9 H" C% Y
    : D: d* g1 v( e/ C( m1 k
    - o+ s/ e+ N# ]2 B9 Z

    ) c6 e( {, c: V0 |/ e. h1 b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 / ?$ n* I. I, h9 o' @0 d" E% T
    oversky 发表于 2019-6-2 18:20
    " N$ v" }; g! W/ Q, A& t( w如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    * C" P; T" R: c
    & a7 l( b. b0 y8 _; K+ X3 S
    oversky 兄:& T  K5 |$ \) Y# G7 E7 T# A1 g, l. n' E
    外研社新英漢詞典匹配度大概如下:7 U! ^' |6 z- E* u& C" U/ I2 ^4 T
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    ( P2 m. B! ~0 B7 N1 \
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    ; A6 F9 F1 Z; e- d* U& ^但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172. r* ?& e% ?6 e$ z3 b. L* f3 p
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    % u3 w$ C4 w, G$ {6 x- l' W經過算後匹配度 = 63.445 %$ R. t8 A9 O" p, U6 V' J
    由此可知選用的字表並不佳.......
    1 e3 R( C& }& J

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 " \% E5 a' t  u! N3 ~1 V; W$ K
    oversky 发表于 2019-6-2 18:20
    3 e% U2 k7 U( m0 h0 R  f* S如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

      {, d% X+ ^/ ?$ R6 a! Q9 p: r- P" X$ o' M# D, B
    oversky 兄:
    1 w8 I  z8 S9 e另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 ! m, ?- c3 r  S' |" n% @$ }+ V
    3 b& H0 C: U* Q+ z7 y+ W# }
    朗文當代大辭典詞典匹配度大概如下:7 R4 N' x  _  k& r# E
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039/ f, S7 D5 y, I9 \& o$ D3 s% n" A
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190' P9 r; K/ d+ O8 E
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995& K/ h6 H  R: S4 b6 \' i- i8 {  ~2 C
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    ( v! b: }, `9 O  t經過算後匹配度 = 97.289 %0 n6 p- G9 ?/ S4 {# D
    由此得知應該算是不錯的選項1 z" U" t/ r! a0 r, {
    ; [' H4 o4 t& {" a: ?% H; K. w

    $ A2 F3 o) ?2 m: I  i# v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    2 D8 I3 A: T4 w- f
    dailiangzhen 发表于 2019-6-2 17:295 ]( {+ T/ V' S1 h
    看不懂呀!!不过看上去,挺高大上的
    # H1 y: E1 N0 I8 i/ t: K* n
      f" K- v; K9 r( U+ `' ~6 d
    dailiangzhen 兄:7 w. e4 N$ M: L. M- ^
    沒有
    高大上
    ) ~1 n0 H) |6 ?7 i! @
    ! W/ i0 B  m) z
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑 / `+ m8 K' m- @
    oversky 发表于 2019-6-2 18:20; }: E( G9 d6 F
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    . D9 p! h1 l* S  D% k% @+ ]4 y  |
    ) J+ b$ Z0 T; s
    oversky 兄:
    ' |  E; m  p$ p2 V1 T; d+ Y& n5 C
    误差在前后一页
    7 ~; J( B* D% l4 T3 M
    這個不太一樣
    ' C& ]( c+ P* Y$ J0 N, t# B% A您所在乎的問題是屬處理英文單字排序的問題0 v4 r: D  k+ V5 Z; U9 v- w
    英文單字排序處理好了 vlookup 不會有錯頁的問題; K( v6 r  W; U' c
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    " k3 E1 D; V( J+ i6 p4 c4 \: p: @7 {7 ?! K

    & p% l) K& v- U" O0 |# D
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    9 ~2 M' _* y- n2 I4 @% q如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    6 ]3 y# F% e9 ~) @oversky 兄:! u" `. e( A# u% d; d0 A* Y
    小弟過兩天再以外研社新英漢詞典 那本為例子/ Y, R! Y/ R: E& U& k% |
    計算一下其匹配率解釋說明您應該就大概會了解了
    2 u/ P" J9 P8 }; x8 I9 C
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    0 d. q8 u' r1 B) edailiangzhen 兄:' r4 q$ y3 K& e* I3 f0 ]
    沒有 2 @. E( T# H9 P2 F- A( k

    2 `+ F( S( j! d" p大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    # U1 f3 H/ J' k# }  H2 H- t
    dailiangzhen 发表于 2019-6-2 19:34# G: O( o* S  s
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    ) R* y! P! G$ Z9 i& E* D
    - Q* B+ A& @& J* p% Xdailiangzhen :/ t* W' b  K7 i- P# _/ [& @
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子7 d. v& f; y: j. H9 R
    若有硬純屬 placebo effect4 m9 Q+ [6 Z: C9 q5 }  G( y
    哈! 哈! 哈!哈! 哈!) }" l7 R& t/ t, c1 f& P# a

    8 b: j5 E5 _8 d
    . K8 r4 k1 N  h' W% ?* B% m+ K9 e
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    $ d! v6 L! N; x. e! ]
    thresh 发表于 2019-6-5 21:366 C; T6 L" o: b9 g" f! p" a
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    9 X+ ~+ M% l' F+ s" g; u% h: D* i/ W6 j2 S1 F; y0 A& `
    thresh 兄:- G6 x, y- A: m2 W+ \8 m3 W
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表/ w0 a" e! ?' k4 m
    ) J) [/ T) f: B

    8 A1 a, X# G& i5 d) X( t此是用
    ; a: _- x9 |' g) w) S+ }1. 每一頁的第一個單字集合而成的單字列表 or1 m( x4 p/ X! c4 A+ N, l# h
    2. 每一頁的最後一個單字集合而成的單字列表 or6 h5 _; q* N1 y2 E/ q% N
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數$ ~) Y( `; q* w: D. O2 w6 v

    , p! O/ }- Y% G. c4 n8 A1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    8 [. l( N- d2 x" S/ ~3 ^2 p- [+ o$ p- \* h
    * B8 B7 X; [/ N6 E. V) X7 p; j  f/ n9 I9 ^- y
    ) I. x( i8 Q* f+ v0 D% b! Z" \
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量+ Q4 g3 ?% l9 }  _7 f1 `: v8 A
    有對到的當成是 合格樣品# P! Q' ?5 Y# R  b% l7 L! c
    沒對到的當成是 有瑕疵樣品: d9 U: R+ d2 _
    + W3 \5 H! C* {  K8 w
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加  S) v5 G: G: l  u% p
    此可由小弟所假設的例子得知
    0 F* `' U, B) O1 i' a0 Z$ `- {9 b
    7 \7 `$ n% r3 d& t1 G1 ^0 s: z7 v8 s此是以計數值的(single plan sampling) 為基準  l0 K5 ?- t5 U# u( J

    4 i) w' Q6 U5 P* T所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    # J, M6 U$ S7 m0 o2 [+ k! h) F純.......參考
    : V8 H8 H  n8 Q6 m并不需要真的去計算& r* v, T! l, }( H
    而是了解此現象/ z" M9 z' A* v& B5 i* {( j
    把定量分析的性質
    2 B7 M3 t- F7 d# p轉化作為定性之選擇字表的依據的應用0 j/ `) Y- ^( M  A! v) M8 R

    / R1 [1 f" a6 D6 A! S" X* f) K" Y4 Z0 c
    0 g4 w+ b) [# a

    $ F2 v' S+ A; T8 p7 {, V# k7 a7 a) O
    " e8 M. @0 R2 k0 K
    9 R6 z* w, u6 Y# J3 P9 I

    : U2 m9 H$ Q' g' \, X; u. p
    ! e, _) `+ A2 L2 d
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30& _* C- F% C+ v; F3 |
    thresh 兄:, p! d. ~3 [+ O# L( I
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    + y1 ?! }0 x3 m, q- @, F7 X额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    - p  W- s+ I0 n! J6 l# Q% F' c0 u; P
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?$ t3 z7 K( y# |# Q1 f% J

      s% x' T$ T, N如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    : E$ M+ x6 ?8 j- Z. C额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    0 y! \' R' `& X0 U
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 5 M: c, w7 I3 h/ V
    thresh 发表于 2019-6-7 00:03; H, p% Q" C9 `( G# b
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    1 r' i4 K$ S5 H$ `. W6 L+ |0 \8 s& q4 W8 V  l3 `
    thresh 兄:4 Y5 j1 F, S2 B: g" A' ~% j
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    3 I9 b4 ?/ g9 _" Q2 ?  r1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    1 e) z  E! {9 I  . Q" x, w4 ^& Z
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    $ B: R) u' j. V6 }& h5 @( o2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 1 f2 K# Q& t2 n5 [

    3 M( ]9 L- m1 k+ A- N, u0 N若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的# M* [* |6 \- a5 o- M. V+ C0 f3 r
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    ; s5 ]  }' s3 I2 i; z
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    5 ], l: Z9 s3 H# \9 ~3 Uthresh 兄:; a# i" u1 s9 |6 i
    " k! |7 G2 Z! P0 O& l% J% a2 X
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    4 y$ c4 z* I+ P2 L7 s$ F  g+ Q
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 18:33 , Processed in 0.138453 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表