掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 899|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 4 N# U1 U1 r4 X9 H$ D# E
    ' D. Q$ H! m/ U& ]/ r% h" \- j7 y
    小弟不才深感各位同好製作辭典之辛勞
    7 @% s8 g( W2 o( Q" J只因幾個抽樣概念欲與同好們分享( n5 F8 J8 B3 g4 k0 C
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案) |& E: V7 X$ X7 b5 m/ W
    假設如下:8 R  G$ X3 A3 q) ~6 \& D; L
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)- w: E3 \. Y5 z
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
    9 e: y4 H, M0 |) W% f8 Ca = 2000 ,2500 , 2800, 29006 t1 m7 a+ l& Q9 F' G3 _$ w1 g4 d. q

    # B# `. c4 o  T& D) i& [9 g) lAQL=acceptance quality level. I+ ~) X/ x$ U9 M  Q/ J8 y3 J
    LTPD=lot tolerance percent defective
    " w8 m& `" t% v1 C9 BAOQL=aver outgoing quality limit$ j" g. o- V' L+ Y
    OC=operating characteristic curve
    ( R6 ]. ^, A0 R6 h0 B0 lAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    ' _2 E: `  g! O) ]  s& @% I1 ?# i也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的& Q5 i6 G, f# j

    7 `- S9 [4 A$ X2 i9 B  D倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 : S# i9 O+ D3 \7 C/ c: k$ n

    # i- T# y( p- T6 ?5 \, I若把 AQL 當成 匹配率 & X0 n' a' G; }. k
    a = 2000 , 65.3%
    % s) U5 O/ |# h' K" |a = 2500 , 82.2%# B; F7 D5 p0 C/ e0 |
    a = 2800 , 92.6%. F, X9 _, v8 Q: y! d- \
    a = 2900 , 96.1%
    3 ]# i% r' x8 z; Y" W5 w0 y/ A
    % h* Z! \$ g; ^2 f# B9 f誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德
    6 {2 R4 V! E! V7 `; k1 \此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據( u5 u5 n$ C) r9 ?

    ; F# c2 g9 L- ^
    : K; Q& v9 V  p" }' |- R& r- h5 o% g4 W/ a* `* ]
    5 L, r; n/ i; k9 _+ {7 A1 ]' M

    * K" D& n2 ?% v- H" y7 s% RPS.! ?4 F& z' w% ]9 _
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    : a: E3 i; c9 O純.......參考
    ( z+ O; u, d' H5 F6 d$ K5 ?  d# O并不需要真的去計算
    . N& j$ }; Z( U/ Y. E而是了解此現象% h. P; G9 y. d
    把定量分析的性質$ O+ {( j* P' U4 K; B7 y) n
    轉化作為定性之選擇字表的依據的應用
    ; Z- a7 @0 U: ], X) L% @/ e! ~. H. Q( X% _1 {  E4 d0 m

    $ p' M) m: k% b: w, K( B& I
    , j2 V3 i3 T0 _1 p( ^7 A
    9 }2 M) p+ i- R: [. o4 O# K- \) h5 N' Y( _' x

    . _4 e$ y+ i1 F/ B6 X
      d- o/ }% i# `6 q. _1 D$ P6 {; y: U' [, f# Z( l

    9 b. _% E, c) @; F

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 ! ]9 Y, Z1 F) n
    oversky 发表于 2019-6-2 18:20" Q# ]. |9 g' [' a9 i
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    2 h: t" Z0 i) V: o+ P, e- T
    . L4 v, h$ F3 V- D: u
    oversky 兄:
    , m& I# i2 q5 S2 d& a# K- D外研社新英漢詞典匹配度大概如下:
    2 q" G$ R8 h3 T2 y% ^# k共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    3 h# J- u. S/ h) U
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374) _9 z% }' _6 e0 T$ Q8 I$ O
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172( b$ m+ I$ L8 J
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度) Y# h5 n+ A* u2 v3 F) ~
    經過算後匹配度 = 63.445 %
    3 t+ w' ^4 W: H- E7 i由此可知選用的字表並不佳.......' U$ }$ E& E1 H( |1 A

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑
      ?9 H1 j+ f* S
    oversky 发表于 2019-6-2 18:20
    7 Q. g. J( z+ x  f9 v如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    , V0 o' C: x; Q2 C# Z$ Q3 N$ `) y
    oversky 兄:* [' w; i7 s$ u
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 " |+ l; D+ P# @) n* |
      I2 u4 u& q" J+ h2 [# @* @$ c
    朗文當代大辭典詞典匹配度大概如下:
    ' l' j8 M7 N: V辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039' k. Z  U' K- F
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
    . Z. z( n: ^, @/ z但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995& y. J7 p3 _- A  }
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    & r$ R4 f& X% o" y  i經過算後匹配度 = 97.289 %
    0 K8 j0 D& [' v/ o由此得知應該算是不錯的選項
    ! e. Q! }. c5 W8 x( A1 s( m
    & B$ ?. t8 t2 R$ t; i- G1 f0 ^. k
    0 e9 W3 q9 |; e, ?! p

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑 ( J- D9 l6 |1 v1 t/ `' a  @/ u5 P
    dailiangzhen 发表于 2019-6-2 17:299 I! f; W# o# @  `8 r! q1 n
    看不懂呀!!不过看上去,挺高大上的

    5 g; M% ~# f% ]/ i5 w( |/ D; }8 |% }" V- _2 b- I2 X+ n
    dailiangzhen 兄:
    % v& E# g9 O( U$ T9 o沒有
    高大上

    ) h# s$ B; c+ T) k1 Q. |' ^. n& b& T) ^* N( A: J# N% _  U/ Q) y
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑 5 b9 T1 k2 m* H) z. W) [5 E$ B
    oversky 发表于 2019-6-2 18:20
    3 F5 S1 e7 R7 l5 |- w如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    ; s7 T" Q5 F, A5 K, @3 b  h3 z
    ' I& E  T- ]+ d) {+ ?6 ~8 B! l
    oversky 兄:
    5 }" k! c% z  z9 A# F
    误差在前后一页
    ( x6 d) K  b/ h
    這個不太一樣7 o! U  o% G4 a/ Q$ C& s# i7 F
    您所在乎的問題是屬處理英文單字排序的問題
      v" R% |7 e8 B# A英文單字排序處理好了 vlookup 不會有錯頁的問題- }" U" |: G+ `
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    " q, ~+ K' `. ]3 q* [' p
    6 V+ D; l, G) _% y1 a. I  J+ b+ H. u3 }# k$ w' P' z1 o3 S' |& U
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    " t0 d' y6 V- h0 v如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    , e$ m( k6 ?  |2 Eoversky 兄:2 c- G8 S5 b# q. ?/ N
    小弟過兩天再以外研社新英漢詞典 那本為例子
    ; x9 z! h) c! B3 n' Y; G計算一下其匹配率解釋說明您應該就大概會了解了
    / I4 W2 f1 i! ?6 o6 Q
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49
    ; o5 H/ B3 e- {! q) idailiangzhen 兄:
    4 C# u+ t5 I! @& l, d7 p. L; \0 Q沒有 5 \, q7 f/ R3 j: F" u

    - X; `+ n4 z5 ?2 Z# u+ E, d2 {大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 ; {  i4 b( l$ R) P: j- c: K
    dailiangzhen 发表于 2019-6-2 19:345 |& G4 M' [( c1 C5 H
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    2 L5 y8 E8 }% B. H) c; c* ?

    % M6 p8 o  w8 C& B7 \/ |dailiangzhen :
    6 m9 _( \3 G+ P2 \) W7 C7 Q/ C: Z仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    $ r5 b4 m. H. p5 [若有硬純屬 placebo effect
    9 _% a4 x6 a5 y8 i7 w7 K; @( M哈! 哈! 哈!哈! 哈!1 D& o2 }, c# S$ E, B. X+ K& W

    3 _7 }, e9 k6 x) _9 D' I: @' M
    1 ?! }  N* o5 G9 x3 M- }
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    5 r( K$ X" P, ^" A9 [" _4 D& l
    thresh 发表于 2019-6-5 21:36) H! S  a2 v+ `) d' r& Q. g
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    5 U4 {4 G( W! _* j0 ~# S/ s1 k( j. C- D+ F7 a0 n
    thresh 兄:4 \9 A* m# F' [0 ]% S$ ]4 p
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    7 Q3 @4 {" M( `5 u0 C/ z8 V: o& X5 o  R

    ( |9 c4 Z+ s" l, G& N! {# I$ _此是用
    9 e8 _; k7 W0 `  \1. 每一頁的第一個單字集合而成的單字列表 or
    " {( c9 J( _1 Q  ~( z% |9 C: f2. 每一頁的最後一個單字集合而成的單字列表 or
    " Y" S) g0 {/ \0 Q3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數
    2 j3 ]+ c! k* F$ q4 H# P5 S- R! x) a: F; T. \' y, c
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    ) A7 {& g! N- G/ Q: P. {! P( r5 J& G  J2 h) o# A

    , n# ~7 d3 k9 E0 Z. }' B  j  o9 |. {- n1 V# {$ C
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量$ j. F4 \, O2 d9 U7 X) H  c
    有對到的當成是 合格樣品
    3 m( B, r3 I: ^1 F, F8 g+ Q沒對到的當成是 有瑕疵樣品: `& u1 V6 N; m3 q
    5 V5 ~1 e4 p/ v
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    ' W/ ~+ q; V, I7 a此可由小弟所假設的例子得知6 h/ X, K) ~; _1 S4 d7 n
    6 t0 f' `# n: x4 v& D
    此是以計數值的(single plan sampling) 為基準; }) B, Q+ E' D" r. u9 m" b8 f
    * k: Q; e' w9 Q
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已3 n5 M+ U* h& x; ~) A' P
    純.......參考) T, l4 ?' h" @
    并不需要真的去計算
    / O! K" N  S" i4 I0 K/ N/ I9 ]而是了解此現象% l2 C4 W9 p9 U
    把定量分析的性質: G8 K% p6 i0 x- b3 {( H
    轉化作為定性之選擇字表的依據的應用) {& T3 R% |2 S0 M4 i

    % q8 n0 F6 I- k( u( s
    ; l; F: i$ l  j* U( D) x) Y% W0 X5 a4 T0 Y+ h& O

    $ b" H1 o/ f9 E0 O3 o- D7 f" _8 e' |8 n
    ; n( L! F+ j0 S

    8 l0 s% l5 t5 q) l# H0 x
      c; Y4 w  f0 R1 ]- y0 Z
    : r3 x0 Y3 S5 d9 N' V" ~- c) u& u
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    8 m- ?0 Y  k# Uthresh 兄:
    9 s  f" i8 k2 i小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

      X2 h- s" q. \# M7 O: s: R额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?/ z6 ~: e- f2 G( z- y7 K

    9 ?5 u& t( z% R# H另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?- p; J* P% V" @2 W" G' V# U, ~1 j

    ; V, m+ P# U, d3 x) z  {1 Y如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03# z+ [% F  ~7 P" |: }; _
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    : G5 _) A7 U5 v
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    + V5 V- Z6 E1 M2 f7 ^. z! F
    thresh 发表于 2019-6-7 00:03
    " a. s7 H& r1 D) y- d+ t4 e' W; t额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    0 k4 \  G6 P: O( P6 X( S/ L9 S* o
    0 {4 D2 c2 ~# I" F8 I) P9 k
    thresh 兄:. i2 }! ~* f! |6 B) ~( b
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    + x" [! f0 U4 t) E9 u% d! B
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    / b1 Q( h+ c4 b( Q( Q( Z  
      b- O  f! D3 K) s+ ~
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    / }5 Q% Q# s0 G) ?: ~0 ]2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 ( {+ k2 y8 ^4 f9 T% o

    4 m! y( ?, ]5 F4 O: K0 O; y若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    3 Y/ n- @$ }% B' l3 W計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    % w: @$ z+ y! g/ r+ z& E
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:413 |2 i/ Q4 |+ X$ n" j$ V' s, T
    thresh 兄:1 y/ m4 J% h! Z* z5 a

    7 ]( n( B6 F( x6 u9 c1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    8 \6 k& Q' k! k+ W: |& \
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 19:24 , Processed in 0.069360 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表