掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 894|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 3 k, O& ^: o, D; N
    ) l$ f) _( i9 x
    小弟不才深感各位同好製作辭典之辛勞
    , k+ S3 u: a3 E只因幾個抽樣概念欲與同好們分享, D4 ]$ L. [5 Q8 i3 \2 y! `
    若用抽樣的 Defect Rate 來看匹配密合度也能有所答案
    ! p9 i3 f. L, i' L$ D假設如下:0 p; c, b- f7 n# D
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)9 K) T# i, u" @* t
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為9 ~% B' ^, y" C/ d2 d& }
    a = 2000 ,2500 , 2800, 2900& Z$ U  G+ n5 n9 A$ a. I" J$ Z

    ' w; ^  A3 ?  Q. b3 i) l0 D8 U. }AQL=acceptance quality level
    ) v5 b6 B) n3 E( @LTPD=lot tolerance percent defective
    : v. z+ _. u) y& I. e2 O2 PAOQL=aver outgoing quality limit# y9 Y5 k% Q# A
    OC=operating characteristic curve) A# u! C* q0 ]6 M% K
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    4 }. A1 w5 J" H" Q3 ~2 ^. u- f& ^也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的+ M. u3 g( S& K4 I2 X: p1 U! k

    : G( E1 N) ^& K倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 9 F8 ?9 x# t/ s+ M
    : d6 \) U5 F1 C2 y8 F/ h
    若把 AQL 當成 匹配率 4 J' l; n- Z. J' r. r8 }
    a = 2000 , 65.3%9 C) Q* o. H& {8 z3 P/ J' K$ ^, s3 _
    a = 2500 , 82.2%- p! A& X# r$ L, a6 T, R
    a = 2800 , 92.6%& B% o6 @/ v; c- X2 t! Y: Q: a
    a = 2900 , 96.1%
    7 p: w, b2 [! I2 C, L! ~% j& N6 p9 e- H) O8 Q8 `, o
    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德; J1 o/ n; y' n1 C; V
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    8 u+ D7 r) G" v
    3 T9 q7 v* F' |6 q2 P0 a8 |4 F( ]# U0 f7 R8 b

    - ^, x' X. n: |* ?- U" T: j9 T% `% d/ u5 Z* M+ `& [

    & u, P+ a% X0 ~1 V$ ^PS.% V! L' o' B" S+ R4 b' l8 y* G
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    + R' N$ U) r3 w7 u7 l9 ~5 v純.......參考
    6 h1 @; v: R9 R, N并不需要真的去計算$ L4 Y& e) Q  e% t7 Q) R
    而是了解此現象
    : ?/ a( O) j6 @- L0 m" D( P8 z把定量分析的性質
    ! {' l. y0 V- D; L) z6 x0 d: U轉化作為定性之選擇字表的依據的應用
    $ F( T! n! X, |9 D2 |
    $ p/ T) T$ j6 m% Z* i. y8 D" a& H3 D. S, B& A# n7 o& m

    * f) L8 m- ^! v' N
    . q. e; V* V: Y: P6 @2 ~
    2 R% m+ X4 v  y4 K7 [
    * {/ V* B; f5 Y. X1 c
    6 R# i: D+ W, Y; R, N2 b3 _4 {2 V- D1 Y

    + J5 [6 `$ ?0 ~3 T; R/ N0 J% i

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑
    6 p( j4 t+ s) L2 ^( p' c7 Q; t
    oversky 发表于 2019-6-2 18:20$ m) w" _6 S: ]9 V6 H
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    6 j- q( j- ?2 z* k" F( [

      n' w  J; @8 r8 }! f0 doversky 兄:
    # d1 N% ~" ]: V% @; e2 c! F外研社新英漢詞典匹配度大概如下:+ M) b, I/ C4 ~- C1 C+ k
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795
    ; W5 `; q6 k6 ?" C1 O% B9 a
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    ) k8 q% g( o: G) ~5 m! `0 h$ E但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 11724 a" ?5 Z! I5 N0 e- o# v
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度) X7 Y+ t8 j, L' i1 h
    經過算後匹配度 = 63.445 %
    0 ^& h; v% p9 \' V5 H由此可知選用的字表並不佳.......  h0 Q+ T. j$ K1 u

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 ) |+ Z0 t: b3 m! s( j7 ]
    oversky 发表于 2019-6-2 18:20% k$ K( E$ N4 C; H6 I
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    ! Q, G! J' ]3 J
    " a: z3 f+ I# G' G
    oversky 兄:
    & e* r) X( d' `) `! O另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    8 ]+ M6 U4 A& d; r2 |- K/ \7 m/ z8 x; L! z& X1 W+ z; S1 b
    朗文當代大辭典詞典匹配度大概如下:
    - z( n( a, J5 V. E6 H1 g) o: v辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20391 f9 s+ h4 \: H! d- S
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190
      P- ?* {$ \/ a" U9 m* I/ B$ V  W但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995/ d# d9 h4 C3 [
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度6 \; u2 ^& ]& ^( y1 R# N  M
    經過算後匹配度 = 97.289 %
    2 N- V0 T. e9 l- Z4 G9 T0 N% x4 j* J由此得知應該算是不錯的選項0 n0 q: }# R3 K2 [3 n  W! Z% A/ U

    ' w0 z) \% Y$ @6 b+ g( J  N; N8 U$ K0 ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    . [$ A9 {9 o3 f/ G4 X
    dailiangzhen 发表于 2019-6-2 17:29
    - X& h5 `+ _/ x+ K' e看不懂呀!!不过看上去,挺高大上的
    . I: m, t; l: c& m

    0 X: c: b+ h: b% s. s" g3 Pdailiangzhen 兄:
    - a5 d5 Y' T/ W" y沒有
    高大上

    ' D2 ?' q  I5 D  i3 n% e# u  B5 [5 w. ~" d9 k
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    " _8 d' x" K5 y3 P% p
    oversky 发表于 2019-6-2 18:20" d: h9 }$ M! G$ ?2 ~+ K7 O0 H
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    6 F4 z; h( w9 z7 O5 ]/ C# Z* V. m# @! R: `9 J1 u# f
    oversky 兄:: t& Q! b; ]$ K, m& a4 b8 C6 _
    误差在前后一页

    + W# L! T5 p; @" ?, T* o8 d這個不太一樣
    1 t. g6 S: M- [您所在乎的問題是屬處理英文單字排序的問題
    / u4 J- u( e9 W6 h3 g英文單字排序處理好了 vlookup 不會有錯頁的問題" J+ T6 ~: f% p7 y1 @# `- [) m
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    6 j4 |4 U7 i  _8 Z8 O8 D  D' W' L5 c/ A$ A( z; U1 b

    " i$ _) V4 {" ], P
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    : O4 Y1 o' H+ |* R如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    : D! x7 r7 `& t
    oversky 兄:
    3 c7 I0 E! F3 Y& o1 q4 @$ ^小弟過兩天再以外研社新英漢詞典 那本為例子+ f  w/ }' o$ r$ F
    計算一下其匹配率解釋說明您應該就大概會了解了5 a. f- l. K' _: N" ~% g
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49" O9 a8 q: i7 y! j" j9 ~
    dailiangzhen 兄:
    ! F, d4 X/ k# k0 o4 o  \沒有 2 j5 x6 d/ q- B* F6 v: ]

    8 O" n  m& a; j$ o+ e% e; T/ S9 z大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 7 C9 N$ \1 X/ }; e: T
    dailiangzhen 发表于 2019-6-2 19:34. O  j" w( k2 _4 X2 v3 T7 g
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    4 ~; u( s4 K' ~) ^1 C

    , T' H9 e. E& u0 @: V2 Jdailiangzhen :
    $ ?$ {+ D/ |3 W) E8 B# h& t仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子( I. B* P, r' N% k
    若有硬純屬 placebo effect. E$ c$ S0 @$ {+ i* P
    哈! 哈! 哈!哈! 哈!
    7 o; v) k  b, S! j( v+ Z9 |
    / b0 B/ W/ s  m6 S+ {8 P0 w! l' P' I* j) s) W6 A# |
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑 : |8 A4 b1 _# v* I2 a, M
    thresh 发表于 2019-6-5 21:36
    8 q, F* y% Z5 L  w$ S% F这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...
    0 v$ s2 Z' e& R9 s

    ! Y! V9 S$ _7 i: c$ Ithresh 兄:- X# S8 C' t# w! S2 h
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    - Y& L8 T0 h( e' V6 [) V1 x- j/ M! T
    ) m2 _$ C$ L, [5 a& y
    此是用% F2 S3 A: b6 v! w5 q  A3 G' i
    1. 每一頁的第一個單字集合而成的單字列表 or
    & l* b& R2 w  S8 _5 `2. 每一頁的最後一個單字集合而成的單字列表 or8 U$ f0 ]1 z  @# K6 J
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數5 D9 [3 W0 e0 B* e4 r8 z. g& d

    ! z7 x7 L) J7 M. v- |5 n- n1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確; T! _. k( G" }9 G

    - i/ E" }& b  m/ J3 L$ o5 z8 m, S3 }8 B8 k- w& z4 m, h9 p, d3 c, _. G2 H
    * Y; E8 }/ `1 p" C; Q( S
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    ( Z; X; j! t1 y6 b( l4 U% Q有對到的當成是 合格樣品
    : P- N! f$ p1 w沒對到的當成是 有瑕疵樣品
    " Y' s/ H- j6 |9 K1 l' p' a
    ! n& `5 F& e: I( U此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    & k6 Z+ E. z1 m% o/ C% h此可由小弟所假設的例子得知0 ~4 d7 x5 a/ T& X# e9 c
    ( ?' O' O9 v% s
    此是以計數值的(single plan sampling) 為基準/ z7 i) j; Y( S/ P- ?) y

    - d( k$ T+ \! l2 M+ E, O- K所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已7 l/ X7 e# N& E' s
    純.......參考
    ) U6 s3 u" u" a并不需要真的去計算/ L* _% u* |4 }  X
    而是了解此現象
    ; X/ L, p6 [* v, v- d把定量分析的性質
    2 K3 r# G& X5 l$ w轉化作為定性之選擇字表的依據的應用6 @( Z# B9 W9 l7 f( E5 c
    % d8 j! b. n  N. M1 j4 |0 t0 x

    1 w- Z- ?+ u* }/ z  ~* c3 ]
    / o6 v, M2 x$ z& O6 Y( \
    " j7 U! w1 J  d/ Y' R4 Q; |* M
    ) c# @. z. l  t( R! d  m' c
    ( R1 D0 u2 L- a4 }! W0 U( M& U

    # u* O1 h9 d4 J7 [. h0 ?, l8 k$ ?
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30: i( O4 F/ Y, M# y6 G: O
    thresh 兄:
    / g- q! [% E3 C6 D0 t9 T0 z小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    : `; Y/ v5 S) u9 Y" T2 Z额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    6 K" s2 U4 u& p' v' L$ j2 Z( n$ P2 M- s
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?8 g" A4 g4 ]) o; C, d) J" R7 i  g

    / Y& q- ?, t7 L# O5 s4 b2 M6 a如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    ( E7 M% K/ E) r' I0 a7 a额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    . g0 G7 B& S! Z) K" J老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    , n" e9 \, z  d' O( v: J! a
    thresh 发表于 2019-6-7 00:03
    . h' Q( S, p  S额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    9 M( L0 V1 s( ^+ D9 N/ f* \5 C2 `) g8 x! B& ^* Q
    thresh 兄:
    / Q. R: S8 \9 Y- ~' D
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

      C. t5 A5 V" l; }% E: Q* K! v1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    * S1 W/ O* X" o( m& a  & N# y' X! a# s8 R
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    1 U7 p9 E6 \3 \5 X) y. y  S5 N2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 1 N+ y2 t: b: a" t$ l

    . l2 w- Z2 P' W: u- B& t$ K若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的0 V. \0 @: @, ~% I0 e) p7 r$ @! D
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    * e1 }, ~" A6 w3 e, J
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
      ?) k& W% v- R* A  ~9 d* R  u5 ithresh 兄:9 g, \1 ~& o4 k5 e% j$ }" ]

    & y  j0 ]5 |6 M+ q0 {! i1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    3 C5 W0 t! d( t: f8 T! V3 D  G
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 17:03 , Processed in 0.088504 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表