掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 895|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    9 c3 T+ s# Y  @: \( K8 }2 A% p
      n9 P/ p- x+ ]( p- I小弟不才深感各位同好製作辭典之辛勞
    ' R; [/ n5 C% Q. X- i只因幾個抽樣概念欲與同好們分享
    3 g# ^. L+ @8 P, }& M/ h6 i' b4 ], x若用抽樣的 Defect Rate 來看匹配密合度也能有所答案0 \5 Y6 f5 o0 k; F( g) @1 B
    假設如下:. m: P/ @1 \! P3 I9 p; y) h0 T5 |
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)0 V/ h3 P) k) U8 y. t: h/ h
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
    " Z6 S; B: a' Y$ T7 a& c' T  r; q) _a = 2000 ,2500 , 2800, 29006 _( `8 c1 U, |: G
    9 {! \9 f; ]$ m
    AQL=acceptance quality level4 T2 }) S( j& E- Z0 S4 b9 Q
    LTPD=lot tolerance percent defective+ X1 E- S" Q2 }' k, [
    AOQL=aver outgoing quality limit# \6 L7 ?5 |3 T+ h! o; g) ~. |
    OC=operating characteristic curve9 c- J! h3 u+ ~6 x
    AOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss0 P$ J; r  R- G; Z1 W: F
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的
    ' [0 Q2 g1 U6 w; _. _$ [6 P! o
    ( h; }+ ^( V8 j( u8 h倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓
    $ ~& e: {0 Q$ W$ Z+ N  s% ~# X$ ]

    $ m) q! l, x* w7 T: [2 H& E若把 AQL 當成 匹配率
    + G7 @, c6 C8 z0 m# W# }) E. qa = 2000 , 65.3%
    ( e0 N& e8 r- ca = 2500 , 82.2%
    * L8 Q. E  M0 y3 ca = 2800 , 92.6%
    1 @5 s4 `6 a3 W' M4 S2 Ma = 2900 , 96.1%
    6 V  o& Z# o/ p& F' z2 ?. f
    ' l- t/ q, q& t! q% F5 D誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德& ]0 G  o6 t& B$ Z( T- V9 A- `, I
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    / ]  r) Y  r4 \! i# o5 i' e1 Q
    9 N5 ?3 l( q) t% m
    ) N0 X; A2 z; ^1 P2 i0 T
    - k4 C% U4 K4 P) N3 x& Y
    9 [& i1 I& B* d* g8 q

    6 C( E0 K) U5 ^5 l# tPS.7 }( L+ s. u. ?+ c6 M/ J
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已5 B' L- S$ R3 t" ~" f" R6 [
    純.......參考" P% p0 `* i; I% W& m7 C3 f& A2 h
    并不需要真的去計算9 s' C. ]  R: c# \, a0 [% b% c
    而是了解此現象# @7 H8 P' v  x2 p" ~
    把定量分析的性質
    & \) i3 i5 Q) B, }轉化作為定性之選擇字表的依據的應用
    3 O1 L9 X2 ]) ?# {9 x. V
    1 d6 _4 h! ~; x
    ( N& q! P- K% Z! V: |+ a& k4 _2 L5 k2 o/ H

    7 B: j, z' b$ @, C  F* R+ w  X# i& T# ?! B$ U1 h# G+ c' b" x
    / V; y% n# u) P' @! E
    ) I5 L2 |- |$ e

    0 O. D; C* D. V6 W/ Y4 U' |, m: }$ H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑
    % ]9 _" ]- F; F0 I# r' Q/ E
    oversky 发表于 2019-6-2 18:20
    7 x6 ~2 d6 {: y7 M如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
      [0 c1 V# X! w

    1 E" S0 ?$ v  V+ Goversky 兄:9 w: E4 u1 W8 Z* B0 U
    外研社新英漢詞典匹配度大概如下:
    2 _2 A/ A/ }: S: z0 G9 U共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795$ C# q& a* V+ R
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374' k, i* @+ Y. `
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172- x9 ?9 u' e) J9 b' \
    但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    5 N- }) A, ?2 \3 }: k+ Z經過算後匹配度 = 63.445 %) c" n+ W+ E9 \; }, V$ T) P
    由此可知選用的字表並不佳.......
    ! F3 \9 o. Q; W6 V* h1 z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 3 `7 U6 Y( \8 y3 F) P; m
    oversky 发表于 2019-6-2 18:20- d& l0 [, ~& g4 @# S
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    , N0 u) k3 }% K6 L
    4 h. @' C/ W- R  l! Xoversky 兄:
      R' v( {8 k9 a5 g4 A/ v5 k+ A另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典 7 E+ e2 d5 N2 @# \

    9 q( l2 j7 p0 D朗文當代大辭典詞典匹配度大概如下:! j+ O" N3 r! R$ K/ E
    辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20390 @3 x* A! w1 u2 Q
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 621903 Q& O0 c8 y+ v& ], d* c4 G3 p
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995# H6 [$ h. W. P' d9 P
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度& Z( G4 B8 x: J9 X/ W* J
    經過算後匹配度 = 97.289 %
    9 T" M! _& H5 K  x- m( W4 I) U由此得知應該算是不錯的選項. O. W* A) C6 N( g- f
    8 G7 w2 n8 Y) ^

    " j  P  E& y+ n+ N& b) {1 P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    , x/ h# I5 X# K; u
    dailiangzhen 发表于 2019-6-2 17:293 Z" w- \7 F+ c9 p% w
    看不懂呀!!不过看上去,挺高大上的
    ! e8 Q1 y% K; h  j, N2 f; P" ]& F
    0 l% p$ K% M; ^$ I& k; ~7 L
    dailiangzhen 兄:9 Z; g# T, l& o) p  [
    沒有
    高大上
    . v# b- J; e' \; i7 L/ l: _; C& O

    + ?( r" `! I% C' D3 i  C' ]只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    5 }) p% d4 k. B+ ^! C/ `3 Y
    oversky 发表于 2019-6-2 18:20
    / {3 u- t+ h' g, q% D) Q& Z如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    ) }6 ^3 q7 p% w- H2 x. x9 }8 V7 J* L+ t
    oversky 兄:
    - F4 l9 v+ j$ o2 p1 p4 O( J* d
    误差在前后一页
    8 P- a+ A/ y$ _1 z  L; e. R# X3 Y
    這個不太一樣& @6 z: b. ~. T4 s, M
    您所在乎的問題是屬處理英文單字排序的問題
    + [8 p" X9 I. A  c: `英文單字排序處理好了 vlookup 不會有錯頁的問題. \3 M  q5 o# b8 P
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    " R  Z& `$ ?7 B; e% R% u
    : k7 F! O$ T7 E( p2 Q" c# v) g7 _2 z& J: B8 H# y
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20/ w/ K5 o& V' t( r6 h0 A/ [. @
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    ( a* l8 W: W- ~2 H, O+ P& U" l
    oversky 兄:- Q. c2 p, H# v
    小弟過兩天再以外研社新英漢詞典 那本為例子0 Q3 U% C9 M/ A, l$ k) v8 c
    計算一下其匹配率解釋說明您應該就大概會了解了
    : O& E6 _! {4 g& t+ V, p
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49! E- u+ X- g& K- i- l# e! D
    dailiangzhen 兄:
    & X9 l: X* P( B9 w沒有
    9 t& ^, {" J* V

    # j! s) e  ]0 _- x+ V+ x5 K大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    ) S/ U( k7 G& l+ v- W
    dailiangzhen 发表于 2019-6-2 19:348 O4 Q8 D  U: u- d( g7 p0 |
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    # |. z6 X9 L5 u

    $ R, F- {: C8 i( Jdailiangzhen :0 @" x- x5 h, ~% z
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    ( f( J" r5 Q, i& q0 Y2 p& e. {若有硬純屬 placebo effect; m  y; v. O% a+ i7 ~8 q
    哈! 哈! 哈!哈! 哈!* W* N; O6 I0 u; t" j4 v* w% E! _' `
    ( U2 L; N* k# L- }  ~4 x( L
    & [" A" M% t5 _" c) z+ K
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    * e: b% {  n2 S1 j
    thresh 发表于 2019-6-5 21:368 D. f0 X/ d5 [2 ~) D% T) o
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...

    & s. d6 ~: k4 T% a
    : b- O3 k4 p1 g# _thresh 兄:: s3 k6 G# ]2 u6 \7 A6 z
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表0 ^5 D) D( S0 @$ v6 ^
    " `6 _; \  ~# I: L& x- N! q& ~

    ( r* c; Z5 c3 W" @  U" g5 ?此是用
    7 a4 r7 x# s1 P' P; s- }5 |" r1. 每一頁的第一個單字集合而成的單字列表 or# B3 a# X* ?# ]1 H% q
    2. 每一頁的最後一個單字集合而成的單字列表 or
    $ E4 c0 V) F# n; k3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數: e9 ^. _5 V' H( F" {$ O3 c

    ' n! C' w7 R1 J1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確1 p6 }. x* o2 f4 y+ c6 p- g7 I

    0 q% G) w$ R" R4 B8 q9 x
    . j1 k, [' v" Q: `' b2 O9 W% p) B
    8 r$ c: G* H6 d然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    8 J4 w7 ~+ E, [0 b4 N有對到的當成是 合格樣品
    1 B. A' j$ C; c& }( ?+ u6 [2 W沒對到的當成是 有瑕疵樣品: e: y+ `: ~& H  X( o! Q8 l
    ! Q. b  i0 P: U" ?% V
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    6 d; i6 M: W3 S+ F* U此可由小弟所假設的例子得知+ \9 }, y2 e. j  N7 n
    # v( T& ^# H- ^7 S6 h4 g& w4 F# C3 J
    此是以計數值的(single plan sampling) 為基準
    # [  I0 q' `4 Z0 t
    8 @, `  A& D0 s4 J! F9 i所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    ' {7 E7 l; M" e. D, y純.......參考
    + y  G( s" W8 ^3 m8 y! y并不需要真的去計算
    6 z6 M* l0 o: C& G1 d8 S3 ]而是了解此現象
    & y* V9 t4 m2 E; b. @6 D把定量分析的性質
    ( ~5 w. l4 c9 f3 Y轉化作為定性之選擇字表的依據的應用) @$ K, c; s* Y4 z
    9 t$ V8 j1 |$ }" a

    + [) _4 ?9 b0 A! s
    . d& N& A, ]* m9 F& I3 y. y5 O* ^  F6 T3 W6 D% \
    * K9 @3 k4 V6 u0 w$ z0 u

    9 \' x( r  r/ h8 b, l- B7 C' l0 I$ y* ^* h
    1 M' e4 V8 I1 t, v3 V

    5 o( t6 p* K# H6 V( N
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    " U2 b% S! o' x6 q7 tthresh 兄:
    7 f  y8 [; c$ E% p小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    ' b7 f# C8 r$ Q3 |7 n
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    % E8 m0 Q4 Q7 Q3 m- x' A7 \5 \$ R7 A: m3 g" F7 s. M5 c% K5 Q' _
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    ' I# c) w3 s) I* C
    # m, U# [5 ]$ y% f' m如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    ' J, r" u) \$ h) ^. e额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    ! |/ ~6 D) Z+ T& x
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑   f8 m6 }% D- \+ Q
    thresh 发表于 2019-6-7 00:03% a) r/ u* T  H
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    " F9 q: T+ l2 E
    ; V" t: J; E# y# m
    thresh 兄:
    5 u! y, d8 l! w# ~2 H: B0 N
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    " d* _. K0 Q: R2 P5 e1 M" _! N% ^
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值( _' u8 M$ Q6 b2 y- V
      - N- Y6 L9 ^/ K& |+ l
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    & o) @; h' P2 g% g2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 . d7 r+ O8 H0 {- N  n9 i" R( u" |' E
    : h/ p0 `  j* H' i2 n
    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    # R; F1 f. y7 I8 ]6 L; x( K( }計數值抽樣檢驗方案及程序, 應也有各種公式的陳列% O- j" r8 j% X0 m
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:413 @, g- {2 f. J0 {+ A; J
    thresh 兄:% Z$ {% b1 u% K2 b/ v
    ' U- R; v* w! B' o% K7 E- O5 i2 e0 n
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...

    6 n$ b1 _# c0 g6 E6 a好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 17:12 , Processed in 0.086177 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表