掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 878|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑
    2 A9 }# O+ d# T7 h8 f! @# Q2 D% Y# C# o  Q1 w
    小弟不才深感各位同好製作辭典之辛勞
    3 P( U7 d4 ^- G) m# _只因幾個抽樣概念欲與同好們分享
    6 T* P3 t& j! A5 ^6 j若用抽樣的 Defect Rate 來看匹配密合度也能有所答案, J* |1 m4 }3 Q' E; y8 N
    假設如下:4 ]9 s  D: N3 [+ A& J
    詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)
    , X: r7 y& J8 E4 t, a* G# z( x而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為
      w" V! K& p  @, Ua = 2000 ,2500 , 2800, 2900
    2 G+ V/ x. ?3 k- d# [( _1 [: s& U  s
    ( j6 v2 c/ l  i' z! IAQL=acceptance quality level
    , Y* _. a, a2 @7 Y0 A% C- OLTPD=lot tolerance percent defective
    6 T( E2 w. |8 z8 yAOQL=aver outgoing quality limit8 e) a# g' H9 R0 M: x# Z# v
    OC=operating characteristic curve
    " U! V2 E) K9 }- }  k+ t- yAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss
    $ D) X7 H' E- l& M也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的' R4 y: U& P$ ^3 L4 Y
    % g4 K8 J; M- Q3 Y. Y2 k8 K! ^
    倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 0 {7 W- ?1 h+ F% e

    + f  s7 j5 o: Q" Z若把 AQL 當成 匹配率
    , ]" A% w/ P% D; ?. Ua = 2000 , 65.3%
    0 Y- U5 `- T8 E5 Y0 q& H, aa = 2500 , 82.2%
    . w; i3 p7 W' K; H! D' C  fa = 2800 , 92.6%' Z" r: Z1 e6 v! |
    a = 2900 , 96.1%2 j# s6 u4 `. Q. A9 D5 x2 [' w0 G- p* @$ s
    ; A( T& u/ d2 B( C0 b
    誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德! y* t/ K$ I8 L2 g* G5 a9 m
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據
    + E0 W) s8 |- k! }6 a
    + T/ j% ~. H" H8 d: W) T/ C; G4 R/ X3 A, e( \- [

    & t) a$ Z% ]! p* Z: }4 ?( q
    / @/ ~6 s' |$ Z  C6 \. Q% p$ D
    . g* U0 g' W/ O7 w
    PS.
    2 H. g1 O8 b& b所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已/ V& g: N3 J- N' x$ k9 Y3 P" B9 k0 k
    純.......參考4 v2 K: ]" H. H: R
    并不需要真的去計算0 K/ m% b( q+ V( G7 ~0 [
    而是了解此現象# t; ~( m4 R+ M. ]: w: |) \! {
    把定量分析的性質2 S% q1 v. d+ ~5 S9 J
    轉化作為定性之選擇字表的依據的應用( x& M$ f$ ^; f/ K
    " q- N( P0 [7 W. a  w# E
    - F5 b$ s6 G& i8 j1 U

    * d  _& ]+ y1 ~5 E  ^" H+ V; G5 B0 c/ q: J3 g9 c! H5 d. K% m

    : b/ y( I3 E. S- k  _+ V2 K- r2 O3 K$ K& P! r

    8 |% N- Q) @5 V" ^# o5 y3 b2 B; T2 I
      ]  p; `1 m8 T' H1 n6 [. j, e1 W0 q4 i, i8 _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑
    $ B$ i3 n. s* x
    oversky 发表于 2019-6-2 18:206 a0 S" v* [5 S2 X
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    6 c  [- g$ d3 H. I6 s# t: c1 Y
    ' p( G4 u$ Y* U6 R3 [; z9 X
    oversky 兄:2 t6 [- @' W+ R
    外研社新英漢詞典匹配度大概如下:
    ( E& W" o% t6 e0 r, f共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795$ W( Q9 M7 `) o3 s3 ^7 t
    因小弟是用 72374 的字表去匹配 Lot Size N = 72374
    / K* P* i) c0 y: ^( [8 C但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
    + i6 Z. B/ g0 W+ G但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    6 Q8 N& t8 a' Q3 R7 u經過算後匹配度 = 63.445 %
    # a! ^- x% N! J( z! x' }8 |1 H由此可知選用的字表並不佳.......
    1 R$ _" P+ z) ^

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 - i- H6 H9 s3 n! J# L$ J
    oversky 发表于 2019-6-2 18:20
    ( l% p4 U3 a; ^如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    # R: J1 Z0 J8 F
    " O! V- g$ Q5 q6 Y6 Q* z# G
    oversky 兄:( d3 G4 ?0 T0 H3 ]  R. V! T" z
    另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    # s9 ^- I, t5 F0 C3 }$ I  I% f5 K" ]; d- N1 l7 Z" q
    朗文當代大辭典詞典匹配度大概如下:
    - C" D$ N/ q* N$ n辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 2039# |! F2 U6 M& ~
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190+ @- A& X; d+ ^2 z7 N/ r
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995( ^5 ]+ C1 [9 n3 b$ X
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度) k/ I9 j6 ^+ b8 M
    經過算後匹配度 = 97.289 %* F$ ]/ \6 x2 Q" E" m0 m
    由此得知應該算是不錯的選項3 J0 K; D% \0 L- h$ y
    , f& q" m) t8 P' [

    1 A5 m1 w  r7 d6 T: @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    1 ~+ S5 V' H2 o6 Z% u
    dailiangzhen 发表于 2019-6-2 17:29  v5 E# A" G, h+ B5 b% |' K7 K2 a
    看不懂呀!!不过看上去,挺高大上的
    0 ?* \1 H$ l& X, |1 _

    6 \$ ~4 `$ @0 _/ j9 Z" Tdailiangzhen 兄:3 z* h3 A8 v& R" j
    沒有
    高大上

    % s) n, S+ z' P) Y( H; _
    ( }, L3 T& Q, `1 d只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑 6 y$ w: V9 ~! U' \7 |# b% b
    oversky 发表于 2019-6-2 18:20
    ' U1 p6 |/ |$ @如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    # h/ r. q  A) c
    : D7 [1 {( Q' b/ t# g% L9 P% c
    oversky 兄:9 j: y8 f. j# F4 S7 W
    误差在前后一页

    5 x5 e1 j' H* P& F& X% \  w. L這個不太一樣
    . m4 @' I  y& U您所在乎的問題是屬處理英文單字排序的問題
    . _! ^/ K  U' B( v0 x' {3 |英文單字排序處理好了 vlookup 不會有錯頁的問題
    ' c! d( p# Z6 \9 F4 j小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況( q( V$ e: d4 Z

    ' k7 v2 K$ s% z, H( G$ }# P( P
    : m0 x8 B9 e7 Z! L6 t/ m
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20
    7 b5 l8 X: ?& V2 `如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    2 N5 r( ?; i; M. }oversky 兄:3 |, T* `% v8 I/ l+ e; n
    小弟過兩天再以外研社新英漢詞典 那本為例子! D; E& Z3 D; z* L: F2 [
    計算一下其匹配率解釋說明您應該就大概會了解了% C: l/ z$ F2 P  D3 P6 z* U" e
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49& n+ f" u5 m. O+ c9 w/ e
    dailiangzhen 兄:
    ' C( J* H& F1 A7 T% d! N沒有 ; e! M9 u# w: l: I) R

    2 v. a  v8 `8 ~; j: |, R大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑 9 O% @( _8 F+ J/ t9 P+ g
    dailiangzhen 发表于 2019-6-2 19:34& A$ |  t, C: k, B$ P/ w1 q
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
    8 e7 j+ b, E. k; F

    7 n; B* [9 s  T, T2 ddailiangzhen :
    2 h- E) m2 x' b* f1 @' m仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    / {) R; t- c5 ^4 Q+ t9 y' p- e若有硬純屬 placebo effect8 b' Q" ]! f% \
    哈! 哈! 哈!哈! 哈!4 d* Q& \! I; ^& w: [% v1 Z  b9 t6 T

    3 |+ j/ p# w) q% f1 c- a# E( ?- R% _) W! A
    # v+ Z$ n" _1 a* m6 V& o
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    " e& p. ~8 d5 {
    thresh 发表于 2019-6-5 21:36
    + l1 |/ B! `/ {8 d: [$ o这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...
    # [2 \- l8 r  p

    + y$ {0 m( S# b: K: f+ C" Cthresh 兄:
    ' l0 Y' u- ~) P; [* n小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表; J2 t6 ^: r  |& T8 l

    7 b2 T9 A, C: t
    9 H2 i" ?& x0 y# S6 g1 z此是用
    + `0 I" D/ _" f7 g( Q8 |2 d# k1. 每一頁的第一個單字集合而成的單字列表 or; n, G+ n2 y  h6 x- C; m0 E5 K
    2. 每一頁的最後一個單字集合而成的單字列表 or3 w: N6 ^7 G: w0 ^. t% O$ |
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數9 Q2 N) u4 g# ]6 |# f- R+ Z
    6 u8 t8 H- M+ ?* u
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確7 O; b5 b' }" }: H) `) L( ~

    ! g3 ~, E6 q! W2 l7 B# k
    * `$ L2 q8 J5 C' h! z% S0 C: ?7 K2 |! z% m8 F" {+ h" W
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量$ ]$ }5 N: D, ~+ [: W: ]
    有對到的當成是 合格樣品
    $ c; o+ |& S/ h- M" ?4 |0 Q" I4 ~沒對到的當成是 有瑕疵樣品0 w# p. [. h! h; n
    % O+ O5 n+ o$ M  A9 F! X  ^& A
    此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    $ W6 L, A, j4 n0 ~" v- z: W7 E  u此可由小弟所假設的例子得知
    1 E. @( B- N: g3 ]* W
    5 s* o( ^! X) m! O此是以計數值的(single plan sampling) 為基準; {, ^  a, E& L/ V" f
    ; W4 H* E6 R# d. z) ^
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已
    6 P0 @. D+ C# U- k純.......參考- U" l+ l; e4 o( R) ?) Q1 ?
    并不需要真的去計算
    * q$ ^" c/ N. t" l4 }' d8 q; s而是了解此現象
    ' a4 _9 e# f( G! x- i把定量分析的性質1 E1 q9 I6 J$ I( d4 T
    轉化作為定性之選擇字表的依據的應用
    % K  U* G, x; q' R$ H/ K+ u! b9 t+ _4 E& u1 Q+ H' X' A) {

    8 ~  j+ |% c. Y3 g) Z9 y$ ]; @
    / i! U6 G! v* r5 t3 c7 c9 g5 u+ n$ X
    # v" \5 |1 A2 b3 o0 g$ @' b7 a& h) G: F/ p

    - p# L2 O4 H) T: U( k9 E1 n& ]& k# O8 g& h0 d: \% p. c) Q4 f, S2 [4 j
    ) R+ s  U- i* v  v8 i$ j' e0 Y

    4 L1 f2 @4 p$ z3 |
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
    + C. ^# R/ a5 \) f' }4 B; Nthresh 兄:5 B/ Q+ ^# b9 Y2 T/ s* S
    小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

    7 |8 J& K4 S9 \* ~. e额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    1 k* R2 y- D1 J/ X3 \: Y/ O
      g4 Y* [( H- z' C1 Z另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    : j6 g+ a- _9 H' L* @
    9 X9 @3 u0 F8 t) s1 A0 k  t如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    1 z9 R" a. F& d0 \) \. o0 k/ `0 m额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
      [, |  M/ d7 Z7 _8 S
    老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑
    , x* a( M1 c' {9 \. ~4 c% X
    thresh 发表于 2019-6-7 00:03; p1 J6 z8 [. b6 O' @7 K
    额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...
    7 }! c+ D$ O; Z& w( d  w  z* Y
    2 g7 H, m# D0 B! L& |$ j
    thresh 兄:. ~8 O7 J! r" q: a6 A1 W, Q$ t8 X
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?

    4 @8 A8 V# K# m8 _5 j& s5 d1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值6 a6 E" U  H2 {5 o
      3 M# O/ \7 \$ M( E& o
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   

    + M* B! J% \1 h$ U2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配 % ]  O4 x. `  g

    # p$ n5 D" G& k- l: V  F! v0 q若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的. t. S( l: ^" }, F) }
    計數值抽樣檢驗方案及程序, 應也有各種公式的陳列5 a& \1 u7 m& N  r. I5 N3 V
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41
    9 d5 z! S6 l4 d8 [- W5 pthresh 兄:  c9 B: U' l* Z

    4 a/ o) v% `/ Q$ _9 P; X1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    1 S+ \; j0 P9 K9 U
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 07:58 , Processed in 0.049247 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表