掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 892|回复: 16

[讨论] Wordlists 匹配密合度(2)進階

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-6-2 14:16:27 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-6-6 01:08 编辑 ( x( l  n* L  I% ?
    " Y' w; @- |8 r
    小弟不才深感各位同好製作辭典之辛勞4 v; K' X- f# N- c" l$ N" F. V
    只因幾個抽樣概念欲與同好們分享
    : o5 u1 x) ^) z% _若用抽樣的 Defect Rate 來看匹配密合度也能有所答案# x2 {# S' u: T5 T; e& {
    假設如下:
    9 b2 ?! Y" T0 @詞首表單字有 3000 個 (single plan sampling) 若您選定的 4個字表的 Wordlists 都是 20萬的字表 (所謂的 Lot Size N)0 x! U6 o$ i; Z# e  P
    而經由 vlookup 在 Lot Size N 分別對映到的單字數 a (Accept Number ) 分別為( ^5 d, S* y- J& W
    a = 2000 ,2500 , 2800, 2900
    ) x) V4 j: R- s+ u- j
    3 i7 I' o  o" C. e2 L2 ~2 cAQL=acceptance quality level& t1 B& X4 e7 I/ [$ Y6 R# E
    LTPD=lot tolerance percent defective: q2 i3 _- s7 M, X
    AOQL=aver outgoing quality limit
    5 u( u7 v" h$ Z. Q" `/ AOC=operating characteristic curve
    % A( J7 R' u- ^8 `! lAOQ=average outgoing quality .............後面的幾張表為 AOQ:  請留意一下, 當達到某個值時幾乎為 0 Loss5 x3 @$ z$ v# a8 D* ~5 U! ~0 [
    也就是說以 L(Q0)=95% , L(Q1)=10%......(Type I, II) 的失誤率是相當低的+ w7 j. Z, a- _0 @; v9 e  I! Y8 p. d

    8 v$ T0 Q! I5 d* z6 r# A' j倘若把 Lot Size N 當成是未知數則計算出的值應可為對那辭典匹配率的估算值.......詳見10,11樓 ; y+ R; C9 s* k# X' u
    7 G& h$ V) r0 s4 ]' e+ o3 P
    若把 AQL 當成 匹配率
    / w" J% k: u) i4 l2 pa = 2000 , 65.3%+ c* p) a' n" I$ b
    a = 2500 , 82.2%8 N3 x1 r$ Y4 C. ~" ?& ^) {6 T' O
    a = 2800 , 92.6%
    . P2 D( W7 N0 I: j; X; H" ma = 2900 , 96.1%( o* j& D. y( U$ ~4 Z: Z& q

    0 A: R9 W& L5 R誠如 Budha 兄所言此法並不精確, 純亂槍打鳥, 小弟思考在三, 此法....應該不屬...奇技淫巧.. 之範疇
    同好們多加指正......感謝大德% v/ k+ Q6 t8 z& S! V" U
    此法僅僅是只能作為沒太多時間製作圖片式辭典的一個參考依據+ c  r! Z0 @" G" Z( d1 ~4 X

    * x6 j/ W7 `) P; K3 X5 g8 M1 ~( s7 _0 d. L! \& m
    - ~* ^9 M  V. I0 x/ V+ {
    1 S0 v6 S8 s; k. c
    " ?" k( {: p1 N
    PS.
      k9 n; ^  A1 q) y6 E. ~所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已! O7 Y& C5 n2 X2 {( i" q. N
    純.......參考
    ! e2 z* e3 v5 X; ]- I0 _7 v并不需要真的去計算
    + Q/ R* r; s8 J6 ]而是了解此現象$ s6 t) ?5 @; {: R8 t
    把定量分析的性質% v% P% _; A% {$ i- y
    轉化作為定性之選擇字表的依據的應用! r; K. `; D, h3 \) o+ c6 e! {

    # I' s+ z4 \! ?3 u  X8 z. {
    ! I7 i5 _" u# n1 v6 @3 O! Q3 ?0 B; _8 E" Q
    3 X+ Z4 [  z& ]0 J5 M, E' q3 V1 L

    * G' y. a5 J/ y  z
    7 C2 G. ?5 t  L7 W5 V$ E. O  M6 h1 S

    1 u* j/ q$ S0 l$ Y3 M
    2 K" q) R0 R7 u( o7 j/ M/ b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:01:42 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-4 17:11 编辑 - @; G) K4 m" a% D* B8 j* B
    oversky 发表于 2019-6-2 18:20
    * k) h" |  Z( a  j  I3 g如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    & i2 q* A" a) a9 }6 ?
    0 s( E% R$ S* X3 D: F  U
    oversky 兄:( y% H7 H- e$ R& O2 O
    外研社新英漢詞典匹配度大概如下:9 t8 Y% P( h' K. g
    共有 1795 頁.....也就是有1795 個詞首單字....Sample Size = 1795! d/ U- P) m- k, _
    因小弟是用 72374 的字表去匹配 Lot Size N = 723741 _" J& O& D8 w2 u: i/ v/ @1 E
    但因 1795 個詞首單字 在 Lot Size N = 72374 只找到 1172 個.....對映到的單字數 a = 1172
    0 ]$ Z/ l& ]+ s# F% r9 N6 r但因不知外研社新英漢詞典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    ( {# ?% F( L( }0 c& d' ?& ^經過算後匹配度 = 63.445 %
    # I% E( N- W+ }由此可知選用的字表並不佳.......
    3 |3 x# G/ X" e( t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-4 17:34:11 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:13 编辑 : `& i  s/ y' S# a
    oversky 发表于 2019-6-2 18:20/ v0 P; E4 H- v( n2 x! d+ |
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
    3 |8 g! _" P( ]% v" z4 i; V

    8 S2 Y$ d; F# w  ?) G* h( j  B  W2 Eoversky 兄:
    6 @# u( V! ]8 A# u' l3 w另外考究其另一本字典朗文當代大辭典 , 也因有發燒友急欲以朗文6 的字表去匹配其朗文當代大辭典
    , x7 W  H6 |. m
    & R& T7 |6 u" w, w2 H/ K朗文當代大辭典詞典匹配度大概如下:
    1 P9 |# \1 S5 j辭典正文有 2039 頁.....也就是有2039 個詞尾單字....Sample Size = 20395 |. R6 n5 _% Q9 g+ W/ V7 R: }2 R
    因發燒友提供的字表處理一下是用 62190 的字表去匹配 Lot Size N = 62190% G5 j) H8 s3 h7 V+ U2 R5 L
    但因 2039 個詞尾單字 在 Lot Size N = 62190 找到 1995 個.....對映到的單字數 a = 1995. M  W2 f% E; a3 l2 o, B
    但因不知朗文當代大辭典共有多少詞頭把 Lot Size N 當成未知數來算其匹配度
    ( B& P* v6 D. A  j* N+ Z經過算後匹配度 = 97.289 %' s- Z4 ]/ G& T# E% z3 c
    由此得知應該算是不錯的選項
    , h: Z# d! y% C$ B% I2 \3 h7 P, E, |8 U  a6 j9 h1 A

    # ^' }2 ?. @7 Q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    奋斗
    2022-10-21 20:59
  • 签到天数: 282 天

    [LV.8]以坛为家I

    发表于 2019-6-2 15:25:59 | 显示全部楼层
    太深奥了!哈哈
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 17:29:04 | 显示全部楼层
    看不懂呀!!不过看上去,挺高大上的
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 17:49:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:01 编辑
    % Z' C* |0 d7 `- C$ R' s8 o
    dailiangzhen 发表于 2019-6-2 17:29& Q( ^4 }9 }5 ^, _4 y# c8 R
    看不懂呀!!不过看上去,挺高大上的

    % M/ @% b3 ^  Q2 O1 @! I$ g$ K/ V6 A: Y8 t& w4 z
    dailiangzhen 兄:
    4 {# f, ^1 v6 S沒有
    高大上

    1 ^2 j& Z4 H: z7 u* ]& H0 a' p" z6 t0 X
    只有小弟純脆在話(畫)唬爛  
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-6-2 18:20:59 | 显示全部楼层
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 18:49:08 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-2 18:52 编辑
    3 Y; o" |8 u. f$ A6 ]8 Q  V1 w- b
    oversky 发表于 2019-6-2 18:20
    . ^# q+ h7 M$ ^8 v如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    6 h% n* d7 g$ }
    / a+ S3 A5 Z1 {; toversky 兄:: r6 n4 z; V0 k. t* p2 Y# R
    误差在前后一页
    " |8 M% B2 n1 i; k2 x
    這個不太一樣) f+ ^3 u2 c9 B2 W8 G8 x
    您所在乎的問題是屬處理英文單字排序的問題6 A% c  z/ a7 z* Y
    英文單字排序處理好了 vlookup 不會有錯頁的問題8 O; w- |2 F: I; k. Q. i: J
    小弟這個是屬沒完整字表而去配那本字典.....屬就以字首字表當成隨機抽樣的樣本在您選用的字表若有擊中幾個, 則匹配率大概會落在多少百分比的情況
    - R7 f' F: T2 W1 X5 J. Y) P$ k& G3 y
    2 \" u  i7 z! r& N3 o) m
    3 l0 E. O: J0 ^! `5 v) Z: @
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-2 19:00:38 | 显示全部楼层
    oversky 发表于 2019-6-2 18:20; g+ @9 A8 @- ^2 Y
    如果以误差在前后一页内为可接受的范围,那对应的匹配率要在多少以上?

    6 j0 F; H: ]" ~0 u& {- x# M3 roversky 兄:2 a; q( P" }3 N9 c( |2 f
    小弟過兩天再以外研社新英漢詞典 那本為例子
    ) X8 b0 U1 f9 U4 X7 z- q& ~) l: j- O計算一下其匹配率解釋說明您應該就大概會了解了
    ; T- S6 g: K+ I6 ~% j1 F5 P, f
  • TA的每日心情
    开心
    2020-1-1 11:32
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-6-2 19:34:58 | 显示全部楼层
    喬治兄 发表于 2019-6-2 17:49  N" i) e9 ^/ v3 w
    dailiangzhen 兄:
    # b: [3 o5 G; O4 L) e1 b. o' t( V0 N沒有 : \- H8 W% Q" Q  }; t8 Y
    . O; ?1 f3 i1 }5 u( q: o/ j# k
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-3 18:32:44 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-3 18:42 编辑
    3 Z/ H: E  k" I, K9 i  @4 y: C
    dailiangzhen 发表于 2019-6-2 19:349 d. ?1 \/ r* Q; A% O9 a7 C5 r( G
    大師,謙虛了。一般厲害的人士,都是這麼說的 :)

    7 U# M* G  s5 Z, Y" F$ j  P2 }( T$ w. B8 G8 r2 h1 H: u
    dailiangzhen :2 M: u. C" b. f+ \3 m
    仁兄謬讚了,小弟純胡搞瞎搞, 純話唬爛另外添加狗皮膏藥.....貼了不會好, 吃了不會硬....不具療效的方子
    9 t- D6 A) t$ W$ {+ s9 Q0 O- ^若有硬純屬 placebo effect) a* O! I, v/ a& I; s
    哈! 哈! 哈!哈! 哈!5 S0 F/ b( h6 A8 Z; W
    / g( r7 l7 d) w) v8 U$ o) Y& _, f

    ' u0 q. T/ s4 u
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-5 21:36:25 | 显示全部楼层
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一个有标准的选取了?请问这个以什么为宜??
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-5 23:30:31 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-6 00:58 编辑
    , ^  l7 {3 `1 ~( \# _
    thresh 发表于 2019-6-5 21:36; G+ J9 q) q+ \# R/ _! T2 E
    这是根据3000基本词表去匹配wordlist还是根据wordlist来反过来统计推断??那wordlist的选用本身就应该是一 ...
    6 @/ [" S# z8 f! {

    ( |; F' |8 M5 B; \1 d' T$ ^! k  `# ?thresh 兄:
    9 J1 N5 C/ W: `  [0 B/ [0 l小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表
    $ m& L3 ?( ^. x+ n$ }  w' }) J7 V

    8 b- {2 H. W, j! L: e6 C$ V) b8 [此是用" f2 J- ]( y- N9 l# E
    1. 每一頁的第一個單字集合而成的單字列表 or9 j+ I( L+ _) g' Q4 p1 S/ f
    2. 每一頁的最後一個單字集合而成的單字列表 or& C8 g4 D% Q: e  b. f
    3. 每一頁第一個單字+ 最後一個集合而成的單字列表 ....的單字數當成是隨機抽樣的樣本數
    ) m! q8 Y$ i5 m9 O  E/ H! U0 H, ^4 l5 r8 u0 z9 C9 x
    1 or 2 or 3 .......都可........隨著樣本數越多估算會越精確
    4 g& @: p, L7 I( z7 O# |8 K: T1 Q. K) P
    + A0 M/ h/ v1 m, [; D8 u. K- f3 L% g
    7 E" g* c; E* E/ c( b
    然後在你所要匹配的字表中( wordlist )看看能找到幾個......此為 a (Accept Number ) 合格的樣品數量
    8 G2 M* U4 E# J* \0 `& N有對到的當成是 合格樣品
    - h: S- E( }" t; F6 H& Y沒對到的當成是 有瑕疵樣品* C+ A7 I2 ]! |; o9 K4 k+ g, k

    3 ]- d/ ~" \2 K# h- \( S; N5 C: i7 [此也隨著 a (Accept Number ) 合格的樣品數量 遞增而匹配到的機率也增加
    8 f# |" y* C# x- q7 g# R. y此可由小弟所假設的例子得知
    / [) h* F1 t( T6 Y) _
    ; _/ ~9 s/ f* K2 Z. J0 ]3 L4 s7 w4 p: p' O此是以計數值的(single plan sampling) 為基準
    . d7 e3 Y- Z+ e" j' h7 ^2 s. |0 r, R! j- M9 i% c) O5 J
    所有的解釋只是想陳述由此概念來選擇匹配的Wordlist優劣而已( d6 Z+ O' v7 B8 }
    純.......參考
    / X6 `+ X: W7 \) k) P+ O( W  {并不需要真的去計算0 _# H1 S% Z3 O) `( n/ o
    而是了解此現象
    + _# l  J3 o' @/ s+ W0 k把定量分析的性質
    % z2 T) [0 p+ C- o6 p轉化作為定性之選擇字表的依據的應用
    : z7 U' |, _" G; Z$ b/ l) p3 t$ Y& |: l9 V& h+ g# E6 |; b

    0 Z. A! d. G, V0 v6 r. n: }7 F' p, B& I% d, ~$ Y( V; N, |

    # c# `: N$ D5 T! m: x# u$ l
    ) r  R5 E. q% N' B; u$ q% B1 L/ n: B9 V. W! ^/ I; `0 Y% `
    * Z; P  i5 d9 H9 i+ F1 z
    ; q- M/ S& b+ V2 l- v) L/ O8 N# ^

    ' h; ?) F$ l0 p2 @, c& _$ Z% H, D9 [
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-7 00:03:48 | 显示全部楼层
    喬治兄 发表于 2019-6-5 23:30
      E: R' [8 ]0 R4 v/ @% {6 O, vthresh 兄:
    " d9 u- U) j4 d3 _, |- v0 C6 q小弟那個3000是假設有3000頁的辭典正文而非 3000 基本词表

      u- O8 r- z$ R. L  N: L额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如此字头的,譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?+ x+ }" u+ e9 ], Q" i
    4 g# ?% W5 \) p3 k- U9 m
    另,如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?
    ) }4 N& Z! B0 I+ w4 L8 [
    1 |( m. C7 ]' k2 d8 d6 J如此疑惑颇多~特求教于兄
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-7 10:27:02 来自手机 | 显示全部楼层
    thresh 发表于 2019-6-7 00:03
    ! B5 ?* Y( m# J7 l. `0 E额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    % _: j, X2 N9 P. J- j2 h/ {+ Q# d老兄,因人在外地,也沒帶電腦,待回台灣再詳細的跟你解釋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-6-9 00:41:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-6-9 00:50 编辑 * h: X& ?! F. ~6 z, p% H$ l9 b
    thresh 发表于 2019-6-7 00:03
    . Y" ]- q1 R( i额~明白了。这可以理解为您主观设计的一个统计参量~您设定的1/2/3里有一处不解,就是您是如何考虑采取如 ...

    6 o1 J  k) w8 ]/ B4 w# j! E3 g! L& p6 U+ J' t: |* ~
    thresh 兄:. o8 F  Y/ ~0 s5 H# x
    譬如,某些小词例如 in 、some 等占用页数颇多~如此是会造成其统计频率下降,而评分相对较低?
    6 w% _4 |' ?: e# a
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Level ) 所估出來的值
    " g  G0 B" s' c  
    + Y: Y9 m$ M& O: D# b  L: ^
    如果能OCR一本字典,那何不考虑全页所用所有单词计数,进行统计匹配?   
    9 r4 n6 h' O: \/ y/ c
    2. 如果能OCR一本字典取詞, 那就不需考慮匹配度問題, 因是 100% 全匹配   p: E7 h! Q( \( V
    2 m  F8 }# o* U7 b( a+ V
    若對計數值抽樣有所疑問, 可詳參 MIL-STD-105E 抽樣計劃 , 內有詳細的
    - e  a6 p! @/ z計數值抽樣檢驗方案及程序, 應也有各種公式的陳列
    & S2 t7 Z7 d0 R+ N
  • TA的每日心情

    2023-7-4 23:24
  • 签到天数: 390 天

    [LV.9]以坛为家II

    发表于 2019-6-9 02:15:05 | 显示全部楼层
    喬治兄 发表于 2019-6-9 00:41* ^! [6 T" G) S$ u& `5 S( F2 I
    thresh 兄:
    % `+ i8 f. A3 l& m9 ?7 Z7 P/ K2 |8 D  q, Y3 [# D! i$ g7 }: m! q
    1. 這應該不影響其估值, 本來抽樣就是在一定的信心區間的水準之上( Confidence Interval Lev ...
    / j# K7 S0 r6 i: L, t# B
    好的~我抽时间先去把您给出的这个相关资料阅读了,如有不懂再行请教。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 08:32 , Processed in 0.068297 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表