掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1361|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
      V; f1 C; P; R; t+ d$ ?
    " e/ N. K8 Z. V/ f0 P, W辭典詞彙量估算匹配
    / e% {' m8 \8 F. E/ y) @2 w在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    " z6 ^# n# @5 ]延伸此點交代不清之處
    0 E8 n& K* }$ ~https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    6 \4 W/ _( }. J5 \1 ^0 w1. 要先預估其要製作的辭典的辭彙量, $ R8 v( K7 _& D8 @* [! N' h: g9 g
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
    - Y! w" t$ g) @- j+ X" ~   可能辭典序言上標示的辭彙量也不一定正確
    2 \: d) k2 i5 b$ x   此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
    . a0 Z1 h  R6 ^, b! h8 Q* f# g! D   算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量1 F9 z/ ~  m2 A7 p  X
       保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧; Y" ~( l1 L- T( _) O3 M$ c
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    / M* r' ?$ }+ _5 b   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
    # U' Q1 k* r* o. S& L
    8 N( L. z7 H2 L/ xP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    , Y6 |  {) J1 ~! V3 w9 f! X效果真的不佳; H9 f& ^% \  M) D9 t/ c  O% x
    此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁2 N  U# \- q2 e. H. E3 s/ |
    也就是說只要配到 26萬多就基本含蓋了- y8 z0 Z/ w3 p/ Z5 G5 I& x
    不需用到 47 萬多的wordlist 來配
    7 R  j8 C; }) J6 T' s其實用平均值6萬6 以上配, 應該是效果已不錯了+ _* L7 W' W; q" Y' o. z7 @5 i
    僅供參考% F$ r: p7 E% a
    每頁匹配多少詞條可用 countif 來算
    # R) U+ l8 Y6 V. a8 }比較一下每頁的詞條數和匹配的詞條數* `* }  W5 n& A0 B/ I% n6 y
    若是各依其數具計算出來的平均值和標準異差都很接近
    ! K1 X! w6 {9 j0 z那表示你應該匹配的還可以吧
    % B3 f* l: f( z4 T/ X3 g- l# A* V  i5 i4 A* H4 j* X; N
    辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    ' s" [6 v, b0 o6 _; \(書頁詞條數-匹配數)<= 沒配到的詞條數- Z$ c% j3 F% K7 d% f. z  `4 W
    沒配到的詞條數算出平均值標準異差.......各乘上頁數
    . V; X+ O3 E4 E7 E* {, d* [7240 , 3726. `" Z- w1 r, ]7 P% c
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數: F& J7 ?( E( i9 E8 g' r1 R
    所以用 66595+7240=73834.......大概都能配到的平均值
    1 r$ `3 b( `2 P% j- A  ~; p若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=850131 C% u7 q' g. e$ S
    所以 min=73834  max=85013
    & Q' }7 M! v( J" i$ a% B: K& a: b4 [9 [+ {+ L! \1 K  X

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑
    4 g; I0 d6 G$ @' J
    0 e* r* L9 c: I7 G4 ]5 W% m4 X第一个想法) W( }8 ~7 A; n, P. b! F9 N
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。( N* W0 ?$ k' Q/ s. ]+ n- M
    ! C& D9 q9 s5 H% I* s* ~- o$ D0 }
    第二个想法, f1 w3 C/ N$ B. ^! ^$ k
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑
    ' G+ T( _* u( B. ^, ?1 Y' k
    oversky 发表于 2019-3-21 18:08
    8 _* @5 W. E+ X6 x; M. J可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...

    , C4 ~' h+ j: L. K! T0 m2 g' m/ ~2 F" U# q5 y& S
    oversky 兄:3 m4 I: N3 r5 w6 J5 @! `
    如此就不是隨機數了8 x. y! m$ _4 Z9 w+ F
    其實是不需如此, 因標準異差值本來就是設計來估誤差值的
    ( }0 s8 c3 T4 k. h3 X: R當您用到6萬6去匹配基本上50%的單詞都絕對配到
    5 [. a' d: Y( }2 H0 U- g7 r加一個標準異差的量13萬2就68%以上都絕對配到. B9 B+ h5 `9 u7 o- p
    加兩個標準異差的量19萬9就95%以上都絕對配到
    2 @  p! I6 Q9 }* N" z& w  ~加三個標準異差的量26萬5就99.7%以上都絕對配到
    9 J& Y! `$ g& O* ~而且這是雙邊機率值
    5 x4 A6 Z4 {% O若單邊其實機率值更高
    6 j9 E9 d. {' c3 `- j真的也不太需要用到加三個標準異差的量26萬5去匹配
    # k2 h5 v) @; Q1 T2 V* N1 v* U- z% d/ u# r" f
    倒是可以考慮把幾本的 wordlist 作張表把頻數填上; t3 `/ A( K& P4 Z! y
    用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配
    " Z* c, L: G- F, ^2 }9 v* l重要的單字不漏也不至於多配太多和漏配太多1 M% S/ J; w* c8 ?" u3 `
    可能命中率更能提高些
    " e; u1 e- P$ k- E% E4 U! ^4 s也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配2 M7 B4 q, P) R, `1 k, l# y9 W- k
    / e; f1 K* d9 b3 t: v# ~
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑 + M$ f* t3 K* H9 }
    oversky 发表于 2019-3-21 18:083 u6 {/ J3 I0 L/ P
    第一个想法/ g0 ~5 [6 M; f$ {
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    - _' g7 z- ?1 u. v3 ^$ s8 ]' J9 |7 n8 \/ z6 u* T  r
    oversky 兄:
    $ G! D: Z$ `3 J! I8 q. [9 g& y; f剛又想了一下檔案和圖都改了好以次- W2 h+ ~3 k# v0 K* Y5 B9 {+ O( Z# ^
    後來的預估模型應該是比較合理& Y4 K" r7 Z. l0 ]  w8 v
    因若以每頁的標異差來估" o- |# v# V! `  `
    數量一定會膨脹太大% s( b. R$ t* r  F% D! H4 n
    但若以沒配到的平均值和標異差來估
    9 k, ^& D7 \1 q: _/ C& b且加上則數值來看應該是比較合理- [8 o* K6 @& z: s3 S

    $ l8 D6 W: A' ?( e8 ^/ L
    ; t" V" r0 j& u; o& D3 Q2 |" W) v, l, T9 y( o: r, \( l
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:334 U* ^) p2 z/ S) Z: N! x! ]4 N# b
    oversky 兄:, }8 V6 [# D# a3 v+ I) O+ q  v# I) V
    剛又想了一下檔案和圖都改了好以次) h, [7 \6 r; Y6 S! M6 g8 l
    後來的預估模型應該是比較合理
    : E. L& J$ E# l( ^% h- j
    好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 12:42 , Processed in 0.189091 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表