掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1716|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 9 Y5 `+ v! }8 L# |# ?" b
    ) ?3 [' Z: D$ [, D2 U1 c2 ]# [4 r
    辭典詞彙量估算匹配
    8 s" P4 e+ ?# k" M8 J1 r, U$ n4 q在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    " n! o/ n- a- _) E) N$ F3 h- Y延伸此點交代不清之處) w1 O% k( H4 v3 p$ B- U
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=& e& z2 M; W$ U, q: U
    1. 要先預估其要製作的辭典的辭彙量, % v" j' f- \# `
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
    # d* _) z8 [; T* e   可能辭典序言上標示的辭彙量也不一定正確. d$ `; p9 M( ]7 w6 y
       此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數0 h' q0 i" b' K3 b  o9 ~
       算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量0 F" `( d( l7 q4 K6 b
       保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧
    / f- }5 b1 ^2 H8 x+ c& S) u   因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    ) _( q* v" `: U+ B0 d$ K2 l4 o   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找$ f) |+ H1 }4 \) }! I# J" k6 U; G0 N7 |

    0 Z" A0 n* w- E$ j2 N' }7 n8 DP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    * ?9 p7 v- F' z3 X  p) ^效果真的不佳. R5 e$ a0 S# y# I4 g# x# J* U
    此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁' N+ M& P0 L" j5 L  a
    也就是說只要配到 26萬多就基本含蓋了  h6 E5 y  k; a' X' H
    不需用到 47 萬多的wordlist 來配
    ! q! X- B2 ~2 Q其實用平均值6萬6 以上配, 應該是效果已不錯了/ g5 v0 D4 @8 @4 H
    僅供參考& i( z: z) I, R  C) _4 |  b
    每頁匹配多少詞條可用 countif 來算
    ) z- n) t! x9 h0 j" r& i% g比較一下每頁的詞條數和匹配的詞條數
    & H- Z8 {$ ?0 M! {& L6 C若是各依其數具計算出來的平均值和標準異差都很接近
    * `/ t( G3 @% [7 W; I0 j$ {  ~那表示你應該匹配的還可以吧  S1 Z0 _- a5 j5 S4 F

    : [5 t& m: ^$ H8 W辭典詞彙量估算匹配_4............應該是比較合理的預估模型1 D0 Q8 T7 m! {4 M0 Q
    (書頁詞條數-匹配數)<= 沒配到的詞條數% N. N2 a: l  L% Y1 r
    沒配到的詞條數算出平均值標準異差.......各乘上頁數
    ! g% _0 q/ {% [7240 , 3726
    % C$ R7 E0 y0 V8 U也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數0 A$ [1 f* V- `+ X. N
    所以用 66595+7240=73834.......大概都能配到的平均值
    1 }. I4 ~1 O" X& k若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
    : J5 x1 K- Q; {/ m/ e: h5 k所以 min=73834  max=850135 C) H: ^" [0 g. C' a" k
    * O  h/ v6 O: A8 I' @. L

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑
    $ J5 d# q( D# {0 c3 `4 F6 ^+ U2 n
    % x$ D2 i- @$ \8 F- ^5 J  M第一个想法0 S9 l( i+ n3 O9 F% E. T% F, F4 w
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    " o# p  B, y: q- j9 L" h" e1 L( L! _  B; w
    第二个想法
    3 Z" I  Y4 n) U* ^/ b用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑
    1 B) |4 u( ~- E$ R$ i7 ]* l
    oversky 发表于 2019-3-21 18:08
    9 y% V) W$ m1 v4 B6 [: e/ m可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...

    3 R  `7 H! t. {0 _, C" U) b( O8 U2 M4 I. K
    oversky 兄:4 D1 `- O7 v: {+ D  N. d7 N1 n
    如此就不是隨機數了
    2 l/ x' ?/ f$ D, H7 J# c其實是不需如此, 因標準異差值本來就是設計來估誤差值的
    ( {+ Q7 }7 f/ V當您用到6萬6去匹配基本上50%的單詞都絕對配到3 @6 W2 ^! w0 I; L9 O$ q
    加一個標準異差的量13萬2就68%以上都絕對配到' e6 B; V. |7 F& M  }3 y
    加兩個標準異差的量19萬9就95%以上都絕對配到
    0 l/ [+ ~) F' c- K加三個標準異差的量26萬5就99.7%以上都絕對配到  Q4 }/ v# E- W
    而且這是雙邊機率值- A! X' B( I. A, ?  }1 m. r
    若單邊其實機率值更高- T2 d2 ^7 z$ v& w2 a4 b
    真的也不太需要用到加三個標準異差的量26萬5去匹配
    & U5 B- `: e% i- l0 G+ \7 Q, N+ C3 j" ~* J5 N, e$ ^1 }9 g7 q  K
    倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    0 U8 s+ h8 s% J用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配2 J" V6 P& L9 e  f* u3 R
    重要的單字不漏也不至於多配太多和漏配太多4 O8 l& o! l! ^9 K' z
    可能命中率更能提高些
    / Z4 b7 n6 S: A也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配
    ! h  l; ^# T& `& V) ^: ^
    , \: Y7 k0 B+ Z% _
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑
    . f& q8 F4 O9 l; J0 A
    oversky 发表于 2019-3-21 18:08
    1 y1 ~1 o* p8 n0 t第一个想法
    6 O. j2 g! U( ^可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    : D: |# ?! i# F7 q/ [, b4 ?8 S$ E7 j( L: t& I! `9 G9 d' M) `
    oversky 兄:
    : t. J* c; z' B+ B剛又想了一下檔案和圖都改了好以次
    * I: J2 U$ x* d5 M( ]( m* y6 [後來的預估模型應該是比較合理( x, G. E. X0 o1 k5 `
    因若以每頁的標異差來估
    7 |6 g9 q: ?6 ?+ D$ k數量一定會膨脹太大
    1 m4 W) L5 {( H' h$ g" q5 y4 Z但若以沒配到的平均值和標異差來估# x- S' n: B# l, ]2 `& A
    且加上則數值來看應該是比較合理9 @$ j$ v# [) m+ D3 X

    & i' w' y) s) `# q9 t# u2 y
    7 W  a5 x, P* O9 D$ W3 q2 m# w6 f/ }
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33( e" l& |0 m! f% j5 M& j0 P
    oversky 兄:& i7 u- p' A+ M9 I; E
    剛又想了一下檔案和圖都改了好以次$ R8 J0 h9 _' T2 K; d
    後來的預估模型應該是比較合理

    2 ~8 e% w( @$ u4 w好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 01:55 , Processed in 0.022742 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表