掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1387|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 & B) |$ ^" Y( t4 V
    2 V0 B- t7 x8 S5 g$ N3 T0 g) v0 E
    辭典詞彙量估算匹配
    ' g; M. `, {  s0 F. _& y9 m在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    9 Y% n' ]6 u0 Y$ M# o/ g6 x延伸此點交代不清之處
    / L6 ?" H2 R& P8 P" r* G5 ihttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    ! d; ^' e6 k% Z/ o( @9 N7 d. h$ [1. 要先預估其要製作的辭典的辭彙量, & R% }0 H( W; l; v
       若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量1 I7 K, m/ h9 G7 n- u5 V
       可能辭典序言上標示的辭彙量也不一定正確
    & ]6 ~; M- d- {" }   此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
    ; r8 y* t" }, i# [. O5 X2 v   算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
    ) R( C7 \7 h8 _3 E: |' A   保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧) j  A. F3 y0 W6 o' }9 l  |/ X/ |
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
    1 K! Y$ D' R+ R; z$ G% Q4 e8 H   問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
    , ~! w, Q6 n0 C5 \/ Q$ U' [
    9 U9 S3 _# l2 v/ _% m# Q# ]P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    . j* b" n5 z$ _+ S) e效果真的不佳
    ( o$ W6 r4 X% \, X, @此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁8 R% N- k3 l5 g/ t; q' O
    也就是說只要配到 26萬多就基本含蓋了/ Q5 p$ W! D! l' T4 n. d' |
    不需用到 47 萬多的wordlist 來配
    & C$ e, A3 u" H9 j8 G" f3 B- n其實用平均值6萬6 以上配, 應該是效果已不錯了
    9 d* O7 \# X) [( x. v僅供參考' q- |" h0 g% j7 s
    每頁匹配多少詞條可用 countif 來算  v& n; W, |- I) Y+ @- D% g  G
    比較一下每頁的詞條數和匹配的詞條數9 F! x( T5 L: r' m5 ?  L" O
    若是各依其數具計算出來的平均值和標準異差都很接近
    % x# o. z- P: }4 j5 Y" {# e那表示你應該匹配的還可以吧
    * a1 J9 @& V* Q' `4 ^! y0 ^: q; @/ b
    : {5 C5 u, Z) s# \6 D辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    / T0 D' T1 N: s! h(書頁詞條數-匹配數)<= 沒配到的詞條數9 w& s/ Z1 S% g' Q. S
    沒配到的詞條數算出平均值標準異差.......各乘上頁數
    $ N- c0 k- g0 f5 I, m7240 , 3726, M/ a% T# f2 i/ A5 ~- @, J8 C
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數* l1 N; Y8 G" D7 U5 U
    所以用 66595+7240=73834.......大概都能配到的平均值
    ) p) N/ T; B: l6 c4 G6 }. J( _5 S若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
    ( y0 E8 D4 Y6 K) `. N' E所以 min=73834  max=85013
    1 {3 a1 Z# [1 I* ]0 j7 B4 m, ]; q2 z0 J  |* a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑
    7 Y1 n+ `  `) }5 K8 m  j! `0 m
    6 n5 f- w( D2 x  W: ~2 \  S第一个想法4 b4 Z* F9 b: `# Z! A0 n
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    4 n% J$ s- c0 u2 ~: S
    $ W  l9 m3 a, T9 B6 d第二个想法
    5 n+ q& ~) G# V" U8 _用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑 3 H! S: k/ i# V) Z8 S
    oversky 发表于 2019-3-21 18:08/ S/ @! k" o7 R4 k# f0 v9 X
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...
    ! {  v+ s3 J. @: @& ^: E6 V# r' V+ b( d
    3 _* d8 F! C0 w. K
    oversky 兄:0 c: B( p3 {7 \  Y
    如此就不是隨機數了
    2 J8 Y- w( ?& {/ o) \其實是不需如此, 因標準異差值本來就是設計來估誤差值的: W: M* e' n( K; C0 W
    當您用到6萬6去匹配基本上50%的單詞都絕對配到
    ! \7 s) |9 F0 i2 G7 o: T加一個標準異差的量13萬2就68%以上都絕對配到/ z" [7 _- c) H( g6 K
    加兩個標準異差的量19萬9就95%以上都絕對配到
    / @% L: y: ^& ~8 I, p+ O$ h加三個標準異差的量26萬5就99.7%以上都絕對配到
    ' h5 Z# L3 H3 E9 O1 w* O9 k% X而且這是雙邊機率值6 N; m1 K; x+ J1 x
    若單邊其實機率值更高
    3 A! o  T5 L: A8 n& {# J真的也不太需要用到加三個標準異差的量26萬5去匹配. g8 @  h( X7 G- S: |

      `: @+ l) b4 Q# T, h倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    2 Y6 ~# Y1 s5 r5 V2 i  A用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配
    % x/ Y: F% v$ v- i# ^3 }  x( {$ {重要的單字不漏也不至於多配太多和漏配太多
    ; p5 }* u4 ?7 X: r* N: e! I) {' H可能命中率更能提高些9 O& Y2 u9 z- ?/ K, Q# d" O& q
    也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配
    3 W& {$ C# z- C; c. w8 |/ m. i# d) t" R" A+ ?9 e+ @( ]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑 + y* `6 |4 X4 Y  G9 P! i( l* X) m( k
    oversky 发表于 2019-3-21 18:08
    4 [2 u% Z3 l) s; l- Z' S# P" [第一个想法8 @+ v! j" ?& |3 G: }8 z6 s
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    ! v- k. p/ h0 e$ @, R

    7 O1 `0 N# e* k# woversky 兄:8 g3 K9 ~9 W" c. E
    剛又想了一下檔案和圖都改了好以次
    ! {0 l$ N! p7 h9 i1 j  z# V# ~後來的預估模型應該是比較合理6 Q1 k& a8 y. }$ {6 i! g. b
    因若以每頁的標異差來估
    ( d+ r' s! L- g數量一定會膨脹太大1 a) y( @! \( s0 Y" }6 N; }$ `6 ^
    但若以沒配到的平均值和標異差來估
    1 Y2 P  d3 U: G( t0 }2 z且加上則數值來看應該是比較合理
    5 A  J' ^  E4 S1 W
    0 ]3 d1 K' L1 {8 x% B" C5 Z
    1 V$ x# D( B# H3 ~3 \/ r" ^2 o. }* `) k/ I1 x2 @! s: f, a# o
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33
    0 L3 X$ k% `3 ?5 e7 R0 doversky 兄:- H& U- T- w6 O/ T. h
    剛又想了一下檔案和圖都改了好以次
    : y+ F% N, P6 L! i4 ?# G9 |後來的預估模型應該是比較合理
    $ _" k4 \- f& m2 _0 h- G8 |* F  w! h
    好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-7 08:21 , Processed in 0.053091 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表