掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1358|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 # U- U. E% h% U. \; N& s
    8 T6 e# Y( W+ V. b; \
    辭典詞彙量估算匹配; \3 \3 r- U% Y4 d+ `% R
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量  `0 ~  P! Q4 v/ S4 f& ~) @; `
    延伸此點交代不清之處# D" m, g, h; a' _& d& [5 r% E1 N) A
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    7 s4 B: g0 g$ @0 {0 m: z2 e1. 要先預估其要製作的辭典的辭彙量,
    0 G" r) M) f, a) B8 V   若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量! ?) k# T/ L: D; Z7 h5 a1 O
       可能辭典序言上標示的辭彙量也不一定正確$ B" |/ d0 d9 i1 R
       此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數# Y9 H2 p1 u; s& c
       算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
    ' C1 n4 V/ ~/ q   保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧3 T" _5 p0 j. X+ {0 ^4 q* s# t
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典1 ?4 I: S3 ?2 H- b/ K/ H
       問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
    ; Z8 v$ M* d3 d+ U8 @8 V0 x
    7 z- t/ |; B0 i0 j3 }P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
    6 q- |6 b7 Z0 G  N效果真的不佳
    ( i4 p9 E! g% F- x此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
    8 m0 V$ v( J8 p& h" C1 [% o也就是說只要配到 26萬多就基本含蓋了/ Y  W, i7 h8 e0 Q* X  g
    不需用到 47 萬多的wordlist 來配
    6 W% r0 f) ^' N( C9 k' ?其實用平均值6萬6 以上配, 應該是效果已不錯了
    - H9 f- u/ k4 t8 f, O' K. S% I僅供參考
    : T5 Z) [# \% g( M9 |+ j每頁匹配多少詞條可用 countif 來算+ @; [1 e, I& Y( `- b" K/ r4 |& U, z
    比較一下每頁的詞條數和匹配的詞條數$ Z0 L' }# [& `2 Q- e
    若是各依其數具計算出來的平均值和標準異差都很接近
    2 u. v- O/ x8 D6 d那表示你應該匹配的還可以吧
    . F2 g( }' v4 n) W% ~
    " Q" N2 n0 ]  @& v* R辭典詞彙量估算匹配_4............應該是比較合理的預估模型
    . I, ?  H2 E4 f(書頁詞條數-匹配數)<= 沒配到的詞條數
    ) Z' {3 G2 _# U6 j) C* B沒配到的詞條數算出平均值標準異差.......各乘上頁數8 u" ]; A. m& z7 ~! t: u' \. [) _: {
    7240 , 37269 i; \$ i5 x0 O7 r% Q3 ?
    也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數6 e7 K5 k  i5 u0 o
    所以用 66595+7240=73834.......大概都能配到的平均值: p, {) ?* u: @4 h/ w' G9 m' I# k: i
    若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=850137 q5 j0 `* \4 E6 q6 f+ ~
    所以 min=73834  max=85013. Z7 Z" ~$ B) t9 d$ [

    : @9 [1 G+ ~4 l' `" o. Z( k

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑 - b) G! r" J. A  p/ C' D

    , b/ _3 z" a9 p. J+ E8 f) G第一个想法
    4 }  [) {; S# A* Y1 O8 y可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    $ r$ M% b# I) d" p9 c" ?# P" ^& n
    : o2 ~* Z1 h. ?' B. k第二个想法# G' P- b! O$ L, N5 _, k$ b
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑
    1 [  ]' M/ S& C' r4 c
    oversky 发表于 2019-3-21 18:08+ F, M& m* e  z/ D
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...

    0 z  A7 j" m8 ^- Z: ?' r
    " F, D1 S/ }, U- z( l  ~. v6 zoversky 兄:
    # Y  x/ o3 F* Y. {, S# l& I如此就不是隨機數了! d' s% _/ w# A- j6 z6 w
    其實是不需如此, 因標準異差值本來就是設計來估誤差值的' Y* L1 W& E2 n) C3 W" ]* A
    當您用到6萬6去匹配基本上50%的單詞都絕對配到
    7 p+ L5 \9 L* c2 I; @加一個標準異差的量13萬2就68%以上都絕對配到4 r& _; d; Q: C: b& L
    加兩個標準異差的量19萬9就95%以上都絕對配到) V4 B* y9 b5 r
    加三個標準異差的量26萬5就99.7%以上都絕對配到
    ' T% `; E* i3 D0 s8 f$ N6 l而且這是雙邊機率值
    , x& |: z6 @$ t1 L- O  O若單邊其實機率值更高
    ! s* v% G. U6 Y5 a3 Q真的也不太需要用到加三個標準異差的量26萬5去匹配
    ( ]6 `, \) E( ^
    ! l3 R% n( ]% C. U: g, j倒是可以考慮把幾本的 wordlist 作張表把頻數填上
    ! f( V2 c; x- O( \用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配3 m/ P5 J9 _+ L
    重要的單字不漏也不至於多配太多和漏配太多% Z) y4 {& P: j' E: X6 l. [& q
    可能命中率更能提高些# g: l- p9 N- O" ^2 b) ~
    也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配( |3 |( R. D% v4 g

    3 ?9 c+ P4 U9 q7 Q/ b
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑 % x/ B4 |9 k3 J; `- I
    oversky 发表于 2019-3-21 18:08
    4 U# _: `2 W% F第一个想法! H1 S" o* [8 l3 T# V9 h. l: y
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。

    ) A$ j0 V) s0 M2 _! l2 E& p2 t  `
    oversky 兄:
    4 z# N+ j. V/ V. I剛又想了一下檔案和圖都改了好以次
    $ N4 X8 L. P+ H9 c後來的預估模型應該是比較合理  K2 E+ T# w" t
    因若以每頁的標異差來估1 V" m: f: y/ a, w
    數量一定會膨脹太大) u0 S9 I( |5 w3 M- F# q
    但若以沒配到的平均值和標異差來估
    + b0 O( C' t& U0 T# x且加上則數值來看應該是比較合理
    ; ^% F% B& i! m8 R0 Q, }( k" E; A
    % I, l. L; D5 ^  m; s* G2 J! Z) B
    5 v, w: ]# @# z+ ^  C" W
    3 h* p% M: j4 l/ D7 ]
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33
    $ x, ]! V0 e2 X5 p. b5 S+ K' v/ |oversky 兄:
    * h0 G* i* a) M2 l剛又想了一下檔案和圖都改了好以次
    / t: ]) V! C9 I1 E/ H- z$ T$ a後來的預估模型應該是比較合理
    1 w3 p) q# g4 Y' J
    好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 09:57 , Processed in 0.051627 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表