掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1714|回复: 4

[讨论] 辭典詞彙量估算匹配

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-3-21 13:07:14 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
    % e( H  X1 a. c; C3 n' w. M. }. v+ {$ L% @
    辭典詞彙量估算匹配5 H4 ~* M' n. b- |- n
    在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
    - S1 m2 h: B* b4 T0 |$ I' T7 n: O延伸此點交代不清之處
    1 w+ R( J8 A! Khttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
    - B- d# h# v/ Y; b# Z1. 要先預估其要製作的辭典的辭彙量,
    , R- G- ^7 i% `/ o9 u& W% |   若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
    . D+ T  ^3 k: D& Z4 [  y   可能辭典序言上標示的辭彙量也不一定正確
    9 I* m, M' @! L; n   此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
    8 `, I7 m2 l9 j% @- n" I   算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量1 b- W* y9 j1 X. K5 Z- k
       保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧0 v7 \& {2 e$ S, o' F+ E
       因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典8 p8 e7 b! [' `
       問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找  j- Q1 n: d  R  Q3 h/ k0 e' d' l
    " y" f6 k2 {6 z" [
    P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版) 4 G# J0 X. D/ `9 b6 L- W
    效果真的不佳
    ) N( ~$ d% W$ u! Q0 |" k  W此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
    ! p7 |' o3 c: \; P% c, S+ S也就是說只要配到 26萬多就基本含蓋了, o* h8 K7 U: T2 ~
    不需用到 47 萬多的wordlist 來配
    2 [& Z. C2 C6 r6 _5 n# }其實用平均值6萬6 以上配, 應該是效果已不錯了' m8 z5 d) ~+ g3 d, F0 y; R
    僅供參考) h1 Q! z  C- H6 |8 k+ n$ [4 N: ?
    每頁匹配多少詞條可用 countif 來算" _8 S! j& A/ j) }
    比較一下每頁的詞條數和匹配的詞條數6 H* |" i2 y2 k( Y: k
    若是各依其數具計算出來的平均值和標準異差都很接近5 \+ o& m. y+ ?8 n7 {
    那表示你應該匹配的還可以吧  D9 ~+ k2 A5 W: _

    0 o0 A; S8 ^4 |5 \, T& ^辭典詞彙量估算匹配_4............應該是比較合理的預估模型. E* o3 n- D) H7 r2 c- r
    (書頁詞條數-匹配數)<= 沒配到的詞條數
    4 N5 j7 p% [! R! e& h& `$ y2 s% `沒配到的詞條數算出平均值標準異差.......各乘上頁數% v4 o  h" W1 k+ n$ F+ K5 X
    7240 , 3726
    3 u" q9 V2 A! d# i0 [' a" ?也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數4 {$ V! s4 m/ i, H- `9 q7 D" E& ~: `
    所以用 66595+7240=73834.......大概都能配到的平均值
    5 h0 Y- [' ]: W1 H1 u. v( n6 D# U若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013! E# p( A; h2 j* b1 }& M" _3 j
    所以 min=73834  max=850139 u8 X0 x+ s5 Q7 I& j8 R1 L0 r  ~

    8 F- ^0 O2 A3 M/ ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 18:08:53 | 显示全部楼层
    本帖最后由 oversky 于 2019-3-21 18:25 编辑
    1 P6 ^, Q3 x. m/ N9 ]1 ~2 F  M
    0 [6 I9 J# o3 s9 J! [9 j) n第一个想法
    7 |: n- y1 o- a* X9 q1 }可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。; L1 m6 L8 W' t2 G

    + d1 L1 J& o1 `1 ^; x第二个想法% n' p6 y- w- ]; v3 g# C
    用字频资料库来估比例。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 18:42:01 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 19:06 编辑
    4 h; w& h7 t4 I- ~
    oversky 发表于 2019-3-21 18:08$ n: f. S/ R6 i! E7 A- v  \" Z
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。 ...

    ! ^7 C. h  C3 J
    . A- S1 t$ q* ?5 W7 Q2 \( Ioversky 兄:; V8 j& e7 Y3 x4 ~4 `. g. B; X6 i
    如此就不是隨機數了
    6 R5 {# D* S3 {其實是不需如此, 因標準異差值本來就是設計來估誤差值的; k0 \3 G+ F; e" v2 ]# N  ], N
    當您用到6萬6去匹配基本上50%的單詞都絕對配到8 ~% N4 y0 ~+ j% u/ a0 y
    加一個標準異差的量13萬2就68%以上都絕對配到
    ; J- m- T# Y0 J3 Z加兩個標準異差的量19萬9就95%以上都絕對配到$ G, q. l, \% w1 I* ?3 \, U7 d
    加三個標準異差的量26萬5就99.7%以上都絕對配到
    9 C' A- T0 G/ {/ E' S- u而且這是雙邊機率值
    ) b7 J. L) _) b% {若單邊其實機率值更高* N0 E- J. J9 m- V, v+ T
    真的也不太需要用到加三個標準異差的量26萬5去匹配
      A* ~- Y  H' w5 q  e6 u7 r" W" J. b2 O, T9 o" k& Q/ v. T
    倒是可以考慮把幾本的 wordlist 作張表把頻數填上1 g- o, A  k/ Q+ W5 g
    用 Bootstrap 的方法把頻數考慮上隨機抽取你算出的數量的 wordlist 去匹配
    + v8 D! C' e+ M$ }( Q重要的單字不漏也不至於多配太多和漏配太多! G1 C( o; D0 m. ?$ R. e9 [
    可能命中率更能提高些
    & Y! i6 @7 _# @8 c4 Y9 x: c也就是集中數個wordlist 於一張 wordlist 然後每次都從此 wordlist 隨機抽取你要的數量來匹配
      o1 {! g/ A! ~8 X. [6 |- X. X7 k* c; Z9 c* D* N
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-3-21 20:33:00 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-3-21 21:23 编辑
    % M5 K' V$ I# ^$ w/ K/ J
    oversky 发表于 2019-3-21 18:083 ^8 s3 A7 j% q( c; X7 _3 ~) }
    第一个想法+ N% }: k- a+ \! X
    可以试试抓几个项目特别多的字之页数来当作参考起点,这样应该可以减少累积误差。
    : ~! h1 H/ p: P" p

    8 \! Q6 z: X7 T. F: @/ Ooversky 兄:
    7 w$ d3 F3 F# [( E5 J+ s剛又想了一下檔案和圖都改了好以次
    ) {$ d* Y' p1 e9 N1 i/ K4 K後來的預估模型應該是比較合理! B' Y2 H. Q/ \) H/ ~1 I' G
    因若以每頁的標異差來估
    $ F4 J" w: Z1 I6 O6 n數量一定會膨脹太大
    9 \( q0 \1 T: e. I0 v4 G但若以沒配到的平均值和標異差來估; k3 c1 D1 q6 |5 A, j
    且加上則數值來看應該是比較合理
    , l" f+ m8 l* o# u6 U5 R3 `- l  N  V9 j0 Q( a6 Z

    3 v/ @! Y, X: g7 v  V
    5 P3 E  F- O0 W! Q
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2019-3-21 21:20:39 | 显示全部楼层
    喬治兄 发表于 2019-3-21 20:33$ W5 j, y1 b( f- S- V, ]/ g
    oversky 兄:
    - Y5 d) u; _$ W$ u. v3 {剛又想了一下檔案和圖都改了好以次! p: I/ p0 n- K. o1 J, t$ ]
    後來的預估模型應該是比較合理

    + F; H% K5 j9 X0 i5 Y) i( K8 p好久没碰机率,我再来研究看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-6 22:07 , Processed in 0.022164 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表