TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
V; f1 C; P; R; t+ d$ ?
" e/ N. K8 Z. V/ f0 P, W辭典詞彙量估算匹配
/ e% {' m8 \8 F. E/ y) @2 w在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
" z6 ^# n# @5 ]延伸此點交代不清之處
0 E8 n& K* }$ ~https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
6 \4 W/ _( }. J5 \1 ^0 w1. 要先預估其要製作的辭典的辭彙量, $ R8 v( K7 _& D8 @* [! N' h: g9 g
若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
- Y! w" t$ g) @- j+ X" ~ 可能辭典序言上標示的辭彙量也不一定正確
2 \: d) k2 i5 b$ x 此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
. a0 Z1 h R6 ^, b! h8 Q* f# g! D 算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量1 F9 z/ ~ m2 A7 p X
保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧; Y" ~( l1 L- T( _) O3 M$ c
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
/ M* r' ?$ }+ _5 b 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
# U' Q1 k* r* o. S& L
8 N( L. z7 H2 L/ xP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
, Y6 | {) J1 ~! V3 w9 f! X效果真的不佳; H9 f& ^% \ M) D9 t/ c O% x
此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁2 N U# \- q2 e. H. E3 s/ |
也就是說只要配到 26萬多就基本含蓋了- y8 z0 Z/ w3 p/ Z5 G5 I& x
不需用到 47 萬多的wordlist 來配
7 R j8 C; }) J6 T' s其實用平均值6萬6 以上配, 應該是效果已不錯了+ _* L7 W' W; q" Y' o. z7 @5 i
僅供參考% F$ r: p7 E% a
每頁匹配多少詞條可用 countif 來算
# R) U+ l8 Y6 V. a8 }比較一下每頁的詞條數和匹配的詞條數* `* } W5 n& A0 B/ I% n6 y
若是各依其數具計算出來的平均值和標準異差都很接近
! K1 X! w6 {9 j0 z那表示你應該匹配的還可以吧
% B3 f* l: f( z4 T/ X3 g- l# A* V i5 i4 A* H4 j* X; N
辭典詞彙量估算匹配_4............應該是比較合理的預估模型
' s" [6 v, b0 o6 _; \(書頁詞條數-匹配數)<= 沒配到的詞條數- Z$ c% j3 F% K7 d% f. z `4 W
以沒配到的詞條數算出平均值和標準異差.......各乘上頁數
. V; X+ O3 E4 E7 E* {, d* [7240 , 3726. `" Z- w1 r, ]7 P% c
也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數: F& J7 ?( E( i9 E8 g' r1 R
所以用 66595+7240=73834.......大概都能配到的平均值
1 r$ `3 b( `2 P% j- A ~; p若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=850131 C% u7 q' g. e$ S
所以 min=73834 max=85013
& Q' }7 M! v( J" i$ a% B: K& a: b4 [9 [+ {+ L! \1 K X
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|