TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 & B) |$ ^" Y( t4 V
2 V0 B- t7 x8 S5 g$ N3 T0 g) v0 E
辭典詞彙量估算匹配
' g; M. `, { s0 F. _& y9 m在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
9 Y% n' ]6 u0 Y$ M# o/ g6 x延伸此點交代不清之處
/ L6 ?" H2 R& P8 P" r* G5 ihttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
! d; ^' e6 k% Z/ o( @9 N7 d. h$ [1. 要先預估其要製作的辭典的辭彙量, & R% }0 H( W; l; v
若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量1 I7 K, m/ h9 G7 n- u5 V
可能辭典序言上標示的辭彙量也不一定正確
& ]6 ~; M- d- {" } 此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
; r8 y* t" }, i# [. O5 X2 v 算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
) R( C7 \7 h8 _3 E: |' A 保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧) j A. F3 y0 W6 o' }9 l |/ X/ |
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
1 K! Y$ D' R+ R; z$ G% Q4 e8 H 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
, ~! w, Q6 n0 C5 \/ Q$ U' [
9 U9 S3 _# l2 v/ _% m# Q# ]P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
. j* b" n5 z$ _+ S) e效果真的不佳
( o$ W6 r4 X% \, X, @此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁8 R% N- k3 l5 g/ t; q' O
也就是說只要配到 26萬多就基本含蓋了/ Q5 p$ W! D! l' T4 n. d' |
不需用到 47 萬多的wordlist 來配
& C$ e, A3 u" H9 j8 G" f3 B- n其實用平均值6萬6 以上配, 應該是效果已不錯了
9 d* O7 \# X) [( x. v僅供參考' q- |" h0 g% j7 s
每頁匹配多少詞條可用 countif 來算 v& n; W, |- I) Y+ @- D% g G
比較一下每頁的詞條數和匹配的詞條數9 F! x( T5 L: r' m5 ? L" O
若是各依其數具計算出來的平均值和標準異差都很接近
% x# o. z- P: }4 j5 Y" {# e那表示你應該匹配的還可以吧
* a1 J9 @& V* Q' `4 ^! y0 ^: q; @/ b
: {5 C5 u, Z) s# \6 D辭典詞彙量估算匹配_4............應該是比較合理的預估模型
/ T0 D' T1 N: s! h(書頁詞條數-匹配數)<= 沒配到的詞條數9 w& s/ Z1 S% g' Q. S
以沒配到的詞條數算出平均值和標準異差.......各乘上頁數
$ N- c0 k- g0 f5 I, m7240 , 3726, M/ a% T# f2 i/ A5 ~- @, J8 C
也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數* l1 N; Y8 G" D7 U5 U
所以用 66595+7240=73834.......大概都能配到的平均值
) p) N/ T; B: l6 c4 G6 }. J( _5 S若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
( y0 E8 D4 Y6 K) `. N' E所以 min=73834 max=85013
1 {3 a1 Z# [1 I* ]0 j7 B4 m, ]; q2 z0 J |* a
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|