TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 # U- U. E% h% U. \; N& s
8 T6 e# Y( W+ V. b; \
辭典詞彙量估算匹配; \3 \3 r- U% Y4 d+ `% R
在此提供試算表 您可自行預估拿捏 wordlist 詞條數量 `0 ~ P! Q4 v/ S4 f& ~) @; `
延伸此點交代不清之處# D" m, g, h; a' _& d& [5 r% E1 N) A
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
7 s4 B: g0 g$ @0 {0 m: z2 e1. 要先預估其要製作的辭典的辭彙量,
0 G" r) M) f, a) B8 V 若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量! ?) k# T/ L: D; Z7 h5 a1 O
可能辭典序言上標示的辭彙量也不一定正確$ B" |/ d0 d9 i1 R
此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數# Y9 H2 p1 u; s& c
算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量
' C1 n4 V/ ~/ q 保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧3 T" _5 p0 j. X+ {0 ^4 q* s# t
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典1 ?4 I: S3 ?2 H- b/ K/ H
問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找
; Z8 v$ M* d3 d+ U8 @8 V0 x
7 z- t/ |; B0 i0 j3 }P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
6 q- |6 b7 Z0 G N效果真的不佳
( i4 p9 E! g% F- x此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
8 m0 V$ v( J8 p& h" C1 [% o也就是說只要配到 26萬多就基本含蓋了/ Y W, i7 h8 e0 Q* X g
不需用到 47 萬多的wordlist 來配
6 W% r0 f) ^' N( C9 k' ?其實用平均值6萬6 以上配, 應該是效果已不錯了
- H9 f- u/ k4 t8 f, O' K. S% I僅供參考
: T5 Z) [# \% g( M9 |+ j每頁匹配多少詞條可用 countif 來算+ @; [1 e, I& Y( `- b" K/ r4 |& U, z
比較一下每頁的詞條數和匹配的詞條數$ Z0 L' }# [& `2 Q- e
若是各依其數具計算出來的平均值和標準異差都很接近
2 u. v- O/ x8 D6 d那表示你應該匹配的還可以吧
. F2 g( }' v4 n) W% ~
" Q" N2 n0 ] @& v* R辭典詞彙量估算匹配_4............應該是比較合理的預估模型
. I, ? H2 E4 f(書頁詞條數-匹配數)<= 沒配到的詞條數
) Z' {3 G2 _# U6 j) C* B以沒配到的詞條數算出平均值和標準異差.......各乘上頁數8 u" ]; A. m& z7 ~! t: u' \. [) _: {
7240 , 37269 i; \$ i5 x0 O7 r% Q3 ?
也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數6 e7 K5 k i5 u0 o
所以用 66595+7240=73834.......大概都能配到的平均值: p, {) ?* u: @4 h/ w' G9 m' I# k: i
若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=850137 q5 j0 `* \4 E6 q6 f+ ~
所以 min=73834 max=85013. Z7 Z" ~$ B) t9 d$ [
: @9 [1 G+ ~4 l' `" o. Z( k |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|