TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑
% e( H X1 a. c; C3 n' w. M. }. v+ {$ L% @
辭典詞彙量估算匹配5 H4 ~* M' n. b- |- n
在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
- S1 m2 h: B* b4 T0 |$ I' T7 n: O延伸此點交代不清之處
1 w+ R( J8 A! Khttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=
- B- d# h# v/ Y; b# Z1. 要先預估其要製作的辭典的辭彙量,
, R- G- ^7 i% `/ o9 u& W% | 若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
. D+ T ^3 k: D& Z4 [ y 可能辭典序言上標示的辭彙量也不一定正確
9 I* m, M' @! L; n 此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數
8 `, I7 m2 l9 j% @- n" I 算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量1 b- W* y9 j1 X. K5 Z- k
保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧0 v7 \& {2 e$ S, o' F+ E
因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典8 p8 e7 b! [' `
問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找 j- Q1 n: d R Q3 h/ k0 e' d' l
" y" f6 k2 {6 z" [
P.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版) 4 G# J0 X. D/ `9 b6 L- W
效果真的不佳
) N( ~$ d% W$ u! Q0 |" k W此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁
! p7 |' o3 c: \; P% c, S+ S也就是說只要配到 26萬多就基本含蓋了, o* h8 K7 U: T2 ~
不需用到 47 萬多的wordlist 來配
2 [& Z. C2 C6 r6 _5 n# }其實用平均值6萬6 以上配, 應該是效果已不錯了' m8 z5 d) ~+ g3 d, F0 y; R
僅供參考) h1 Q! z C- H6 |8 k+ n$ [4 N: ?
每頁匹配多少詞條可用 countif 來算" _8 S! j& A/ j) }
比較一下每頁的詞條數和匹配的詞條數6 H* |" i2 y2 k( Y: k
若是各依其數具計算出來的平均值和標準異差都很接近5 \+ o& m. y+ ?8 n7 {
那表示你應該匹配的還可以吧 D9 ~+ k2 A5 W: _
0 o0 A; S8 ^4 |5 \, T& ^辭典詞彙量估算匹配_4............應該是比較合理的預估模型. E* o3 n- D) H7 r2 c- r
(書頁詞條數-匹配數)<= 沒配到的詞條數
4 N5 j7 p% [! R! e& h& `$ y2 s% `以沒配到的詞條數算出平均值和標準異差.......各乘上頁數% v4 o h" W1 k+ n$ F+ K5 X
7240 , 3726
3 u" q9 V2 A! d# i0 [' a" ?也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數4 {$ V! s4 m/ i, H- `9 q7 D" E& ~: `
所以用 66595+7240=73834.......大概都能配到的平均值
5 h0 Y- [' ]: W1 H1 u. v( n6 D# U若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013! E# p( A; h2 j* b1 }& M" _3 j
所以 min=73834 max=850139 u8 X0 x+ s5 Q7 I& j8 R1 L0 r ~
8 F- ^0 O2 A3 M/ ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|