TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2019-3-21 21:08 编辑 9 Y5 `+ v! }8 L# |# ?" b
) ?3 [' Z: D$ [, D2 U1 c2 ]# [4 r
辭典詞彙量估算匹配
8 s" P4 e+ ?# k" M8 J1 r, U$ n4 q在此提供試算表 您可自行預估拿捏 wordlist 詞條數量
" n! o/ n- a- _) E) N$ F3 h- Y延伸此點交代不清之處) w1 O% k( H4 v3 p$ B- U
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33566&extra=& e& z2 M; W$ U, q: U
1. 要先預估其要製作的辭典的辭彙量, % v" j' f- \# `
若能知道正確辭彙量是最好的, 但往往不知道其多少辭彙量
# d* _) z8 [; T* e 可能辭典序言上標示的辭彙量也不一定正確. d$ `; p9 M( ]7 w6 y
此可利用 Excel 統計 random 的函數產生的 30 個隨機數來挑其頁數0 h' q0 i" b' K3 b o9 ~
算一下那 30 頁 每頁各多少詞頭, 然後求個平均值在乘上頁數.......就大概是那辭彙量0 F" `( d( l7 q4 K6 b
保險一點的話在加上3個標準異差乘上頁數.......這樣辭彙量應能大概都能含概了吧
/ f- }5 b1 ^2 H8 x+ c& S) u 因此關於您要用多少的辭彙量來配那本字典, 您也可選 30~40 萬的 wordlist 來配4~5 萬的辭典
) _( q* v" `: U+ B0 d$ K2 l4 o 問題是整頁都是多一堆辭典沒有的字, 也是同樣多花時間找$ f) |+ H1 }4 \) }! I# J" k6 U; G0 N7 |
0 Z" A0 n* w- E$ j2 N' }7 n8 DP.S. 已用過 47 萬多的21世紀英漢 wordlist 來配 外研社新英漢詞典 (圖片版)
* ?9 p7 v- F' z3 X p) ^效果真的不佳. R5 e$ a0 S# y# I4 g# x# J* U
此 EXCEL 例只是說明小弟並無真的去算那抽樣的30頁' N+ M& P0 L" j5 L a
也就是說只要配到 26萬多就基本含蓋了 h6 E5 y k; a' X' H
不需用到 47 萬多的wordlist 來配
! q! X- B2 ~2 Q其實用平均值6萬6 以上配, 應該是效果已不錯了/ g5 v0 D4 @8 @4 H
僅供參考& i( z: z) I, R C) _4 | b
每頁匹配多少詞條可用 countif 來算
) z- n) t! x9 h0 j" r& i% g比較一下每頁的詞條數和匹配的詞條數
& H- Z8 {$ ?0 M! {& L6 C若是各依其數具計算出來的平均值和標準異差都很接近
* `/ t( G3 @% [7 W; I0 j$ { ~那表示你應該匹配的還可以吧 S1 Z0 _- a5 j5 S4 F
: [5 t& m: ^$ H8 W辭典詞彙量估算匹配_4............應該是比較合理的預估模型1 D0 Q8 T7 m! {4 M0 Q
(書頁詞條數-匹配數)<= 沒配到的詞條數% N. N2 a: l L% Y1 r
以沒配到的詞條數算出平均值和標準異差.......各乘上頁數
! g% _0 q/ {% [7240 , 3726
% C$ R7 E0 y0 V8 U也就是說以此 wordlist 來配完此辭典大概平均沒配到的詞條數 在 7240條數 但預估最大值 18418條數0 A$ [1 f* V- `+ X. N
所以用 66595+7240=73834.......大概都能配到的平均值
1 }. I4 ~1 O" X& k若要在保險點則加沒配到的詞條數的預估最大值 18418......66595+18418=85013
: J5 x1 K- Q; {/ m/ e: h5 k所以 min=73834 max=850135 C) H: ^" [0 g. C' a" k
* O h/ v6 O: A8 I' @. L
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 40
- · 词典制作|主题: 111, 订阅: 24
|