掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

[复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01) T  L' f9 I6 e
    现有的mdx词典,其实足够绝大多数人用一辈子的了4 U9 [" z2 T1 i9 e1 K6 ^) h7 {
    6 q; q0 B! c3 Y: G. q
    本人前段时间制作、收集了不少,经过一段时间的比较 ...

    * b9 c! U+ L% K' c能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    ( D8 X) M9 L4 z& ]1 b最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    . y$ y) [" ^9 M; P默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。
    9 J/ H, }+ e  ]其实只是你没有发现而已。
    1 ], x+ e% d& @- B5 Z8 W: IODE: http://www.oxforddictionaries.com/browse/english/+ j* J; b  S" D
    RHD:http://dictionary.reference.com/list/a/
    9 e+ u8 ^6 ?3 `! [0 q6 eCALD:http://dictionary.cambridge.org/browse/learner-english/, ?% {: m2 Z8 u* U  a: k
    ! T7 e4 }2 f5 C  [+ }9 s3 y
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。- K2 A, I7 s% a0 h7 J7 Q- V8 n
    以第二个为例:
    # M1 f* B3 m, \inurl:browse | inurl:list site:dictionary.reference.com+ X% K2 i( _, {6 A
    5 q+ U( B- }7 G. B- e5 A7 y2 d
    PS:最近才发现这里,发现资料很多啊。  {2 b) ]: i1 P& S8 r
  • TA的每日心情
    无聊
    2020-3-19 10:18
  • 签到天数: 667 天

    [LV.9]以坛为家II

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。
    % d6 Z/ v* h0 N, k: }在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    ! Z# j6 C! T7 W5 F9 Ipython其实就是java的脚本代作。。。, \( i, |" P- W
    linux现在核也不是纯是C,都用C++。。。
    % M/ H2 R6 E( c- U; z& h所以没有什么最好的,只有适用的。。。$ Z; d: z/ G( P8 a" ~$ K  f
    抓站如果不用线程或进程之类,在linux上5 r7 D2 [" B4 z; P. x% g1 W% |" h
    shell+sed or shell+awk# T/ O! A8 y# z4 ~: B' l' n
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧3 P$ n- F  G/ Q. Q* L
    / K% }) x* m8 O  Z
    假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改, o. I& o4 \9 ^& x# t, B
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下- P" j: f) g! I/ }
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。3 C2 t- M1 P3 T
    这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    % q% g! o4 b7 p' D
    5 p0 _- l$ K7 I& S2 t1、Goldendict里,在想修改的地方点右键,有个“审查元素”:
    8 s$ j, p* ~" `
    . k% k% E/ u; H7 R' Q4 W) l/ [* {% O) z) k6 _# p% q; a1 z
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    8 p; k' z, M# \, b
    " f" v; I$ C7 ^/ h' `) {
    1 w" P8 c& H9 x; j$ h3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方
    0 {# N+ E! I  C: g; S3 X( e, H, k. n
    / x) G( Y& y0 r
    收工
  • TA的每日心情
    开心
    2020-2-25 12:10
  • 签到天数: 460 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件+ y) @! ^4 j( o  r! {: F0 n
    • EmEditor
    • Beyond compare, }! F& u4 q, i& R9 k3 n/ G

    8 R: r, P: {3 P) o+ m8 O$ d3 ~" P, p8 j. }0 u
    前者用于编辑,后者用于差分比较
    8 o' P: A( G+ U) Z9 q0 Z处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
    / w' X7 N7 Z7 `7 U( Y; g7 d; O" q1 T! |6 e1 s% P
    网页设计中最常用的字体有哪些?(中文和英文)
    % `6 P+ H3 ?" I+ |http://www.zhihu.com/question/19680724
      U9 x9 H: K( ?* O/ t1 e4 b. U. c2 p. i) F: q0 `% R
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    $ t$ B7 z# D* Z9 N  O2 U这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全2 l6 l0 u# Y% q) g" D
    另外Open Sans字体也挺漂亮' ]9 A( Z! }7 x% B

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 : G: p2 |* t, n4 g- i
    $ ~& E7 {+ o9 p1 e& ^1 T/ ~
    1. def uc_to_hc(text):
      9 I$ z# Y9 C2 W) c, A0 y. d4 H
    2.     rst = []
      9 a$ g. R3 k0 ]
    3.     for ch in text:
      7 k. b2 b1 f8 e3 S" C) q) i
    4.         val = ord(ch)3 ?; C7 q% G! ?8 w
    5.         if val<=0x7F:
      $ m, _5 u* v( `' H4 L
    6.             rst.append(ch)3 S6 {9 f* n! Z7 w! _0 B
    7.         else:
      8 u  v) R: A$ }, h! m
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))
      - B+ P, z5 U9 O* g
    9.     return ''.join(rst)9 ^% r2 x. N  w
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序
    7 V2 o1 h4 M- X+ z- x' w, Thttps://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。

    该用户从未签到

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    无聊
    2019-10-29 15:49
  • 签到天数: 566 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-4-7 11:10 , Processed in 0.283001 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表