掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

[复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    - z4 w: m: l) ?2 H现有的mdx词典,其实足够绝大多数人用一辈子的了& d8 T- @' n' [6 R1 n% u
    ' S: F' k: D% y9 A9 G
    本人前段时间制作、收集了不少,经过一段时间的比较 ...
    9 Q$ N+ Q6 g2 r
    能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    7 Z3 W! Y/ _# c最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    - X% l' W7 Q  C4 r0 g8 z默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。
    & ]5 K! W1 P* b  {2 v9 |8 F  X其实只是你没有发现而已。
    " B$ u$ r9 `0 G  }ODE: http://www.oxforddictionaries.com/browse/english/
    3 a+ [6 w. [& c& ^" P( B: B$ sRHD:http://dictionary.reference.com/list/a/
    * i' L7 W- ]! r: _# n3 h* jCALD:http://dictionary.cambridge.org/browse/learner-english/
    ' t/ M4 c& b! }/ K2 O5 h$ N6 V) r2 a+ o, G: ]
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    4 U2 D2 i" {4 _+ R. \4 M1 n. D( X以第二个为例:
    / y5 H2 g( }3 H7 ]. }5 g9 _inurl:browse | inurl:list site:dictionary.reference.com6 i% ?1 e& v& `
    , ^' o7 ^9 k# w9 X( y) ^
    PS:最近才发现这里,发现资料很多啊。
    * _9 ^6 ]9 w3 t! L8 ~# e4 J) R
  • TA的每日心情
    开心
    2020-7-22 03:02
  • 签到天数: 702 天

    [LV.9]以坛为家II

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。
    ( Y: N8 Z. n. [在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    % h' R, ~) F6 h4 U7 |/ ^: `python其实就是java的脚本代作。。。# P4 }3 U: ?; t: Q3 ~9 \
    linux现在核也不是纯是C,都用C++。。。
    ! X/ n! j+ D* o6 J2 K1 {所以没有什么最好的,只有适用的。。。* z6 F5 Y. q  H  T) R, s
    抓站如果不用线程或进程之类,在linux上
    ( ~4 x+ s7 e: }shell+sed or shell+awk5 ]& }5 h3 ]9 Y: |8 `
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧
    1 G2 P  I  k6 h/ N5 N  {6 s* U$ M! O/ T" M0 m  u- |
    假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改
      s8 A3 I5 N5 G0 \或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下0 n  y3 k6 }- S7 N, z0 f; @- d
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。# P9 _* t/ \% v( s6 n% c
    这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    1 t; W9 u) c* ]5 |; S# k& `
    : V- {, k) U% C5 O1、Goldendict里,在想修改的地方点右键,有个“审查元素”:' I# ?( j) I$ R1 B- y

    5 e7 g7 m  l2 m  W6 [- e
    9 Q- u* J% J& d3 F2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    * L! t' ?1 i& [% g# x+ i$ N# A
    % g' Q: F- k) ^+ m/ V8 F6 _( T( o$ `' V$ I
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方, I, ?4 _) G( z1 l

    $ d: O3 q9 i! I$ p; g) l2 ~5 _/ ~/ [" I
    收工
  • TA的每日心情
    开心
    2020-2-25 12:10
  • 签到天数: 460 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件
    ) D0 k7 J/ _! f+ _
    • EmEditor
    • Beyond compare
      ; [% O6 w& X) j" Z6 }1 g/ S, s

    & e& g6 h- Y/ \" ?- L" T& p# z; ~
    ' O2 I6 e' S3 C; Q6 ~, y前者用于编辑,后者用于差分比较
    * r0 j: A1 G5 F# ~* v处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
    ( z9 |* ?, k: O5 r1 L/ S
    # t. f) e6 m7 i1 N网页设计中最常用的字体有哪些?(中文和英文)
    - ~1 R4 o# A7 H& T8 }8 W" q0 rhttp://www.zhihu.com/question/196807243 L) q( W* P: M& r- K! B: x
    # q1 c# @+ U0 m3 L: ]
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    1 V! d# c! e0 j2 M这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全8 Q5 ~. [# v0 ~0 m2 i7 Y# G8 b
    另外Open Sans字体也挺漂亮4 ]4 U0 ]% F3 i. x4 f( H

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 . G3 C+ ?4 e0 J$ r2 a+ X
    3 L! L" j" p9 l) e* Q+ ^, O0 P8 t
    1. def uc_to_hc(text):
      / h" |  L1 `1 k: i1 x. ], u
    2.     rst = []
      , T( x/ v( N3 E. w7 C4 d7 [
    3.     for ch in text:
      : s0 V& I) H& E) e  e
    4.         val = ord(ch)2 t0 B: L6 \' q6 `2 c7 m/ ~
    5.         if val<=0x7F:
      0 j8 Y/ @. Y3 O6 `3 c
    6.             rst.append(ch)
      & W& j1 ]! \' y  P8 l! {
    7.         else:& z+ |# z! m, D  P/ B$ R6 U6 l- B
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))6 O6 i7 e4 X* ]2 Y8 f4 \6 D
    9.     return ''.join(rst)
        a3 V% r( _1 W
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序 % f; a9 c1 |( l7 ]. b4 h$ H
    https://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    昨天 13:30
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情

    2020-7-31 13:18
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-12 22:56 , Processed in 0.041092 second(s), 5 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表