掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    * L& K, Z+ K' |3 S# y6 ?现有的mdx词典,其实足够绝大多数人用一辈子的了* l$ W$ }* O9 u1 v" }5 g! `- y6 f

    ) u! t( N) M# ^" d$ }本人前段时间制作、收集了不少,经过一段时间的比较 ...
    & ?0 O+ [8 z$ g" q  p
    能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21: }) |* Z$ a# U
    最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...
    7 D8 V, b/ W" q' X5 q4 w
    默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。4 r, D, s6 T2 I* q. |0 {2 n  r) z
    其实只是你没有发现而已。
    9 S& {: L1 a8 x2 D' HODE: http://www.oxforddictionaries.com/browse/english/1 l( Z! J4 U2 Z, a+ I% c
    RHD:http://dictionary.reference.com/list/a/3 R1 x9 J8 f4 U1 V  @0 b6 _
    CALD:http://dictionary.cambridge.org/browse/learner-english/+ W( M' i$ k0 L: T3 x1 ?0 h7 }

    " R, t1 W) p( I9 i如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    / T: X' l7 X! d以第二个为例:7 R5 x4 u2 H) |5 P( O
    inurl:browse | inurl:list site:dictionary.reference.com
    0 q7 ?3 D6 M- v
    4 a  ^: q8 T% n( l9 J. E: JPS:最近才发现这里,发现资料很多啊。
    7 e9 W8 \6 v7 o  [& s3 E" M, {5 N+ B: b* `
  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 1915 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。
    7 r0 c; S- e* K# D+ [$ s在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    ' [, j1 q. T8 {4 X! lpython其实就是java的脚本代作。。。0 q4 c+ C& P+ @' u
    linux现在核也不是纯是C,都用C++。。。6 [: E; v" L; M* S
    所以没有什么最好的,只有适用的。。。
    ' {* a' W; e' ^3 J/ q. G抓站如果不用线程或进程之类,在linux上; A* W. u+ C  q
    shell+sed or shell+awk& v8 D. L5 X4 y3 o# J! i8 w0 v, T
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧! ?& h1 {8 J7 u" }" y$ H; A2 x  s

    * d# \: S  T# b6 l" u, F" [假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改, O" t* Q# q" L. ^7 X* b
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下
    + n8 ~6 L  M- h7 F2 `# O结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。
    ( w# {. b/ D. u8 A) _' @( J$ F这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    % A2 k3 K; @+ p8 v$ Q" [% L2 M7 O3 F/ ~: A. M2 j9 h* V
    1、Goldendict里,在想修改的地方点右键,有个“审查元素”:* y! B) j3 q( @8 `' k
    ( C# k9 P$ y$ s
    ) x  i/ P( ?! {2 o
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    5 S0 e+ P" O: r5 y3 ]2 m* z, S# _* ~! q5 ]8 s

    0 p6 I1 K; B! j0 M* i3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方9 n" t" L& P, R3 H* v' s
    : ]7 O' z) g: e) E# h, }  M6 V
    . V9 v# G+ ^8 O. h) q0 J' h
    收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件6 F  b* z4 b: k0 A# F1 D9 x* k
    • EmEditor
    • Beyond compare& a  n! ]- m& l! X$ p6 R$ ~0 V
    % f) P0 i+ |& T1 P
    4 c, j9 J# B; j  t
    前者用于编辑,后者用于差分比较% J8 v6 T" ~+ |2 k4 K+ \( w
    处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
    ( T+ V0 ^& l: Z: L/ [
    $ A2 z2 j$ i8 J9 j$ D网页设计中最常用的字体有哪些?(中文和英文)5 A, S, l( V8 W1 ]: Q, \
    http://www.zhihu.com/question/19680724' Y/ l, E% e( @. \
    6 K3 e! m: w% M# F0 n
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    * `$ k$ \( |" h! F. Y- z这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全
    2 s, i5 a7 T) T另外Open Sans字体也挺漂亮
    # f5 V, I8 s: f4 M' _$ K* b

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定
    # N+ k: Y: r- e6 {, |3 a  O1 Z4 a# d% S$ v- r
    1. def uc_to_hc(text):4 I5 u% R7 j- `3 a1 [. k+ k
    2.     rst = []
      , A/ [; {/ ]. W, p
    3.     for ch in text:2 t; W( m% m  G9 c
    4.         val = ord(ch)8 m4 F( s% L# U: U
    5.         if val<=0x7F:& m- Y; Y) Q4 i
    6.             rst.append(ch)- {; Z: `( n3 d) l) X3 m4 O
    7.         else:6 i# S  u( _. }$ x! r; [
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))
      % O- ]# |  k' e+ y! l" s0 g! j) i
    9.     return ''.join(rst)
      0 |, `  K/ g  ?7 _& q1 @
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序
    9 L' a6 X' l( T# H1 q. s* Nhttps://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 20:49 , Processed in 0.044059 second(s), 4 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表