掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01* H; @+ P/ t6 ~# N1 G; d" ^3 z* D
    现有的mdx词典,其实足够绝大多数人用一辈子的了6 |2 v; F. R- U; S
    & I8 f) A0 k' w  }, h0 }% p
    本人前段时间制作、收集了不少,经过一段时间的比较 ...

    3 T4 G# b2 r6 e0 F, s, I" a5 B6 [能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21( G( E. U, S0 H4 U2 J; I- x, W
    最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    * w( g4 z& f6 e" h+ x4 i- o" _默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。
    ) v+ P+ w! [- y& C其实只是你没有发现而已。
    ; K, M9 N) C8 YODE: http://www.oxforddictionaries.com/browse/english/* W: `4 V  T* a# E: W
    RHD:http://dictionary.reference.com/list/a/
    % d: J8 g, Q+ @) D4 WCALD:http://dictionary.cambridge.org/browse/learner-english/
    # d/ |7 b' B7 [* G5 w* T* A/ x0 G& I$ @' g& M1 `. M2 D% i2 v4 f% t
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    ; n( ~" R1 }/ {. E* o2 \以第二个为例:
    / n0 F: s& g! I, oinurl:browse | inurl:list site:dictionary.reference.com
    " R& Q9 H4 S8 b7 _2 i
    $ _; ]& a- B6 bPS:最近才发现这里,发现资料很多啊。* R/ p$ o8 Q3 L! z2 S5 E  t
  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 2269 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。  H* i2 i5 o* c
    在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。3 }/ ^$ R1 M( e7 R+ }  b$ c
    python其实就是java的脚本代作。。。8 L& Y8 g; l. U, J7 O
    linux现在核也不是纯是C,都用C++。。。
    ; \. N& F! C! x& l  l所以没有什么最好的,只有适用的。。。% }& |5 B; y( h
    抓站如果不用线程或进程之类,在linux上
    + N) Z6 I0 ^0 F9 w$ ?2 `: Dshell+sed or shell+awk* c: W0 R& I, P3 c8 [' j7 R
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧
    1 p' z: `$ I3 |! \7 G" j, Y; O1 c8 L% p
    假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改
    / z* ~! I6 ]1 t3 n! W' h或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下
    ; H7 t; E  R; g) W结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。2 t- F. I  q7 ]% m, {1 }& E: E
    这里有个比较省时省力的小技巧,可以快速定位到想找的地方0 m0 D! W0 ]4 }) I

    ( Q+ d" A- }. J  @, ^9 c1、Goldendict里,在想修改的地方点右键,有个“审查元素”:+ ?+ a- U* p; n4 }0 |
    7 E3 O" G. E, K9 j2 Y/ S+ l7 A

    $ z- n4 R5 U4 `: I/ ]2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    , d9 p. }2 h+ ~3 ?4 H2 A9 [. X; U
    3 j& ]) B7 R; k; n
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方
    * l# Q4 X- m/ ~7 K: ^& K( D  z; N; b( A7 s( L" y5 z

    4 F6 ?8 T7 U4 e) T' B收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件
    ' D! p- R6 Q+ ?9 Q' y9 v
    • EmEditor
    • Beyond compare9 P4 |# h1 n+ X; M/ m: ]8 j# u, y

    * p/ a+ A  r6 |# X4 g+ t8 {. M+ S
      `( c" W/ j2 ~. D0 s前者用于编辑,后者用于差分比较
    7 O: }1 k' W" p, U; {0 X) P处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考0 Q2 P# C4 N% H2 B5 @

    % _: w9 T( |( ?8 p) p7 ~网页设计中最常用的字体有哪些?(中文和英文)2 k! H, y6 ^# M' `3 N  u+ J
    http://www.zhihu.com/question/196807240 V" z# t  C! E8 r
    4 d9 o2 l7 z2 {, ^' s8 s; ^* L! Q5 P
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode& r+ E/ d+ j% Y, s$ ?
    这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全
    5 ^3 ~2 ~) j* [4 k  M' V. C另外Open Sans字体也挺漂亮
    # Z6 R3 W* r/ r: D& [0 E# F

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定
    8 \4 Y( G( ~: f
    $ q$ t% Q- J) A6 \
    1. def uc_to_hc(text):
      . W2 h' R+ H" k4 q2 M( f) W2 H9 K
    2.     rst = []; y7 e; f9 f" m, n4 c
    3.     for ch in text:) L% y* v% l; K5 }* ]' C
    4.         val = ord(ch)( u$ Z: P. R0 L% j' V- \  Z
    5.         if val<=0x7F:
      ' |2 U% G. y4 Q6 P
    6.             rst.append(ch)
      4 R# t6 C" j& P& z
    7.         else:+ K! V  D& t5 R# k
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))
      + c4 e3 i. a; g6 ~" a) P# ]
    9.     return ''.join(rst)
      : d' ~* }4 M) W
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序
    - z9 V- b4 T3 i, U9 b; Dhttps://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-2 12:22 , Processed in 0.022404 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表