掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:015 O0 r. I, q" M
    现有的mdx词典,其实足够绝大多数人用一辈子的了% ~( T+ D' X( A. S) r6 w
    4 k# }* ]& a: C0 l3 u2 U3 O: k
    本人前段时间制作、收集了不少,经过一段时间的比较 ...

    2 w% c/ e- B, B' t; E能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    ) v! Z8 L" G8 A& v2 q最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...
    & O! t" D" W& f0 A
    默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。$ ^# L' c7 d$ i! `$ n- b
    其实只是你没有发现而已。
    ; c% A4 ~) x; U  L, [! `- k8 NODE: http://www.oxforddictionaries.com/browse/english/  f, ^" E8 ]- `( Z5 Q: |
    RHD:http://dictionary.reference.com/list/a/8 R9 J, ~* `' P$ g: L4 ~% i" a
    CALD:http://dictionary.cambridge.org/browse/learner-english/  `# L; k5 K9 N; F% H, }- L. Q
    ' p7 L2 v0 p; \2 m% w4 g; {) |
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    & G/ C9 |# r; [$ p以第二个为例:* S! \. [& d1 o2 j
    inurl:browse | inurl:list site:dictionary.reference.com! n$ p( q/ V* }: H/ z

    3 G+ ^  X- k6 f, [7 lPS:最近才发现这里,发现资料很多啊。
    / f2 M( C: ?1 d9 i' k
  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 1914 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。4 ^$ ^# i3 ~& A, a8 F
    在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。. A% R" G6 G9 J. _. [
    python其实就是java的脚本代作。。。
    + |) f( i. E4 A0 Z3 |linux现在核也不是纯是C,都用C++。。。
    & s4 C6 _5 A; [; {1 T  ^, b- ~所以没有什么最好的,只有适用的。。。9 f+ O& L1 O9 G0 f
    抓站如果不用线程或进程之类,在linux上' U- C; V) w$ V) I3 d5 r( c5 z
    shell+sed or shell+awk
    ! [, h* y, L; ]* f% {wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧
    8 C+ P6 X* a6 J  H
      T3 y' j  a, n+ p' L0 @假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改3 |; o: U" n5 r$ j! n8 j
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下
    8 o4 D6 a  T  [* E4 i结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。: v3 J; a1 s+ v! L; ?
    这里有个比较省时省力的小技巧,可以快速定位到想找的地方: s5 |. Z2 A$ \6 O, c( `- R- K
    0 X0 U2 F6 D; e
    1、Goldendict里,在想修改的地方点右键,有个“审查元素”:
    6 ~' J7 h: @  ~; C: a
    / R! s* P8 t. X( }6 b! [) J  R7 a3 B) u7 w; v4 S, s' o! o
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事7 }" u, d- `+ L

    ( i: J; B9 }) _6 Z
    , Q0 D  `" i: T  Q4 V" H3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方
    5 ]! N) V8 r! a$ C5 K/ F* P" Y) v" C# d8 H; V

    ) t  o5 G2 `. y9 R! o收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件
    ) N) ~' s! P+ }' l/ V
    • EmEditor
    • Beyond compare5 @+ s  l/ b5 a: `+ N$ O6 s
    $ a( t5 o( G4 Y2 g, w9 p  S* B; L1 e

    ' V: I3 A/ O/ [" c& x0 ?0 J* @* w前者用于编辑,后者用于差分比较( d2 [- X0 T6 Y6 P
    处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
    1 @# ]. p! q! M( U9 z0 U2 C' E, e; K- [8 [3 W% ~/ w3 J; w
    网页设计中最常用的字体有哪些?(中文和英文)# {6 y2 k& h) T5 q/ m7 W& q5 Z! K
    http://www.zhihu.com/question/19680724+ x7 ?3 v& J# Z$ p
    * R( q. I2 D! u) ~$ g6 D9 Z  T
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    4 n" n* V( n. L$ ]这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全, D' l# h9 O$ v; t4 z1 a' K. i% H
    另外Open Sans字体也挺漂亮
      W) |# q/ Z/ W0 S

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 : i# n6 b. l7 c
    6 C' w3 \( b1 J: A+ @
    1. def uc_to_hc(text):) p5 ]$ Q# n& k7 w
    2.     rst = []: }) x5 w9 l+ g& X
    3.     for ch in text:7 e! D4 O( M2 E+ v' o/ p. X
    4.         val = ord(ch)
      * k. J9 e- Q0 ?6 B
    5.         if val<=0x7F:
      5 _( C/ _9 H# w4 C" E: u9 b
    6.             rst.append(ch)
      5 a( A+ o7 R6 t) K
    7.         else:7 f% `7 G- s0 A& {" f3 k: B
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))6 `8 s1 J1 E$ ]7 z& ~: ?+ ^$ c
    9.     return ''.join(rst)
      # U0 D% w% w1 L7 M
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序
    9 E& X5 D/ ?: Z/ J' c( F+ ghttps://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 23:11 , Processed in 0.059366 second(s), 4 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表