掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    ' |0 ~* k* r. ^0 s$ ~4 |" |6 D现有的mdx词典,其实足够绝大多数人用一辈子的了* v5 F* d  t. \4 ^

    & _/ }6 M# W4 O本人前段时间制作、收集了不少,经过一段时间的比较 ...
    ( |" {- y* U' W8 z2 l- C- }
    能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    6 B7 {/ k9 N1 b; A  ~( N最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    6 ]3 I7 S: a& c' f! [默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。( h, P& j  o1 a, a: b1 ]" Q
    其实只是你没有发现而已。6 e/ h0 a# V* [' H  \
    ODE: http://www.oxforddictionaries.com/browse/english/
    ( C& F6 a$ c* p- P: W3 VRHD:http://dictionary.reference.com/list/a/2 l: K' f# I& q! |5 x0 J
    CALD:http://dictionary.cambridge.org/browse/learner-english/7 L9 L' j7 r' ?$ _
    , N1 P2 f3 R3 i8 y8 ?+ k* H( O7 o
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。* o$ T( \8 _* {/ ~* L
    以第二个为例:
    ! V* x. I9 Q1 u# w0 vinurl:browse | inurl:list site:dictionary.reference.com% o) r" T) g: V* F: [5 V
    9 r! ]$ J5 f7 v6 s' G/ d6 q2 u
    PS:最近才发现这里,发现资料很多啊。
    $ i# s$ r8 f4 Y- c0 \0 k( E0 K
  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 2312 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。8 }$ M8 K1 i* \+ p
    在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    " V1 I$ d" J9 U" gpython其实就是java的脚本代作。。。7 H& [' l0 A( R8 i1 G+ O
    linux现在核也不是纯是C,都用C++。。。" d2 V; o" |# \2 }2 C6 z: ?
    所以没有什么最好的,只有适用的。。。
    % [4 k* K0 c! c" y# G抓站如果不用线程或进程之类,在linux上
    1 p) e; f/ v6 N! z) r; sshell+sed or shell+awk( F$ M4 T# `- Z$ T+ r8 F- V
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧
    * z3 U1 u8 ^, ^; l5 J1 U5 }
    3 _& K6 J1 b4 O4 s5 F假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改
    ) k7 T, X. O1 N, b! o- {: B或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下1 C/ Q# ?$ t5 T: O' S* ~* D+ i, `  s: T
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。
    9 O+ i1 F2 f+ U' K, X+ \: L这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    4 F% e: ^+ X# Q2 w0 u+ `* l# Y9 g; [3 {+ W
    1、Goldendict里,在想修改的地方点右键,有个“审查元素”:( u* K: e! `  d9 f1 d

    4 O9 R, C" ^2 u9 U7 ]& y! T+ E' `4 I
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    6 d: G' n$ X, K! ~1 m1 x" K! i' W- b7 \) ~, W% F. |
    " s7 O$ o4 n1 e
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方% m! x9 g! w( m& T* ^

    ) y1 _- H# n. T0 g. k6 `5 d3 M4 E( e7 Q! j; _& q% Q, i  f
    收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件
    $ S+ h- N& f$ S6 ~, Y, G( w. q
    • EmEditor
    • Beyond compare
      5 [  y7 p+ k6 {( q7 l9 e' F$ c

    % E% U5 }+ m0 F0 O
    7 |: l% I/ O& P前者用于编辑,后者用于差分比较& j4 Z. k9 e4 I1 f) W; p" L$ G
    处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考' h- b* F# O3 c  H* ]/ p- o
    # J7 M' @1 x9 d
    网页设计中最常用的字体有哪些?(中文和英文)5 ]# v( z% j% k; t* M" K' F
    http://www.zhihu.com/question/19680724
    ' f9 z. v$ V  J$ e) c- {1 \5 k1 H0 v! i$ i: f5 ~8 X. B
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode9 M1 A/ K& l& t' J7 l/ B; v
    这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全
    - r& V4 o& F, l* w" ]2 U2 \另外Open Sans字体也挺漂亮
    ! Z8 D* i+ t! O4 N9 j2 x. {! b

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 1 @! g  e0 ~! a) Y9 W7 g

    * Q3 r6 ~* _* _
    1. def uc_to_hc(text):7 ]; r) W# h& g6 `- `( ?* X
    2.     rst = []
      ( e2 \' f1 H9 A3 e8 h" f
    3.     for ch in text:9 o: X: X7 Z- B* H: D$ R3 S  l
    4.         val = ord(ch); p. K' [; N/ r, m' y
    5.         if val<=0x7F:4 O; c' Z% W' Q. O
    6.             rst.append(ch)6 F( |" t. e1 s2 f- F- d3 Y
    7.         else:0 \- o- ]4 T4 }4 s# q8 W
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))
      8 Q* N# M4 n: ^- G" B, W2 Y
    9.     return ''.join(rst)! m, |3 w9 D  e& X7 g
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序 ! h4 Z3 z; X" e, I% k2 w
    https://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-16 16:43 , Processed in 0.021911 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表