掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    3 f& a9 N8 ^2 g7 p现有的mdx词典,其实足够绝大多数人用一辈子的了8 F' K0 i7 }* \) m

    & U4 X, n. b/ s本人前段时间制作、收集了不少,经过一段时间的比较 ...

    2 q- @( d8 \: w7 a4 v能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    : N6 a& j, V; X& H7 w( h8 R4 s! V最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    1 x% e! V. S" }7 }" m; `默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。
    - }+ I3 }0 F# C7 o其实只是你没有发现而已。6 O4 h& G2 x& }& Y# Z' F+ m# W! \2 {
    ODE: http://www.oxforddictionaries.com/browse/english/0 Y# D0 v# [. S8 c7 v3 C/ f
    RHD:http://dictionary.reference.com/list/a/
    " Y' u6 g3 j; r+ I; ?CALD:http://dictionary.cambridge.org/browse/learner-english/6 Z$ K. u% N+ P- {  `

    8 O5 U  R) R, y+ H5 d, ?如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    ! _$ r% o  }( O9 q以第二个为例:! B- J  ?3 ?7 l
    inurl:browse | inurl:list site:dictionary.reference.com
    $ Q* |' U7 S% [0 c+ p% X; ?# h) q# s4 A# d& M
    PS:最近才发现这里,发现资料很多啊。
    - e9 j  w# p# s- u
  • TA的每日心情
    开心
    昨天 08:00
  • 签到天数: 1914 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。
    4 O* f0 i/ f4 Z9 A在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    3 t/ `6 x2 a! S$ |& n4 \7 Bpython其实就是java的脚本代作。。。
    1 [9 s+ A5 l$ e, f+ h' flinux现在核也不是纯是C,都用C++。。。
    ! v0 o: K! U  ?6 j* z4 K% ~所以没有什么最好的,只有适用的。。。% D1 s+ ^. Z! k! b1 X
    抓站如果不用线程或进程之类,在linux上
    ) ?; S$ E( R" e/ v+ H5 p- Mshell+sed or shell+awk- s: b( F! n9 J+ o/ C7 ?
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧3 w& G' m0 L0 T

    9 V% u+ I9 r8 A0 D) q1 e假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改
    0 t6 B/ \% E$ v9 Z4 N0 J或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下/ G5 l( S" b; D3 _# g5 Q
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。
    6 n3 l/ @8 a- \! v4 L这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    # z1 u- z# S1 {! L
    ; ]# m2 s4 X7 h, s8 e5 Z  r7 L1、Goldendict里,在想修改的地方点右键,有个“审查元素”:
    2 N( d! \& a( N' H1 v
    4 m$ u% A4 W+ \
    1 _4 ?7 T& L! x$ P  X& ~2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    6 P2 D) t5 V6 ]. b) r( n4 B
    % h% U5 u* H* w8 p* i' p4 V& ]! ^3 I
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方8 m8 |/ S. g' }+ E. \# \5 Z

    & n6 V, h4 Z7 T* p$ N6 S) R, w; B6 O/ |6 u' A
    收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件5 V  T% X  Q" q& w  z3 a
    • EmEditor
    • Beyond compare
        l. k. x, |( a( s% E
    7 l) _: Q. j" x( F" k! \3 E! Z

      c& w5 V3 T6 `前者用于编辑,后者用于差分比较
    ; b! c9 ]; z- `* P处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考2 M2 W; Z( V3 v& \/ Y; S9 t

    2 y6 ]& b! D5 a7 u5 f网页设计中最常用的字体有哪些?(中文和英文)$ e6 R, f5 U: V0 T8 C0 b8 R  q
    http://www.zhihu.com/question/19680724
    ' o0 k( X+ H  |' y! S& F
    . F& `/ f. r  O/ _3 [本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode5 S& h7 e0 S9 d/ }' |
    这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全' @* u) X$ x) Y5 Z5 y- _
    另外Open Sans字体也挺漂亮
    5 V" K6 i3 X2 P& l( Z% d0 A% z

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 7 ?, W+ D/ X) h5 R

    7 m$ b- F( S( m" B
    1. def uc_to_hc(text):
      # Y9 g$ Q' n( d* f5 v
    2.     rst = []
      " U5 N/ V; o% {0 Q2 i
    3.     for ch in text:6 p+ N8 I/ p& p: W' H% f
    4.         val = ord(ch)% F) l2 H0 Q3 u6 s+ z( ^
    5.         if val<=0x7F:4 `$ b( q% l+ c: C/ `. ^4 |0 p6 T
    6.             rst.append(ch)2 `' N3 G" r! ^! H1 w  D6 }, ]; [" l/ H
    7.         else:
      5 `, D2 d; y7 y
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';')): _  W" r. f/ z8 e# |
    9.     return ''.join(rst)) P5 L9 b5 Y+ n" M  Z8 M
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序
    6 ~; s; n( }- S! N) Q) shttps://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 08:14 , Processed in 0.062368 second(s), 4 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表