掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3893|回复: 33

[讨论] 兄弟们,我们来做德语词典吧!我来提供一个思路

[复制链接]

该用户从未签到

发表于 2011-3-5 15:25:11 | 显示全部楼层 |阅读模式
本帖最后由 bingbing 于 2011-3-5 22:49 编辑
" n) u& x0 D8 F" i  A( E+ x$ C2 g( _8 s( V1 R' L. Z
众所周知,MDict上的德语词典比起英语、法语的显得太次了,没有一个看得顺眼、用得顺手的,真是让人痛心。7 Q: \9 J; p' O$ h7 j0 P
我在PC上用的是著名的Office-Biliothek,加载了些德德、德英和德法的词典,平时主要用Duden-Oxford的德英英德,使用体验非常好,于是老想着怎么把它搞下来,网上看了些说法,说这个软件用的控件比较特殊,普通的WM_GETTEXT指令对它没用,不才又不谙编程,只能使出最傻的招——按键精灵,呵呵,今天第一次用这个软件,不甚熟练地写了几行代码,用了十几分钟试抓了1000个词条,打包在附件里,请高手们看一下好做不好做。, y2 c$ E# u7 N4 f
这个代码的原理就是一行行地点击词条,然后另存为html文件。Office-Biliothek软件提供了三种另存格式:html、rtf和txt,html比较好,没有乱码,要转MDict估计最为方便,不过最讨厌的是格式跟软件本身显示的不大一样,斜体还是在的,但粗体跟音标就没有了,源码类似下面这样:8 S: ^% z! r; \" Q
------------% p- I. U  n5 `6 ]6 s
<TITLE>ab|schinden</TITLE><BODY><h1>ab|schinden</h1>
& t7 P6 i' k9 P& w8 p$ p
, a' ~6 Y3 N; c9 m! J4 }; T<!-- @C%ID=00000765% -->
$ A6 t1 G" F, B6 @ <i>unr. refl. V.</i> sich abschinden: work <i>or</i> (<i>Brit. coll.</i>) flog oneself to
% l$ J- P4 f8 U% j7 Z8 f death; sich mit etw. abschinden: struggle along with sth.
8 u* z$ o+ ?/ b& y$ w<p>
- S2 q0 E. }3 {! H " z1 c0 |7 _; ]: C
<p>* Y+ u' o# v* K2 V/ z! ~$ O
Duden-Oxford - Gro&#223;w&#246;rterbuch Englisch. 2. Aufl. Mannheim 1999. [CD-ROM]. Sat_Wolf, Bayern</BODY></HTML>
- u2 S% r" E2 L1 w& I3 N2 X-------------
/ q' R- q7 D- W* p, d  v8 x! N6 z9 [8 z
而rtf格式比较好地保存了格式,也可以显示音标,但是有乱码,有些乱码问题不大,可以用替代的方法改回来,但有些乱码直接显示为问号,这点就比较麻烦了。2 R7 Z1 l& t" K% [! U! x. }
txt就不说了,基本上没用。
" a; P: t2 a3 E, m+ R0 ?) Q我在想,最麻烦的方法是html和rtf各存一份,然后把rtf转成html,再跟原来的html比对格式,自动把html版的格式和音标加起来。这些都可以用电脑完成,但是会很费时间,而且编程对我来说也是个挑战,所以目今之计就是做html版,没有音标也无所谓了,粗体不粗体习惯了就好。
  W* r" T7 y$ C' i6 r下面贴一下我简陋的“按键精灵”代码,我还不知道怎么激活窗口,所以运行前要把Office-Biliothek最大化放在最前再按F10运行:7 u8 j. V1 b# _# C5 x2 ]8 [
------------5 n- G1 y2 l4 B, [# S$ Z
Var1=1 '抓取条目6 h# S9 [( E' e8 `* X
Rem Start
8 @, |5 L+ G" S, UMoveTo 16, 256    '词条图标处
/ N! `  J0 Q: X5 vDelay 107 O  ~' V) L! l; s$ @. d) n' [' O
LeftClick 1    '点击词条
4 M, U9 o, }2 X$ U1 R& DDelay 10! Y; ?/ _; m, W
MoveTo 781, 101    '另存为处
+ D8 m  L7 ?+ \: j; FDelay 10
; x. X9 o& }/ H5 }4 b8 dLeftClick 1 '点击另存为$ R) o" y- B5 g
Delay 209 t: |) i! o5 a
SayString "d:\temp\dict\" '另存为地址
+ _* p3 K( }3 j2 ADelay 20& t4 W8 |' g" g& z, F: p
SayString Var1 '文件名
% c# L0 B( c; K$ o0 s! [% r0 t" o& yDelay 20
7 [8 Y7 Z1 Q, Q! z  XKeyPress "Enter", 1$ u3 U- o9 D- a
Delay 208 l. A: U1 l' _
MoveTo 215, 545 '下一词条处  a  S$ X5 Y1 _
Delay 20
. D6 g8 l4 t, A1 @: A% }0 O4 ILeftClick 1 '点击滚动到下一词条
- Y/ ~/ A. p0 o7 x( wDelay 20' C5 Z; X, o  w' J5 @
Var1 = Var1 + 1% s5 J5 }$ h( U1 [! v' \
If Var1 < 1000 Then Goto Start '先抓1000试试/ ^7 Q: P5 R' E
-------------
+ W1 _9 w$ @6 Z* @, M' A1 h, n$ A# k3 {" i) v9 q/ c
这样看来,抓完全部词条只是时间问题了,剩下的数据处理理应不难。" [9 X( P4 b  s& {# J
能人志士们,麻烦帮我看看这些数据能不能用,如果有人可以帮忙处理的话,我今天就把程序发动起来。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2011-3-5 23:24:29 | 显示全部楼层
楼主啊楼主!!!按键精灵根本不必花心思去写什么代码啊!!!
7 O7 d+ G$ h1 W7 T& n5 W按键精灵有一个在线录制功能,你点击录制,就可以自动录制你鼠标操作,再设置成永久循环就可以不停操作了!!!楼主,快点启动把!!!!我无条件支持你!!!
1 G! h: E% {+ z# }; V看了你帖子,的确搞不懂该怎么做,但是你有什么纯花时间、“不动脑”的工作,尽快交给我做!!!!

该用户从未签到

 楼主| 发表于 2011-3-6 01:22:01 | 显示全部楼层
按键精灵录制的话效率太低,而且要自定义文件名什么的,直接录制肯定是不行的。
; B9 i4 w0 n) Q- x; s6 n( W我发现这个Office-Bibliothek抓个9000多词条再点击另存为就失效了,可能有什么保护机制?今天出去,回来一看,有好几个小时没抓到东西:dizzy:晚上再搞,已经出来27880条了,才到da这里,这个词典规模还挺不错的。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-6 02:09:42 | 显示全部楼层
    望眼欲穿。一定要把德语词典搞上去啊!

    该用户从未签到

    发表于 2011-3-6 09:45:42 | 显示全部楼层
    顶啊,虽然不学德语

    该用户从未签到

     楼主| 发表于 2011-3-7 08:19:39 | 显示全部楼层
    运行了一天多,终于把全部大概15.4万词条抓取出来了,接下来可能没那么快了,呵呵。

    该用户从未签到

    发表于 2011-3-7 19:11:09 | 显示全部楼层
    热情期待!

    该用户从未签到

     楼主| 发表于 2011-3-7 20:28:44 | 显示全部楼层
    需要一个程序员帮助:(

    该用户从未签到

    发表于 2011-3-8 14:56:32 | 显示全部楼层
    我不会啊

    该用户从未签到

     楼主| 发表于 2011-3-8 21:30:56 | 显示全部楼层
    本帖最后由 bingbing 于 2011-3-9 13:22 编辑
    . M) O1 X1 o* Z7 i+ F$ q" r* ^( l- k. V5 F3 M
    晚上把15多万个文件合并起来,在UltraEdit里简单处理了一下格式,做了个预览版,放在这里给大家用。% \$ O1 L1 x* H" z$ T  U
    内容基本上是截图里的这个样子,本来想把英语跟德语部分标示出来,可惜我编程能力不行,正则表达式想破脑袋也不知道该怎么写,只好把源文件也放在这里,供高手使用。
    3 o9 l8 _: \. S, R& y% V这个词典有许多条目不同但内容相同的东西,在抓取的时候因为不能抓条目,所以有很多重复的内容,我在UE里已经把重复的删除了,最后大概得到13多万条目,德语8万多,英语5万多。2 t& I9 r- f4 f3 K( t
    这个预览版我准备先瞎用用,如果够用的话就不再改进了,以后还是让高手来做吧,呵呵。
    $ [$ ~& o9 A2 o: J! ^. F; b9 ^% S
    , I9 Q8 W4 P% R2 u# ^rayfile站下载[好象我附上链接这个帖子就贴不上?]$ O7 u4 i2 }) A6 K) r
    Duden-Oxford DEED
    " |- |& ?- ~  }" R- jMDX词典
    * o- ^* n7 p2 v提取码: fbb0bb80-4982-11e0-af67-0015c55db73d
    ' K& |, q9 a& |. w# Z, g+ M2 y  Otxt文档
    ! X2 W( k* M6 Q; P, ?  p% H4 U提取码: 433e774c-4983-11e0-9638-0015c55db73d
    9 K4 U, ^) I9 ?( c6 J( l
    4 B2 e9 z* r' Z. c
    . K& w# [7 b+ D( a& C$ F3 w8 a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2011-3-8 22:40:33 | 显示全部楼层
    很nb哦。已经可以用了。很美观。

    该用户从未签到

    发表于 2011-3-8 23:29:32 | 显示全部楼层
    怎么下载呀!

    该用户从未签到

    发表于 2011-3-8 23:33:49 | 显示全部楼层
    哦,我下得来了!% G# g5 N8 @& K. }+ s
    兄弟,找这个,这个 sitan  大神啊!他最近人品爆发发了暴多德语词典,还有修正美化的,他最懂了!

    该用户从未签到

     楼主| 发表于 2011-3-9 12:45:05 | 显示全部楼层
    就上rayfile点com,在下面那个“用提取码提取文件”填上提取码。6 C: p& ^( K4 v5 T  \
    这个站是把rayfile封了吗?
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-9 14:20:13 | 显示全部楼层
    感激不尽!我是用在iphone上,请问里面的css文件也要添加进去吗?

    该用户从未签到

     楼主| 发表于 2011-3-12 21:49:06 | 显示全部楼层
    预告一下,这几天我正在重抓这部词典,想把它做得更加完美些,敬请期待~嘿嘿。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-12 22:50:47 | 显示全部楼层
    期盼!期盼!向楼主致敬!

    该用户从未签到

    发表于 2011-3-12 23:04:32 | 显示全部楼层
    绝对期待!对了,楼主看看我的帖子啊!!
    1 o; j/ Z$ @9 @- l8 ^就是那个“我有一本超好德语词典......”

    该用户从未签到

     楼主| 发表于 2011-3-13 00:21:04 | 显示全部楼层
    23# agwudismile 那个都编译好了,格式就不好改了吧?$ D* h+ |, K/ {0 Y% f5 N! k, W& g
    而且德汉汉德还有里面的德英绝对跟这个Duden-Oxford不在一个水平线上啊,那词典应急还行,用来学习还是算了……

    该用户从未签到

    发表于 2011-3-13 18:27:13 | 显示全部楼层
    我找到一个文件,里面可能有朗氏德汉双解电子版,但是对德语一窍不通,因此暂时没法破出来。  e9 Y" L* G9 |3 x! U# q
    最近上班特别忙,232681条的《英汉大词典》停滞不前了,对不起大家了。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 23:08 , Processed in 0.088248 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表