掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3576|回复: 17

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-7-4 21:33:35 | 显示全部楼层 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑 1 ]; A8 a/ x8 n3 I. V' v8 V

    0 a3 M8 J+ s' N9 g% `9 W/ ^停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D1
    * V, p8 i1 u( X' z

    0 z7 H5 J9 i; y' a) Q/ q7 ^# S: v" }; R
    单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。0 r( L& |- q, f& t' t; ~7 |2 G& j3 `
    第一步,pdf一切二:' N+ v6 A5 \$ O
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。
    0 k$ G5 r6 W, r$ d7 w
    . j) Q4 Q0 T: E
    $ X. g$ b" }' I6 U& Z/ V! B4 w* T
    , w' n: l9 T$ `. W- M7 R切好0 }. A$ F1 p, W  K; {
    , s: c# F6 ?6 ?" H, e+ f2 V: V

    ( i+ P+ ?9 `) B0 ?- q; z3 N8 x+ l7 ]$ U# V" y* ^8 t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-4 21:50:41 | 显示全部楼层
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑 # z6 L$ u9 s& H  G8 [5 W4 k6 G) ?/ W
    & G# [% ^+ K3 E* J+ _8 V" R5 ?: C0 a8 b  N
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。
    ! }2 {4 ?2 q( Q0 l0 o, X# s6 _# h, B4 B) k( _9 ]0 k
    第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。! f6 g" I: v5 z! G7 |: G

    7 Y* v. M" s% ^1 U第一个单词:
    3 U9 x2 T& l' }<div style="position:absolute;top:5.645;left:99.535;"><nobr>! S$ q, {! a3 r& ?1 W! \3 j
    <span style="font-size:7.495;color: #ab0534;">A</span>7 f+ M" C" R& h) U! x
    <span style="font-size:7.995;color: #231f20;">accommodation;</span>& l4 I" v( H# @( o- e, Y
    <span style="font-size:7.995;color: #231f20;">adenine</span>) }1 B: x) b; O
    <span style="font-size:7.995;color: #231f20;">or</span>
    $ w8 k; O. u4 Z! E: F<span style="font-size:7.995;color: #231f20;">adenosine;</span>
    ; T' I2 m" R3 x6 y$ R<span style="font-size:7.995;color: #231f20;">alanine;</span>
    " ^2 V" ^: X. `' D6 i<span style="font-size:7.995;color: #231f20;">ampere;</span>( m  W  t% k0 K! `$ {% i
    </nobr></div>
    ' U* [7 u+ E# z+ U* x. i<div style="position:absolute;top:13.436;left:99.532;"><nobr>: y9 w  L( Z* u) {6 ^
    <span style="font-size:7.995;color: #231f20;">anode;</span>1 g% _9 q3 l+ W7 \) d, k( f7 G: g0 h
    <span style="font-size:7.995;color: #231f20;">anterior;</span>- X0 E6 _+ l( s% `5 I8 K) E  Z
    <span style="font-size:7.995;color: #231f20;">(as</span>2 ?7 o" ]9 Y% }3 z: @* b& P
    <span style="font-size:7.995;color: #231f20;">a</span>
    ) O4 h( u6 x( l/ W3 `<span style="font-size:7.995;color: #231f20;">subscript)</span>
    # y$ d! L" K' ]' B<span style="font-size:7.995;color: #231f20;">alveolar</span>
    9 Z6 T/ A% y5 K6 w) C<span style="font-size:7.995;color: #231f20;">gas.</span>7 R) A! u7 ~9 i$ m9 T
    </nobr></div>% {, H8 U2 ~( W# B; B

    3 A9 ?. z( `  P1 q# M! Q# Q! i9 {# D& N/ A. o
    第二个单词:. `0 r8 F+ U7 B% E3 v( S) w
    <div style="position:absolute;top:25.208;left:99.535;"><nobr>" h3 x; a1 ]0 B5 T2 O: ?
    <span style="font-size:7.495;color: #ab0534;">A.</span>5 M+ a% B" q2 E3 ^
    <span style="font-size:7.995;color: #231f20;">[L.]</span>
    " Y' h1 M9 J; W. w<span style="font-size:7.995;color: #231f20;">an</span>
    + }' u' d4 ]* U1 U$ O<span style="font-size:5.596;color: #231f20;">0</span>% \1 a& U% H# d  C9 u4 `3 W
    <span style="font-size:7.995;color: #231f20;">num</span>1 |! p7 b" _: _9 N& P3 U2 x. T6 b: w2 C
    <span style="font-size:7.995;color: #231f20;">(year).</span># l- m+ }# h5 z! u
    </nobr></div>
    6 S8 U0 ?+ t& d3 }3 O! \
    2 I' W7 A( ?: T2 |2 p第三个单词:
    5 W# I5 ]. H' F2 m) |( h2 k<div style="position:absolute;top:36.355;left:99.535;"><nobr>( ^: |' q; r6 Z% J: Z1 x
    <span style="font-size:7.495;color: #ab0534;">A</span>
    # [; Q# t1 W5 ]/ A<span style="font-size:7.995;color: #231f20;">absorbance;</span>/ u- y- X- B, l  s
    <span style="font-size:7.995;color: #231f20;">activity</span>2 P( X; a% U: G' M- q$ C; e; y
    <span style="font-size:7.995;color: #231f20;">(def.</span>
    " o, Q3 u# v' [3 b! S9 I, }0 d<span style="font-size:7.995;color: #231f20;">3);</span>  f" R0 G; R" m+ r9 U, q
    <span style="font-size:7.995;color: #231f20;">admittance;</span>+ e2 @9 ^  [3 ]) @$ \, ]& d# n
    <span style="font-size:7.995;color: #231f20;">area;</span>
    ' X# i9 j( i  T5 P: Q: F+ ~<span style="font-size:7.995;color: #231f20;">mass</span>
    5 m/ b- g# S4 x& Y6 P</nobr></div>' `' N! h  p! V
    <div style="position:absolute;top:44.145;left:99.532;"><nobr>7 a; ^+ m* N- G9 X( O0 o2 P
    <span style="font-size:7.995;color: #231f20;">number.</span>! |  c9 Z& y5 |' o+ U# f& g0 x
    </nobr></div>9 s) u, h) l5 v1 H
    4 j$ p7 l6 V2 `5 w6 d& j5 F* d
    第四个单词:
    5 C( \+ {6 N2 o0 Q<div style="position:absolute;top:55.975;left:47.840;"><nobr>
    % E4 P$ J/ [. v1 o( ~9 M: \( M<span style="font-size:7.495;color: #ab0534;">A</span>6 l) t' x' J$ B
    <span style="font-size:4.996;color: #ab0534;">2</span>4 S( n) F, m" B" e* g6 l3 v
    <span style="font-size:7.995;color: #231f20;">aortic</span>
    / }5 |! {( t2 u; \/ c0 v4 l<span style="font-size:7.995;color: #231f20;">second</span>
    5 o& g1 s1 _  }# |7 h<span style="font-size:7.995;color: #231f20;">sound.</span>7 T5 \/ i! k7 e/ N4 w
    </nobr></div>! S; k1 x* f4 x  D% U: t
    1 k! d) h5 N# U
    4 n; H# L# e, l
    好像还可以区分。明天继续。" b  [$ B; m2 z0 Y+ j
    有没有大侠帮忙转数据的,html格式看得我头大。6 D( ^5 l+ ?/ B/ ^
    3 w4 F$ ]$ j6 }- t5 g7 |4 f

    0 T6 g/ |9 k# N. t  A# ^' Y& V/ e* @; X# ^: Q9 W3 \8 ^. z

    ; a& l9 {% g% s' X
    ) A" J. e- ]; \" W4 M# x/ B' i: o. _+ J

    - s* b% K% j4 w8 p- H
    4 B  |" X  K/ B# T( Q9 p" k! m& J9 ~8 l, D" D3 X# m. z
    - g0 C0 }# ~# d+ }0 e, C" `0 B
    7 |' D9 ]$ O0 _/ \& e+ L
    * [/ i- c# n$ _) }
    8 g! F8 H+ l$ \- b/ W+ h" X
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-4 22:10:47 | 显示全部楼层
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-4 22:42:36 | 显示全部楼层
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?) i" |$ V0 N3 j# _, g  H) q: F

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    bbs 该用户已被删除
    发表于 2018-7-4 23:00:29 | 显示全部楼层
    xliley01 发表于 2018-7-4 21:506 B8 C$ @4 {5 [" i
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。3 }! G- H5 b4 ?

    ( T; O3 r% e% X+ R: W$ Z4 e ...

    1 X. n6 Y9 d( d  \  _( ^数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:47:45 | 显示全部楼层
    greatszh 发表于 2018-7-4 22:10+ _8 a; V6 z& W2 X
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...
    4 r$ L+ f# W9 _% x2 V1 n
    大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:48:52 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    2 }& e: [0 g7 i& o4 M请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    ) W7 Q3 Q9 |% F- ?/ ^
    应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:49:50 | 显示全部楼层
    bbs 发表于 2018-7-4 23:00( o8 f+ i% R3 o; v2 h
    数据我可以帮你转一下。

    4 d- t6 u9 `5 Z2 L- D- Q1 `5 t; m太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2018-7-5 12:09:11 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42  u4 T4 ~$ W) Z% i2 A
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    ) x* z' v) M" o  z4 b
    简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 20:31:29 | 显示全部楼层
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?
    & b: M' n5 z% V, y% N% ^) h2 q* O3 e
    例如:
    1 S' N$ {- ^2 C  Y; {9 v. c<div style="position:absolute;top:111.537;left:47.840;"><nobr>
    5 f7 G$ x  g- \, D0 J- ]) r<span style="font-size:7.495;color: #ab0534;">a.</span>. B! {/ ^% v  r1 A9 _: f  w$ }
    </nobr></div>
    1 w8 o: @# m. f, t* ~<div style="position:absolute;top:122.627;left:47.840;"><nobr>2 J4 o7 g, G& n3 c# Y2 E+ I
    <span style="font-size:7.495;color: #ab0534;">a-</span>; K6 W9 N( f  p7 ^# A2 r- {
    <span style="font-size:4.996;color: #ab0534;">1</span>
      P, [) ]  w0 {! S1 ^3 h</nobr></div>
    9 T3 Q+ E2 n& d% M: T( J, d<div style="position:absolute;top:110.853;left:62.911;"><nobr># J5 V! ]9 V, B  B
    <span style="font-size:7.995;color: #231f20;">[L.]</span>; q  x( e: R, e! ]& m6 x
    <span style="font-size:7.995;color: #231f20;">an</span>3 W+ l! \+ T. d4 v  v
    <span style="font-size:5.596;color: #231f20;">0</span>9 ~& N& Z' D( y( j6 u) ]) v
    <span style="font-size:7.995;color: #231f20;">num</span>
    9 n0 [/ f: ?" Q- n+ E! w, i- X/ ~<span style="font-size:7.995;color: #231f20;">(year);</span>
    - h4 M8 D8 D* H& e2 ?<span style="font-size:7.995;color: #231f20;">a</span>; Q) J$ t+ R; M4 B& P8 }
    <span style="font-size:5.596;color: #231f20;">0</span>
    % F  l, F5 O: M# d; u<span style="font-size:7.995;color: #231f20;">qua</span>
    ( S. A  w' O, j3 U5 J' U<span style="font-size:7.995;color: #231f20;">(water);</span>* T2 Y+ R9 X8 f* H) L5 V5 j
    <span style="font-size:7.995;color: #231f20;">arte</span>
      s; r7 X1 i1 I<span style="font-size:5.596;color: #231f20;">0</span>- `: U5 f" \! i; K9 B6 ^" g0 |
    <span style="font-size:7.995;color: #231f20;">ria</span>
    / }% F; }2 e) W+ h# D/ A<span style="font-size:7.995;color: #231f20;">(artery).</span>
    - n: U& Z1 Z# b$ u- S# N" G3 U</nobr></div>8 ^3 e+ G' R# a) @& U
    7 R( M/ S% C* |7 Y

    3 h! C. m+ d" p; X5 O后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    发表于 2018-7-5 23:15:38 | 显示全部楼层
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑   G* ~1 l2 A2 E: b

    + d- F: c4 V0 F
    , B3 q  R. C: z/ V* A) x" A7 SPDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    " f. J9 i+ u/ _! o$ [) B' g: f
    ) Z. ^# `* \3 o7 H# JDIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925
    + f4 W) K0 c1 g: v
    6 P3 L( `* s" I: l+ ^4 o8 E如果要再造轮子,可以考虑:
    & r9 v' k' T6 x5 ~+ p- 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单. N/ Z) u: P5 ^* \) o& t
    - 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,4 J/ D6 h, l6 i
    - 破解 app6 M, f  A) f9 X. K( e8 Q
    - 其他
    ; q- ~7 a1 f/ x9 X7 c- g
    / o* ^+ T2 w0 E% X

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-7-6 01:45:34 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 03:21:46 | 显示全部楼层
    Oeasy 发表于 2018-7-5 23:15
    ) M) A- I! M& }) l$ [PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    $ {7 ^5 O, s" a6 u, L6 f7 e
    ) a0 o0 E) Z! I$ h( DDIMD32 在 3 年前就有人做过 ...

    ( H" a! _( ^( Z( b! @3 AO大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 13:13:22 | 显示全部楼层
    xliley01 发表于 2018-7-5 20:31
    : M9 v2 Q& \) Q由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?
    ) q0 h6 E% `7 R: Z0 `+ S, X4 C( x3 o
    例如: ...

    ' f4 x* F' k: k+ w* P关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    0 ?0 g1 l$ b+ j1 O# e8 o0 [1 Q: z! J! |6 K2 W) p; l
    2 d6 C  i5 [( l( R4 o. f4 n: h- y- W6 Y' F
    2 U' Z7 K$ \$ V
    继续努力看看。
    2 i7 [  J* G! `
    4 v1 C7 O4 g1 J5 z  l  z另外,求推荐个好的pdf编辑器。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-6-11 12:43
  • 签到天数: 1541 天

    [LV.Master]伴坛终老

    发表于 2018-7-6 19:36:59 来自手机 | 显示全部楼层
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2018-7-6 20:43:46 | 显示全部楼层
    sabrina2111 发表于 2018-7-6 19:36# L3 C# m! [4 p; P
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...

    1 P; ?4 C3 N! m2 w  d跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-6 22:55:13 | 显示全部楼层
    xliley01 发表于 2018-7-6 13:13) T1 D. W' S9 Q
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    . |' P  R9 [9 i1 L3 K
    Adobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2018-7-22 18:15:45 | 显示全部楼层
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 12:00 , Processed in 0.120624 second(s), 17 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表