掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3636|回复: 17

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-7-4 21:33:35 | 显示全部楼层 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑
    ) U" b+ M! D4 o, N" I; r5 I! B2 r  X+ m/ e% R
    停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D1
    % v: z( o8 I3 d" W( @( z
    : o) N) k# X) j% |

    9 K+ i7 Q5 X) e单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。, c8 a& e$ a6 ^9 {
    第一步,pdf一切二:! t9 |& s: v6 J/ r. ~' o
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。
    ; B0 ~2 }/ S3 A
    7 ^/ n3 ~# s& F9 L, g
    : o2 `+ \# n% t0 J
    . P  |3 V5 K0 s+ B8 k' B切好
    : P0 G' ?  @2 G" b" p4 Q, C* y# @- h; k- T5 u4 S

    0 f! A# S0 T8 n8 r6 M& A9 t. T4 S0 b) n8 l0 D% D) r8 `7 ]' y/ a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-4 21:50:41 | 显示全部楼层
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑 " U, S1 {7 F+ f

    1 V; m* i& M5 D第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。5 L' X0 `' J, G3 `, ]& D  F
    2 l$ B' O6 R8 L2 }6 v
    第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。
    $ I  F/ B3 c3 P6 W( \; Q
    4 d3 G1 M; ]; q0 W  S. \1 [第一个单词:
    1 F2 T: n5 t# a3 [<div style="position:absolute;top:5.645;left:99.535;"><nobr>
    3 U* r3 t. l7 p  _1 P2 C<span style="font-size:7.495;color: #ab0534;">A</span>
    ! y: \1 k3 v- G! j<span style="font-size:7.995;color: #231f20;">accommodation;</span>* q3 w* U: ^5 Y* H) t& e' m
    <span style="font-size:7.995;color: #231f20;">adenine</span>
    " ]! P' c  |5 q# G<span style="font-size:7.995;color: #231f20;">or</span>
    6 R; }) M, e0 w" O+ k, c$ a3 y<span style="font-size:7.995;color: #231f20;">adenosine;</span>
    5 W2 ^+ w) j3 h" o; N5 T5 f<span style="font-size:7.995;color: #231f20;">alanine;</span>
    5 W: f* A% f# ^9 r% T, f<span style="font-size:7.995;color: #231f20;">ampere;</span>/ M9 g$ C: n; T6 r: `* Z* P* b0 c& I
    </nobr></div>( h7 g. t( p+ Z- r. ^5 Y
    <div style="position:absolute;top:13.436;left:99.532;"><nobr>
    : F. @" p0 z* }8 C<span style="font-size:7.995;color: #231f20;">anode;</span>
    ) s& ^% B2 E: O2 d; ^/ P2 Q<span style="font-size:7.995;color: #231f20;">anterior;</span>' T9 T' W: M* b& r
    <span style="font-size:7.995;color: #231f20;">(as</span>
    # b) Q, U  \9 T5 K- R<span style="font-size:7.995;color: #231f20;">a</span>
    % b4 B/ D; {5 e' s" ?& L2 {<span style="font-size:7.995;color: #231f20;">subscript)</span>" h- B; _3 W$ Z) e6 Y
    <span style="font-size:7.995;color: #231f20;">alveolar</span>
    ; K2 ]6 C8 W" Q' `- Z# [* f( g<span style="font-size:7.995;color: #231f20;">gas.</span>
    % b5 r5 c! U/ U+ H+ ]* A! V</nobr></div>1 {  |( r) a, E7 `
    1 T9 K0 |. ?% Z
    ! X" ^/ y/ W7 u! h3 ^. A3 I
    第二个单词:5 l' e7 C" b: w' Y
    <div style="position:absolute;top:25.208;left:99.535;"><nobr>
    % c# s: @4 ]+ X7 m/ n! Z<span style="font-size:7.495;color: #ab0534;">A.</span>. E. S; d) B% [. d) H
    <span style="font-size:7.995;color: #231f20;">[L.]</span>' I  f, E( b* `+ r3 w( Q5 l
    <span style="font-size:7.995;color: #231f20;">an</span>
    2 r6 a' Y2 o* ^7 _  {( Q<span style="font-size:5.596;color: #231f20;">0</span>& f& Q5 O% z8 d2 W. x2 J3 k9 j
    <span style="font-size:7.995;color: #231f20;">num</span>
    4 T" Y- j9 L. d' j5 i+ X<span style="font-size:7.995;color: #231f20;">(year).</span>9 W( w5 m4 r0 A' ?! D
    </nobr></div>
      _# b0 ?) D0 P$ n0 _& W+ B0 o' y- H  _/ G% X
    第三个单词:
    & u+ h6 Q! L, F& S  j<div style="position:absolute;top:36.355;left:99.535;"><nobr>) G2 n1 F6 m) ?5 \# F  n  Z7 D. R
    <span style="font-size:7.495;color: #ab0534;">A</span>0 ?9 u, h; {4 V
    <span style="font-size:7.995;color: #231f20;">absorbance;</span>
    $ V% x/ C! x5 a6 \( R( e<span style="font-size:7.995;color: #231f20;">activity</span>
    1 q# v* |% `2 N1 ^! v<span style="font-size:7.995;color: #231f20;">(def.</span>
    4 m. F, s/ s( o. u<span style="font-size:7.995;color: #231f20;">3);</span>3 k7 n8 y* V, d$ e
    <span style="font-size:7.995;color: #231f20;">admittance;</span>* N7 e4 b. @2 t; `. m  ~
    <span style="font-size:7.995;color: #231f20;">area;</span>
    3 Q7 }3 o, d& `" m2 Z- D<span style="font-size:7.995;color: #231f20;">mass</span>
    - K; R* d( O/ x</nobr></div>
    3 ^* y/ j* x/ t<div style="position:absolute;top:44.145;left:99.532;"><nobr>  b* F! Z+ N4 ~0 ]6 N
    <span style="font-size:7.995;color: #231f20;">number.</span>0 g6 L9 F3 O  c* S
    </nobr></div>
    0 T" Y3 K1 A0 e6 e$ _6 `
    # U" W5 @$ t; H# m& q9 c4 ^2 O: Q第四个单词:
    $ @1 s+ x4 Q1 f7 u<div style="position:absolute;top:55.975;left:47.840;"><nobr>+ g* c/ d8 K9 _, m* X' O
    <span style="font-size:7.495;color: #ab0534;">A</span>
    & ]$ w7 m% p! d' O& k<span style="font-size:4.996;color: #ab0534;">2</span>
    : e/ }" e- A0 B) n0 Y, y- g$ l" ?<span style="font-size:7.995;color: #231f20;">aortic</span>6 K4 m) R3 S8 T# `/ n- D+ C
    <span style="font-size:7.995;color: #231f20;">second</span>" L; X; d  p' ^1 w0 Q
    <span style="font-size:7.995;color: #231f20;">sound.</span>
    . W, }+ E' a/ B& I- ]</nobr></div>
    6 S. t, m, q9 p- q0 G! s4 U% j5 T& w3 E1 ^0 A: j6 m* ^
    ) W9 h: [" f3 F- Y8 @3 x- l
    好像还可以区分。明天继续。
    + Q3 P. g8 o, o& w8 m4 \有没有大侠帮忙转数据的,html格式看得我头大。( M. T6 v; e2 r* K
    + r4 B0 n& \, u% a' l

    ! V3 _8 J" J; f7 J% U
    ) k: f) {5 g4 q+ `
    9 k' a- }  a* d: g' u
    . V$ b& H- u, d) h+ T3 p
      T: q2 d. Q/ [' i/ c  y6 k( _. Z/ K2 r' @% S) d

    8 ]8 @7 n0 d) i0 E2 u
    9 f$ Q8 Y4 B2 I; F5 o$ x, J; J1 f0 x) q

    7 _4 i1 @" E6 l7 j8 [1 }& `5 J8 ~0 U' [

      i7 q8 ]+ p- `- x( [
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-4 22:10:47 | 显示全部楼层
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-4 22:42:36 | 显示全部楼层
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?+ F; n. |2 ^0 F1 c$ k/ H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    bbs 该用户已被删除
    发表于 2018-7-4 23:00:29 | 显示全部楼层
    xliley01 发表于 2018-7-4 21:50! B  w) e! W8 \; ]) N) j
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。
    + t3 z4 ?! V3 |7 a: N1 V4 s- H/ j5 k% v/ q5 ?
    ...
    6 r$ d1 }3 z8 F2 M
    数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:47:45 | 显示全部楼层
    greatszh 发表于 2018-7-4 22:10' J+ b5 k' u: k( [/ n2 r) X
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...
    + Y5 D( x( t( q% i, b
    大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:48:52 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    ! `2 j( E+ g  J, N9 Q请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    ( F4 ^$ T' l( e5 T! E: @+ D# D1 @
    应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:49:50 | 显示全部楼层
    bbs 发表于 2018-7-4 23:00
    , P/ a' @) }% r9 t5 p* d数据我可以帮你转一下。

    ' S& i2 I1 O0 r* a* q6 a! f太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2018-7-5 12:09:11 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    $ h; N% Q4 u+ T: j请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    4 f! J% V; m' T/ P
    简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 20:31:29 | 显示全部楼层
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?. t' y8 D! H* H+ ?1 t

    ; G3 f1 v& y+ i2 A例如:/ w* v/ v" U$ D) h8 [! w& Q7 ^
    <div style="position:absolute;top:111.537;left:47.840;"><nobr>2 ~' }- w+ s# S* n
    <span style="font-size:7.495;color: #ab0534;">a.</span>$ K: j0 E& s" D; U* P' ?/ f
    </nobr></div>
    ! a) @0 Q3 d1 h<div style="position:absolute;top:122.627;left:47.840;"><nobr>: u+ ]) z$ n$ R: H* ~# K; x2 [  f
    <span style="font-size:7.495;color: #ab0534;">a-</span>+ v) F! q( r+ K3 J2 a0 ?
    <span style="font-size:4.996;color: #ab0534;">1</span>2 R4 o6 Y; e5 R# X& e* L* V' f
    </nobr></div>; A1 a4 C" C& G4 O! ^6 C0 O, ~
    <div style="position:absolute;top:110.853;left:62.911;"><nobr>$ \. d3 X$ x  H& V( z
    <span style="font-size:7.995;color: #231f20;">[L.]</span>& i& c$ v) C5 s
    <span style="font-size:7.995;color: #231f20;">an</span>7 J5 b5 d1 s: ?
    <span style="font-size:5.596;color: #231f20;">0</span>
    # @6 t' ]# F8 e: X0 j9 i- m+ m" Q& S<span style="font-size:7.995;color: #231f20;">num</span>
    ( F* L3 ?6 f' m7 A$ f<span style="font-size:7.995;color: #231f20;">(year);</span>, A$ q' U6 {2 h0 O3 {$ R: ]6 T$ C
    <span style="font-size:7.995;color: #231f20;">a</span># [( O8 P% g1 ^, p& ~
    <span style="font-size:5.596;color: #231f20;">0</span>; z2 P$ ^$ h2 O7 H5 J3 v' t" U& B
    <span style="font-size:7.995;color: #231f20;">qua</span>+ h6 D2 N* u: ]. l
    <span style="font-size:7.995;color: #231f20;">(water);</span>$ z. e  L4 ~# [2 W' v9 \
    <span style="font-size:7.995;color: #231f20;">arte</span>
    - j, W1 y5 N6 B6 }<span style="font-size:5.596;color: #231f20;">0</span>
    * _- z7 b( m' W) u& j% \1 U<span style="font-size:7.995;color: #231f20;">ria</span>6 @+ G' j/ E6 D& n
    <span style="font-size:7.995;color: #231f20;">(artery).</span>1 C: S: M7 ^- R* X2 w
    </nobr></div>
    # c  A6 T" [2 {3 A: `: F6 _* }. b2 H/ G

    $ y  _5 }+ f: |, K* W% m# U- |后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    发表于 2018-7-5 23:15:38 | 显示全部楼层
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑 % [& A; {! O8 q
    : P, D. t' a4 i# x
    5 l7 ?9 c$ K3 B+ q8 Z+ q0 W
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。: l- X( H$ N- }9 m8 x; m3 x
    6 @; |$ q  G% e: s' _& e2 d
    DIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925
    * D7 k* L# C, \1 }4 s6 q% ^& z4 f' l, Y4 {# Q+ V7 n. h. t
    如果要再造轮子,可以考虑:3 {" a0 ]; h- W' C7 c' \& o
    - 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单
    * }! O' x7 m) U7 `' N3 E" ~* B- 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,' \& a4 R* d9 {7 G, D8 A/ s
    - 破解 app0 O2 n; |% f7 [, [% q: u
    - 其他
    0 P" T" P! y" h! O4 y0 |# ^/ @# b+ t. V3 H; ?/ z- s

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-7-6 01:45:34 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 03:21:46 | 显示全部楼层
    Oeasy 发表于 2018-7-5 23:15
    ( O) g4 j' r9 U/ D: B, S" ]PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。  S9 e- ~) p+ t  i2 V$ \- |
    " Y! {2 z1 S5 u4 I3 A- f( w
    DIMD32 在 3 年前就有人做过 ...
    ) y4 T: p3 A2 ^
    O大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 13:13:22 | 显示全部楼层
    xliley01 发表于 2018-7-5 20:31
    5 F6 e& @7 b/ b# D) m由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?( }! ], u; A9 Q7 e  ^% g' L0 b

    7 r* X0 \3 G1 P( n2 ]/ U* v例如: ...

    ( h) s' f% u8 j2 A  C关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    ; `1 h# ~  [  `2 s2 ^8 u" F% \, }8 {9 q5 |

    4 F! V, ^4 b: A& U& X
    1 l  {7 ]% Y$ X. B3 x0 H+ W继续努力看看。0 a" L& k( \' N
    3 o6 J4 l  R' o3 A7 p( o
    另外,求推荐个好的pdf编辑器。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-6-11 12:43
  • 签到天数: 1541 天

    [LV.Master]伴坛终老

    发表于 2018-7-6 19:36:59 来自手机 | 显示全部楼层
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2018-7-6 20:43:46 | 显示全部楼层
    sabrina2111 发表于 2018-7-6 19:36* a3 J( T7 R- w. l* N* i
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...

    ( B7 p0 B; b2 m6 \& o, ?跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-6 22:55:13 | 显示全部楼层
    xliley01 发表于 2018-7-6 13:13! j4 Q/ X$ }4 j, }- F0 ^" }* T
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    0 w; o7 e3 C2 H# q( v" W/ P
    Adobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2018-7-22 18:15:45 | 显示全部楼层
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-7 08:37 , Processed in 0.060629 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表