掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4712|回复: 17

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-7-4 21:33:35 | 显示全部楼层 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑
    / J/ X* z# Y( u0 D7 f
    6 B. X7 A7 g1 o% k- f* U2 v* c停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D1$ P8 V+ q& m0 o/ u1 M6 i

    $ l, z8 X( m% N' u) D$ z0 ~' E4 B1 Q
    单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。! h6 g4 W, q7 W
    第一步,pdf一切二:0 A5 @6 p# V% a" c2 e; a; \/ j
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。1 n, q, n, ?5 G) R! u
    - k8 O, v' L8 k, `; J8 y
    / |! n4 k- K- `) L+ g* v, {
    / S! P% d0 h: d  w) i
    切好
    & z" a" o9 p) O" [1 ~: U! k. r
    & R2 g3 M2 _4 H  ~0 u7 ]# z# f, {# c2 E- T/ P0 r

    ! w" E" g* K0 O- z" Q" ?# f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-4 21:50:41 | 显示全部楼层
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑
    , N; `( X; ]) s9 }& `$ ~. `0 k9 w# I% p) W
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。
    & c+ C% Y+ `% W1 E
    0 D( Z% S7 S$ {7 Y. ^; [第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。! `0 ?" m9 W$ \; O/ d
    ; m% V/ x1 F1 M( E# U
    第一个单词:
    - g4 d$ c1 Z% m+ y) o, D% h<div style="position:absolute;top:5.645;left:99.535;"><nobr>
    % x4 K6 b) \0 o' b1 m6 Q<span style="font-size:7.495;color: #ab0534;">A</span>- Y  W; I* ?! B3 ]9 F" V9 j& f; G
    <span style="font-size:7.995;color: #231f20;">accommodation;</span>
    / ^' `" U8 _. _5 ?" E<span style="font-size:7.995;color: #231f20;">adenine</span>
    2 A% @5 T" A" I" v9 u0 G' s  h<span style="font-size:7.995;color: #231f20;">or</span>
    % p' @& h8 x8 B; T<span style="font-size:7.995;color: #231f20;">adenosine;</span>9 [) j9 a( b: Z1 w
    <span style="font-size:7.995;color: #231f20;">alanine;</span>
    4 B% }5 Q# W4 P$ K<span style="font-size:7.995;color: #231f20;">ampere;</span>6 |; r3 u2 \! B$ C/ I4 q/ d
    </nobr></div>
    5 n  y( `5 O, N7 N$ A- w1 }: a1 U<div style="position:absolute;top:13.436;left:99.532;"><nobr>
    8 U* g- g' j* a+ `6 ?<span style="font-size:7.995;color: #231f20;">anode;</span>
    8 k; `% x; z3 d0 X7 c<span style="font-size:7.995;color: #231f20;">anterior;</span>  e( O7 d& L1 G4 {$ J# E( G  t' m4 A
    <span style="font-size:7.995;color: #231f20;">(as</span>3 V# u5 k& @4 D- b9 c- y( ?: A
    <span style="font-size:7.995;color: #231f20;">a</span>
    + m6 c8 j9 ]+ m4 T( D( v<span style="font-size:7.995;color: #231f20;">subscript)</span>7 Y9 m& e" q% g: l% D
    <span style="font-size:7.995;color: #231f20;">alveolar</span>! t- r! u' P2 v
    <span style="font-size:7.995;color: #231f20;">gas.</span>- @6 I# ~4 o1 l% V% f
    </nobr></div>& D( n) w% }+ o( t9 I' i" d
    + [5 i7 N  s8 s4 ]% u  p' |& P

    ! _  x5 f& w$ S% |6 e第二个单词:
    5 n/ i" q5 s! T* @<div style="position:absolute;top:25.208;left:99.535;"><nobr>' @  R" h' b# j+ x
    <span style="font-size:7.495;color: #ab0534;">A.</span>; T/ L0 ]4 {4 L% [
    <span style="font-size:7.995;color: #231f20;">[L.]</span>
    & g, f# A4 P7 |$ V+ r" h4 v<span style="font-size:7.995;color: #231f20;">an</span>
    2 s$ H* u, Z0 o0 k<span style="font-size:5.596;color: #231f20;">0</span>9 P4 Y& `, i  w5 r/ z0 V1 g5 b0 K
    <span style="font-size:7.995;color: #231f20;">num</span>
    % t" y% V) J0 i5 z% y<span style="font-size:7.995;color: #231f20;">(year).</span>9 p9 t3 X  v3 p( \& J1 E  p: V
    </nobr></div>
    . P2 B. S+ q+ G
    % `# Z) V  b, E% u第三个单词:
    # ^* t* W; P( O; R5 K' l& D- h<div style="position:absolute;top:36.355;left:99.535;"><nobr>
    & P: Y. f* V( O; U  X& K<span style="font-size:7.495;color: #ab0534;">A</span>
    * U( g( e0 g: A6 l<span style="font-size:7.995;color: #231f20;">absorbance;</span>9 Q2 ~2 ^' k& X% |% K$ a
    <span style="font-size:7.995;color: #231f20;">activity</span>
    4 ^  C7 _; M8 n8 j<span style="font-size:7.995;color: #231f20;">(def.</span>! j: @3 e+ L' F. @, M: q
    <span style="font-size:7.995;color: #231f20;">3);</span>( C# ?# {! f# t7 {$ ~: C5 ^  x
    <span style="font-size:7.995;color: #231f20;">admittance;</span>. _% ~5 t% ~: U2 }  f# a
    <span style="font-size:7.995;color: #231f20;">area;</span>
    * w# h( s/ f0 o) P- Z# M2 Z7 C2 o<span style="font-size:7.995;color: #231f20;">mass</span>
    , J3 O+ t6 W( B2 r( v' R. s</nobr></div>
    / j1 [* r; y8 S$ L7 f9 T<div style="position:absolute;top:44.145;left:99.532;"><nobr>
    % J. D/ G# O( U$ w! s<span style="font-size:7.995;color: #231f20;">number.</span>
      {3 Z/ ?: t% f</nobr></div>) X/ v# w' \: q& |  Z9 ~

    2 i1 O, ?( T2 H& S第四个单词:
    * F5 S: ^# G8 I- a<div style="position:absolute;top:55.975;left:47.840;"><nobr>& w6 o2 N; g/ i- @; I
    <span style="font-size:7.495;color: #ab0534;">A</span>
    # K# W, l0 B5 o* j4 i<span style="font-size:4.996;color: #ab0534;">2</span>
    & H0 ~" [9 ~' f7 V<span style="font-size:7.995;color: #231f20;">aortic</span>
    1 v' {! y0 u/ u+ M) C! Q6 }$ U<span style="font-size:7.995;color: #231f20;">second</span>
      U; T5 C( u( h* {7 _# t! `<span style="font-size:7.995;color: #231f20;">sound.</span>8 E: A- b! P# h, r$ `
    </nobr></div>
    : X. z' x- E9 [6 K! K9 ?: n8 c  X8 v) z1 J. K4 Z4 t. ?
    9 ^% R  {" {0 z- i3 h* p' @9 D
    好像还可以区分。明天继续。+ K% h  e' w4 y8 L$ x
    有没有大侠帮忙转数据的,html格式看得我头大。- P: z, i5 E+ T

    " e1 a: p* D3 Y1 L$ B, \, R, R% _) q/ @/ ]( _

    6 s! I9 Z; e& r2 }/ X
    ( U& ]6 a- a+ k
    , C' o7 }( U' m+ z. e
    4 d& H: _0 B. o/ X
    1 m5 J8 w2 J- v8 o
    ( ^- r" H" I3 n& }9 a  y) ~' C: a4 f# T* K4 W

    5 f5 R" h' u! x5 W/ U, L  Q
    $ P- ^) ]" X) U( @7 e* _' L# P3 r% @, N" g) S1 m
    3 b; l/ z: h9 S& R
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-4 22:10:47 | 显示全部楼层
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-4 22:42:36 | 显示全部楼层
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
      g% h5 m, P9 t$ h% R1 ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    bbs 该用户已被删除
    发表于 2018-7-4 23:00:29 | 显示全部楼层
    xliley01 发表于 2018-7-4 21:50; X7 T+ [' m) y2 o
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。# y3 c% h( t- j: J  C7 ?

    & G/ m4 U2 ~- D& s+ _ ...
    + ^' h- }6 b1 }0 g- b
    数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:47:45 | 显示全部楼层
    greatszh 发表于 2018-7-4 22:100 `( I& `8 j& b0 o2 O8 `# j
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...
    ! Q2 L: q# j2 @5 d
    大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:48:52 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42$ Z; Y: v) z: f& |8 n6 p
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    5 j$ l+ x6 K/ ^6 s
    应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:49:50 | 显示全部楼层
    bbs 发表于 2018-7-4 23:00
    4 B  Q1 x+ p3 x数据我可以帮你转一下。
    * ~1 u3 q0 b, C
    太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2018-7-5 12:09:11 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:421 m- X6 T9 A) Q* _6 y" a
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    + ?3 m$ ?  U3 z
    简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 20:31:29 | 显示全部楼层
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?, E) w6 k! a- m% D8 k* ]

    / B$ k( t+ s, o; @( d例如:
    # F$ K1 Z  X5 w% W( _<div style="position:absolute;top:111.537;left:47.840;"><nobr>
    & T2 t9 {% z: S2 [<span style="font-size:7.495;color: #ab0534;">a.</span>
    1 p2 {) H% u5 ]: s: W</nobr></div>3 b( |/ b0 h6 b' S. }- y' o) d
    <div style="position:absolute;top:122.627;left:47.840;"><nobr>
    7 m, f1 n* x0 q0 t8 A& K/ p  l<span style="font-size:7.495;color: #ab0534;">a-</span>
    & N3 E; m# F( \+ n. k# f5 v<span style="font-size:4.996;color: #ab0534;">1</span>/ r  f1 Y- g# s& z7 O
    </nobr></div>) {3 O0 ]* o# ~! w$ @6 o: G1 P7 D
    <div style="position:absolute;top:110.853;left:62.911;"><nobr>; f% [& z$ N& j0 c( e
    <span style="font-size:7.995;color: #231f20;">[L.]</span>
    9 r/ n4 i2 S( m& s* O<span style="font-size:7.995;color: #231f20;">an</span>
    2 e( w( d( E, d: l9 c5 ^<span style="font-size:5.596;color: #231f20;">0</span>1 k8 P+ ]' |* w' _" ]0 G4 b$ a
    <span style="font-size:7.995;color: #231f20;">num</span>
    5 i1 C# h7 g# ^5 ]/ [- M6 H! |! z% `<span style="font-size:7.995;color: #231f20;">(year);</span>% [0 }# U& g/ R! U- D- a+ R' G2 E
    <span style="font-size:7.995;color: #231f20;">a</span>
      s. G6 z( o& e3 i9 t<span style="font-size:5.596;color: #231f20;">0</span>
    $ Q+ d- n7 Q- k7 N2 i<span style="font-size:7.995;color: #231f20;">qua</span>0 A3 @+ o' j! z8 h3 G% A* [
    <span style="font-size:7.995;color: #231f20;">(water);</span>$ E! L$ w' ^9 ^) k! j
    <span style="font-size:7.995;color: #231f20;">arte</span>
    6 }% ^, U4 C. I: O<span style="font-size:5.596;color: #231f20;">0</span>
    ! T3 V' B0 g7 ^; D) g<span style="font-size:7.995;color: #231f20;">ria</span>
    % ?5 u. A1 w) s<span style="font-size:7.995;color: #231f20;">(artery).</span>
    0 K2 D- k  O( ^% d; U% x6 s" x</nobr></div>& ?8 y$ `9 |& y" ]6 A7 O
    7 E! O0 T  _8 ^! y
    # e6 I/ q% t2 C2 H
    后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    发表于 2018-7-5 23:15:38 | 显示全部楼层
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑 3 H) n, O" ]" f# h9 ?
    , D3 f1 C7 x  @/ F
    $ k& I! T  g. I* d
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    ' `: C: l, n; W. F& {6 q8 R2 Z# A% }/ b  n/ e
    DIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925
    5 D& P) U" M" u* |, T5 Z: W* H  E. z7 Y2 `) [( P! @5 E
    如果要再造轮子,可以考虑:
    6 c4 d  F. j3 F, u9 D- 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单" T$ t5 w, }9 |3 c) t& l0 P
    - 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,
    $ {/ A' ?/ X3 Y" d( b- 破解 app
    ; q9 l* \$ }$ L; K8 L. p- 其他$ ^0 a, v6 _$ r  N+ E
    % x8 V# ?9 D- S0 c

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-7-6 01:45:34 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 03:21:46 | 显示全部楼层
    Oeasy 发表于 2018-7-5 23:15( n6 x1 F) d: O/ l' f
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    * \; v6 ]5 |" {9 `. A! [' x# T7 ?2 b, g+ `8 i# s6 n6 h
    DIMD32 在 3 年前就有人做过 ...
    5 Z& x; {8 k4 t5 a! {! a/ C* U# {
    O大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 13:13:22 | 显示全部楼层
    xliley01 发表于 2018-7-5 20:31: {' c2 i$ j& W* `# E3 d6 b
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?
    ! i0 p% T8 t  C7 K/ [5 i' Q. d4 ~& D0 j' g; [* V! y. }3 M) J
    例如: ...

    0 L& ]+ F- M3 v8 z) `. k关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
      Y7 f6 u' Q6 C9 }: m) ^2 D$ \! h+ w) Q3 a5 `/ Z5 q- X7 j# }
    2 E4 c8 [7 I  L+ e

    , D1 O6 }6 z4 E7 i2 X继续努力看看。$ B9 O9 W  {( n
    3 C( @' |0 p) H; B
    另外,求推荐个好的pdf编辑器。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-6-11 12:43
  • 签到天数: 1541 天

    [LV.Master]伴坛终老

    发表于 2018-7-6 19:36:59 来自手机 | 显示全部楼层
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2018-7-6 20:43:46 | 显示全部楼层
    sabrina2111 发表于 2018-7-6 19:36  x# D/ `2 j# c* H
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...
    0 ~' a( I+ Z/ f+ X& b
    跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-6 22:55:13 | 显示全部楼层
    xliley01 发表于 2018-7-6 13:131 H# U6 l6 N8 X+ p* P+ R
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图

      y# g: g) s1 c: aAdobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2018-7-22 18:15:45 | 显示全部楼层
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-23 05:44 , Processed in 0.023029 second(s), 27 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表