掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3593|回复: 17

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-7-4 21:33:35 | 显示全部楼层 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑
      ~/ W% j, D# l, W5 a' v. f. A& a# D+ p+ o' Y, Q
    停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D1( x' B( Y1 t4 ^( }/ ^
    ; q& w7 |' P. R7 R
    6 O3 {. D* s0 a6 e$ O& y) E: z3 l
    单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。, Y! C2 r# a* ]% m$ r. ]
    第一步,pdf一切二:0 M8 x% q1 q* ~0 W6 w0 ^0 L/ P
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。
    - U: I8 t2 D5 g: w# R; E8 B
    5 n* F2 H$ G+ Q) ]- J' f  I+ K. N, s$ @

    % \8 @. l; O2 }切好
    1 n1 O; F8 S9 V1 Q: i
    4 V6 f6 M- n, [7 C- ~/ E; s, E0 X3 ^$ |4 G/ l3 Q
    5 x# B% w  a9 ^1 C

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-4 21:50:41 | 显示全部楼层
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑
    . [( r+ k4 I: a) _5 W$ t# K7 ~8 S  I& ?6 [" \
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。
    ; l, q2 R; `+ ~3 h) t0 N: w/ X1 b0 }
    第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。
    % h! l+ j! l" D+ `
    3 W+ c. h$ q% ?8 O第一个单词:" g! E6 k% x* I/ f# i
    <div style="position:absolute;top:5.645;left:99.535;"><nobr>7 y- {! M/ B& P6 o) N
    <span style="font-size:7.495;color: #ab0534;">A</span>1 R0 ^9 X: y; q9 ^  f, C# Z2 `
    <span style="font-size:7.995;color: #231f20;">accommodation;</span>
    8 Q$ U' G9 m+ z/ `- `<span style="font-size:7.995;color: #231f20;">adenine</span>* @& @( M; t5 \! p  A$ W
    <span style="font-size:7.995;color: #231f20;">or</span>
    ; L$ L2 \2 a% I7 v2 O- E' \* S<span style="font-size:7.995;color: #231f20;">adenosine;</span>+ K& K) u, n! q+ \! z! g
    <span style="font-size:7.995;color: #231f20;">alanine;</span>+ r6 I( [: N0 ~& K2 w' h
    <span style="font-size:7.995;color: #231f20;">ampere;</span>
    6 }$ W7 {( c3 v# F5 N/ E$ s</nobr></div>  m: t% S" g4 o& B# B3 H
    <div style="position:absolute;top:13.436;left:99.532;"><nobr>, H0 F( C3 e- r9 F! L, j' s
    <span style="font-size:7.995;color: #231f20;">anode;</span>
    ; b" ?0 ?% r& U$ ~% m/ [<span style="font-size:7.995;color: #231f20;">anterior;</span>
    9 m- b. A) O3 y7 v/ k  l<span style="font-size:7.995;color: #231f20;">(as</span>
    9 ^1 C4 V8 R. r6 Z  k1 |<span style="font-size:7.995;color: #231f20;">a</span>
    ' x% e" l8 A* s' E' N<span style="font-size:7.995;color: #231f20;">subscript)</span>
    ) U: ~" t/ M7 ~0 U& ?<span style="font-size:7.995;color: #231f20;">alveolar</span>
    " _  `9 Z3 i8 M& H1 y' N<span style="font-size:7.995;color: #231f20;">gas.</span>* n: e3 |1 a  I4 Y$ D8 H
    </nobr></div>
    / _+ |. r+ H% w9 R  R7 c. I: Y* }- t! F# W; m' E1 W
      r  M2 E/ D6 [9 _$ F) {
    第二个单词:; x; `0 d) q* G& G; M! g4 b
    <div style="position:absolute;top:25.208;left:99.535;"><nobr>
    & f# d+ B$ p' V- L<span style="font-size:7.495;color: #ab0534;">A.</span>
    / B9 N1 z' u, Y& q6 v' ?<span style="font-size:7.995;color: #231f20;">[L.]</span>% Q' B" h+ q' ~5 B" C
    <span style="font-size:7.995;color: #231f20;">an</span>2 h* ^! u0 T9 w7 k0 `6 k* g% J7 h
    <span style="font-size:5.596;color: #231f20;">0</span>9 r/ T2 q/ o4 j8 P* d! Z2 Z5 `
    <span style="font-size:7.995;color: #231f20;">num</span>. X# i* |4 f- i$ z% V
    <span style="font-size:7.995;color: #231f20;">(year).</span>
    # K+ p( `  j0 y. G% x</nobr></div>
    1 ?& G+ }3 e$ p. J4 i9 D% \
    & H3 f+ [7 q4 m第三个单词:
    / I6 _1 S0 \6 O<div style="position:absolute;top:36.355;left:99.535;"><nobr>2 H/ c8 I  O. H$ b5 C. y2 }" r
    <span style="font-size:7.495;color: #ab0534;">A</span>
    ; k, |' R" M' o<span style="font-size:7.995;color: #231f20;">absorbance;</span>- R2 E8 h4 {8 \
    <span style="font-size:7.995;color: #231f20;">activity</span>
    1 C* \. M2 j6 e4 w) z7 t4 X<span style="font-size:7.995;color: #231f20;">(def.</span>* l. d: H5 q- C: m
    <span style="font-size:7.995;color: #231f20;">3);</span>4 v( G' \& [3 C9 U; o/ c' a
    <span style="font-size:7.995;color: #231f20;">admittance;</span>
    ) f; @# b7 Z/ L) z<span style="font-size:7.995;color: #231f20;">area;</span># s1 ~8 p, [1 V, B4 f
    <span style="font-size:7.995;color: #231f20;">mass</span>/ v* Y7 d2 z7 W
    </nobr></div>
    0 u; M& q6 \; j# ]9 }5 u<div style="position:absolute;top:44.145;left:99.532;"><nobr>
    0 S6 R" {8 C9 q4 v* f1 ~5 U3 o<span style="font-size:7.995;color: #231f20;">number.</span>. P/ }" _% r; B' J' j
    </nobr></div>  U+ r7 A: T2 _3 g/ F: j% X

    8 B0 i5 N+ P7 ?. A0 v4 Z% Q第四个单词:7 Y( u! t# Y* \$ r: p
    <div style="position:absolute;top:55.975;left:47.840;"><nobr>! @5 G* O4 [1 O; j* `: N1 w# j
    <span style="font-size:7.495;color: #ab0534;">A</span>
    5 k' `5 b/ [& G0 w4 G<span style="font-size:4.996;color: #ab0534;">2</span>
    ( {0 T) H4 N0 P3 R, Y7 i1 G+ n<span style="font-size:7.995;color: #231f20;">aortic</span>% q) P7 Z; ~# \5 a1 p% ~! J9 t! r
    <span style="font-size:7.995;color: #231f20;">second</span>$ B4 j; Q6 f1 C) k
    <span style="font-size:7.995;color: #231f20;">sound.</span>
    ( k7 Y0 z( \2 ^5 F- q$ ^8 @! m: ]) Y4 {</nobr></div>
    ( S/ [2 z: `' }/ X2 |# ^! @5 q' }
    / Z: @( \+ |1 I$ C* g
    3 }2 R% Q& Z7 G好像还可以区分。明天继续。
    8 V9 y' B) j& q2 ]* i' {有没有大侠帮忙转数据的,html格式看得我头大。
      ^; G" j' ^7 T/ U3 ?' D# W9 c- ]* [8 N. Z6 O% J/ m! l1 g
    " |+ M* Y. C! p, f% n4 D" F

    0 h$ B/ [0 J* ^: ~5 w% k
    # S9 ~6 k& N, z9 w' E  M7 l" b$ ^1 }7 _# @* z0 B( u
    - O1 n# W, _! d2 Z0 S9 f
    9 o& y( Q# s6 o
    4 m4 O. z/ G* u. x6 e) `. a" n

    ! _6 v) U, l: ^- T" |  a; n" `' G7 Y' P

    ) J* P" L' a7 a2 |) w
    $ H; ?: @3 E! S* W0 b: }( I2 t0 \: E1 ~0 R+ w2 O2 o
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-4 22:10:47 | 显示全部楼层
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-4 22:42:36 | 显示全部楼层
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?6 U+ m" w7 O3 F& |7 x" e! Y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    bbs 该用户已被删除
    发表于 2018-7-4 23:00:29 | 显示全部楼层
    xliley01 发表于 2018-7-4 21:501 D( I( I4 _1 i/ a( p
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。$ ~: o, b. C8 a

    : u4 n5 z4 N5 U; V, \7 @ ...
    5 x5 S3 k) }9 T+ Z. G4 n+ q, |8 W0 P
    数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:47:45 | 显示全部楼层
    greatszh 发表于 2018-7-4 22:10) c. ?4 q) v' r$ X& ]* |. Y8 B  N
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...
    0 N6 C" A6 O2 s/ I& }. l9 _. l; A- N
    大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:48:52 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:420 w1 A7 ]( w, K9 N9 B% Q
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?

    # e) c# }7 w# o5 I6 M应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:49:50 | 显示全部楼层
    bbs 发表于 2018-7-4 23:00( Y7 ?$ M3 J: o6 W
    数据我可以帮你转一下。

    + D& @* |4 z1 R. C7 b太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2018-7-5 12:09:11 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    + g, S+ d' r) @9 |; t5 ^请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    9 |& o. z8 ]# R) X/ V
    简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 20:31:29 | 显示全部楼层
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?& O0 a" m5 B7 H- f2 R* R  M$ W
    2 A0 C) R( J- d: H, v
    例如:
    ( m' y' I- @" `<div style="position:absolute;top:111.537;left:47.840;"><nobr>( D6 k+ w/ x1 J( D
    <span style="font-size:7.495;color: #ab0534;">a.</span>
    + d( p- A% c" |) t3 \5 `8 P3 j3 a</nobr></div>
    4 {# U, ]& G1 D6 P1 U/ q& ^<div style="position:absolute;top:122.627;left:47.840;"><nobr>. o5 e0 G( g. F. j; S0 M9 r
    <span style="font-size:7.495;color: #ab0534;">a-</span>
    # {! o) R! q- t2 }1 @& L0 {- f<span style="font-size:4.996;color: #ab0534;">1</span>
    & V2 d! B/ C  ]$ p. D7 [</nobr></div>
    " [6 w4 a: n1 @3 s$ Z2 X+ S<div style="position:absolute;top:110.853;left:62.911;"><nobr>5 j, P. J$ d, W" V# z7 C7 i! W
    <span style="font-size:7.995;color: #231f20;">[L.]</span># p% H3 x8 l1 m, W" Q# Q4 v
    <span style="font-size:7.995;color: #231f20;">an</span>8 m( H& t  D+ a( C" ~2 e8 i
    <span style="font-size:5.596;color: #231f20;">0</span>
    : V& o/ [0 W$ x' m7 J<span style="font-size:7.995;color: #231f20;">num</span>
    * _5 k9 z; Q6 J3 Y* n<span style="font-size:7.995;color: #231f20;">(year);</span>/ R" e; `0 h( B& k3 ?/ x% z
    <span style="font-size:7.995;color: #231f20;">a</span>
    % X9 U9 y& e3 @; P' M2 p7 x; {<span style="font-size:5.596;color: #231f20;">0</span>
    " d" g8 S5 s( I) f" M* `  F<span style="font-size:7.995;color: #231f20;">qua</span>
    + b4 ?% [: Y! f; Q<span style="font-size:7.995;color: #231f20;">(water);</span>
    ; N% G+ @1 q" K8 L* e' S" H2 \7 X<span style="font-size:7.995;color: #231f20;">arte</span>' ?: Q4 m. }6 @
    <span style="font-size:5.596;color: #231f20;">0</span>
    4 A* F1 W! D$ s/ }; Q# H<span style="font-size:7.995;color: #231f20;">ria</span>, U  u7 a* s1 @9 q
    <span style="font-size:7.995;color: #231f20;">(artery).</span>( X0 S7 L# P" W, N- I3 `  x: l; h( {
    </nobr></div>
    ; x5 r+ Y7 ]" l6 |) P# ]# H% W3 p: n. ]% b

    : C' g8 M/ j9 h2 X$ Z" N后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    发表于 2018-7-5 23:15:38 | 显示全部楼层
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑
    ! z+ r9 q: r# B, D' ?
    ! J* @! \! I6 f
    5 m  O/ E; p' e" l: T$ c( jPDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    . ~8 @& k" d; V0 Y; @7 G
    4 Q& u, K; u: V8 M' l0 E: h5 H& i2 }DIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925
    1 Z" a1 ~9 I6 v$ |# I1 g' k& `/ p* q- m" Y: h. h
    如果要再造轮子,可以考虑:
    ( I+ f' Z/ c: W4 O# C! B: `- 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单
    + i, R6 h7 |8 M  I  X4 Q* I  d% T- 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,
    2 w$ E- e' x3 G+ V- 破解 app
    ; _0 X) x& {" u0 A  n" D- 其他. n, G: L+ J+ m+ b

    5 \3 X, h. A" F, U. o5 y, \* n

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-7-6 01:45:34 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 03:21:46 | 显示全部楼层
    Oeasy 发表于 2018-7-5 23:151 V/ h- F1 N# W& [( ~+ G; Q
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。( |# x- r, e6 g3 I* V& K

    - P0 X( f* b9 `( W+ g; _DIMD32 在 3 年前就有人做过 ...
    0 {/ g5 ^) O$ w6 N% N6 j
    O大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 13:13:22 | 显示全部楼层
    xliley01 发表于 2018-7-5 20:319 Q2 Y  ~( f7 N$ w
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?
    * d) L' {0 X& }
    ( k. D, y$ b  E$ a例如: ...
    ' _4 y' s9 `0 e! e) d
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图$ @! A, r- ?2 e
    0 c  `8 P3 ~2 H  A5 t) L! g

    ) a6 e( v& _; h! K( U1 R% d- A5 D9 a; D7 s# \) M8 c4 A0 d( F# |6 }
    继续努力看看。0 B4 p! a% `' T# a
    2 N# `, G: G' ^8 U. b* J
    另外,求推荐个好的pdf编辑器。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-6-11 12:43
  • 签到天数: 1541 天

    [LV.Master]伴坛终老

    发表于 2018-7-6 19:36:59 来自手机 | 显示全部楼层
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2018-7-6 20:43:46 | 显示全部楼层
    sabrina2111 发表于 2018-7-6 19:36/ [" V' u5 v- e0 @: i
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...

    - [4 }! m% Z) m1 ^6 U2 I& E% u跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-6 22:55:13 | 显示全部楼层
    xliley01 发表于 2018-7-6 13:131 U- _$ I+ J4 T7 s0 d" G  N
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    5 g0 _  f  h( @, b7 z: Z
    Adobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2018-7-22 18:15:45 | 显示全部楼层
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 05:24 , Processed in 0.061990 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表