掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4710|回复: 17

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-7-4 21:33:35 | 显示全部楼层 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑 , a) d; D* O$ @( E, ]% t$ _

    9 g- z1 X+ Y3 Q& |8 A停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D12 r2 M% Q& ]4 [

    & \) O& D, _  V' o! {# x) P+ Y  a. X& z, t6 y" w+ y0 |
    单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。! U: n8 |+ M$ i- B
    第一步,pdf一切二:8 `3 E$ ]. y$ ~1 n
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。: c* U+ o0 N' q8 N4 k

    5 S8 o3 V; o& Y2 k3 {
    5 Y  N' K8 k* I" m
    , M/ t% ^: ^! b切好& c& B8 L5 f0 G4 Q& H& K8 A# g

    ' d2 Q3 \0 T4 g$ X$ ]( l2 j, C. Z3 k% m" ]
    ; W+ N/ U: u1 I8 Y" }8 D+ P0 [

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-4 21:50:41 | 显示全部楼层
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑
    , i: a! ^( k4 q# y
    + ^+ q. u! [7 C8 T( T) a" c# T% S第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。# T7 d' x5 f9 G+ n- L6 {
    1 @4 F0 h2 O/ H
    第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。3 s) f6 e% J3 v

    + B- w9 }; h5 q3 ?第一个单词:* R- B3 e( T' O, W
    <div style="position:absolute;top:5.645;left:99.535;"><nobr>
    ! w2 z) S8 w. `1 F5 w9 X<span style="font-size:7.495;color: #ab0534;">A</span>
    : L! m! B& S5 `1 y2 F' f$ F$ n4 ?<span style="font-size:7.995;color: #231f20;">accommodation;</span>2 O# C& r3 z! w( r
    <span style="font-size:7.995;color: #231f20;">adenine</span>
      r$ H5 p" K: p! F<span style="font-size:7.995;color: #231f20;">or</span>2 z0 n: q  m8 T8 J/ B& a1 q
    <span style="font-size:7.995;color: #231f20;">adenosine;</span>3 {$ b* O6 k. o# h8 I' i) B
    <span style="font-size:7.995;color: #231f20;">alanine;</span>6 F# a/ @8 q& x" H' v6 y
    <span style="font-size:7.995;color: #231f20;">ampere;</span>+ e2 \4 ^; a. J
    </nobr></div>
      h' D- g! M3 z* R+ N<div style="position:absolute;top:13.436;left:99.532;"><nobr>( Z/ V- m4 y! I! X3 j$ k3 z
    <span style="font-size:7.995;color: #231f20;">anode;</span>( j# h# L& m/ H. `( m
    <span style="font-size:7.995;color: #231f20;">anterior;</span>
    ) j* O6 R( v! v<span style="font-size:7.995;color: #231f20;">(as</span>
    1 t) d5 p: Q* d' _% z' y<span style="font-size:7.995;color: #231f20;">a</span>
    8 S6 O* ?/ _2 z4 z, N<span style="font-size:7.995;color: #231f20;">subscript)</span>4 K6 M2 J# E- s- E+ q* t2 l( N
    <span style="font-size:7.995;color: #231f20;">alveolar</span>9 m9 b# R+ i3 G2 Y) D+ P. M* B  L: |
    <span style="font-size:7.995;color: #231f20;">gas.</span>
    # i1 w0 R" t2 c! N% G  n</nobr></div>1 w( q* a, b* S$ Z
    # H! K' z& G% T: M: H1 ~
    3 Y! Z  G* h$ j( {$ Y% w, v
    第二个单词:9 W; `+ x# j1 p/ k. L+ r/ f1 I: y
    <div style="position:absolute;top:25.208;left:99.535;"><nobr>4 ]" O* ?- ^; W2 z9 {1 g/ q! T
    <span style="font-size:7.495;color: #ab0534;">A.</span>
    2 h. v1 }$ O3 u. J2 U8 ^- [<span style="font-size:7.995;color: #231f20;">[L.]</span>
    : f- Q  t  N" s' C5 w<span style="font-size:7.995;color: #231f20;">an</span>
    6 M3 F0 t8 E0 n; a  z" k. }4 f<span style="font-size:5.596;color: #231f20;">0</span>
    : F- I2 ?8 j( a6 g<span style="font-size:7.995;color: #231f20;">num</span>0 R' l: r+ o/ u1 \1 c; ?
    <span style="font-size:7.995;color: #231f20;">(year).</span>
    - V* }1 W. V' B</nobr></div>2 Y: J5 G2 d7 J
    / g: Z/ F! g3 f* P' U  f
    第三个单词:
    ! I& W$ K! d) u. V3 O) Z<div style="position:absolute;top:36.355;left:99.535;"><nobr>% W1 B: j  z% [0 I
    <span style="font-size:7.495;color: #ab0534;">A</span>
      X; F" M6 v8 C1 T! S2 \<span style="font-size:7.995;color: #231f20;">absorbance;</span>5 _: W, d. c* s8 _6 m+ @
    <span style="font-size:7.995;color: #231f20;">activity</span>& g* ^+ \' r' ?7 N8 I
    <span style="font-size:7.995;color: #231f20;">(def.</span>
    0 Z% W: z) M$ K* t* V4 T+ S<span style="font-size:7.995;color: #231f20;">3);</span>
    . P9 B+ A# a9 A! W% g<span style="font-size:7.995;color: #231f20;">admittance;</span>+ S  p8 c. n: w! |& X7 s/ u
    <span style="font-size:7.995;color: #231f20;">area;</span>/ D5 h0 }. D5 i6 O
    <span style="font-size:7.995;color: #231f20;">mass</span>
    & o9 g. Q2 V9 H</nobr></div>
    * q1 g6 W4 h) v* P  f0 p<div style="position:absolute;top:44.145;left:99.532;"><nobr>
    # Q* j2 S' A& Z  B3 U<span style="font-size:7.995;color: #231f20;">number.</span>
    4 f1 O& V1 ~6 H$ U+ _; p8 ]</nobr></div>
    1 f7 [; R' a* F4 d- j- F
    ( O% @# V( }5 V, J) a第四个单词:
    2 p5 S8 N% \: u  Z* b<div style="position:absolute;top:55.975;left:47.840;"><nobr>& E2 c  [8 R  n2 n5 `% Z* h% R% b
    <span style="font-size:7.495;color: #ab0534;">A</span>' r# ]! }" t% m- F! `7 h5 t
    <span style="font-size:4.996;color: #ab0534;">2</span>4 o* e4 r: V4 W3 C5 ?- f
    <span style="font-size:7.995;color: #231f20;">aortic</span>' H; a) w9 R. \. Q
    <span style="font-size:7.995;color: #231f20;">second</span>
    & M3 V- r" ~' _$ r. o6 T+ R<span style="font-size:7.995;color: #231f20;">sound.</span>" }$ ~4 S; t. D, G
    </nobr></div>
    2 M" ~* H0 F, H% I. T+ n. y
    1 N  k( N0 B/ m6 ^* t4 {
    # ?" ~' ^: w$ o4 q8 z! W; S好像还可以区分。明天继续。
    $ a2 [6 `  G( y有没有大侠帮忙转数据的,html格式看得我头大。
    $ {3 U9 b# a! F6 F" u& c# {
    - i. D* ]& v  l' j7 G) v5 K, Y; U2 {
    7 P( l( J9 T% s& J' [" [* N5 K: w0 C2 t& H% C8 e6 A
      b. t9 Y& q6 O! Y' s; ~

    % s3 a  r- r: H8 d7 e& v2 r
    1 V: ?$ j3 C+ z' S3 c0 t
    , q: P7 n: z6 J3 T$ ~
    6 h6 {7 U7 _2 ~$ O" T/ ~/ w2 v
    . u4 g8 U+ F, m* R( u8 A
    ; t$ N  f; z1 W# v! R) I  }6 K# y
    , a8 U/ e  K* |  z
    ; V7 S: U0 r' c" ~* q7 E0 A9 f% G8 \. K' |. x7 o/ B" T
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-4 22:10:47 | 显示全部楼层
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-4 22:42:36 | 显示全部楼层
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    + X9 l) s) ~3 l( U

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    bbs 该用户已被删除
    发表于 2018-7-4 23:00:29 | 显示全部楼层
    xliley01 发表于 2018-7-4 21:50: |4 z% _: l+ l, w/ U
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。  b; ^) O  ?3 p. y$ Y6 X
    ' C, Y7 y; m8 t% k( u8 z4 A
    ...

    / j9 x% d4 n& c7 [& |+ C数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:47:45 | 显示全部楼层
    greatszh 发表于 2018-7-4 22:107 [' i3 n: z. k. u) f: T) H
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...

    0 `# m+ X. ~/ I7 `7 f7 a1 `: i- @7 F, |大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:48:52 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    & m" o3 K" j, A3 `请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?
    & n1 K1 f9 u% _8 l  V8 Q
    应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 10:49:50 | 显示全部楼层
    bbs 发表于 2018-7-4 23:002 k" A+ Q4 p5 k2 R3 _6 X3 @) T2 {
    数据我可以帮你转一下。
    # z4 D  Q9 k% d7 U9 a3 @
    太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2023-11-5 12:37
  • 签到天数: 727 天

    [LV.9]以坛为家II

    发表于 2018-7-5 12:09:11 | 显示全部楼层
    GL_n 发表于 2018-7-4 22:42
    ' I8 M- z& x+ h) `请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?

    . o; d3 u) f4 e" X简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-5 20:31:29 | 显示全部楼层
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?
    1 O' c8 j+ E' A
    - I  I: P& [9 ~& {) h例如:- N- F, p6 |! v, [7 D1 z
    <div style="position:absolute;top:111.537;left:47.840;"><nobr>  p9 G' O7 B3 k7 s2 X" [0 ?: |
    <span style="font-size:7.495;color: #ab0534;">a.</span>' o* N. ^1 @; ~0 r
    </nobr></div>1 q$ U1 N7 l/ R! \
    <div style="position:absolute;top:122.627;left:47.840;"><nobr>4 m2 Q7 _4 |0 \! y& q
    <span style="font-size:7.495;color: #ab0534;">a-</span>
    3 y: T- @8 n, S4 h" Z<span style="font-size:4.996;color: #ab0534;">1</span>
    1 q% d; q3 o/ T* R2 t</nobr></div>
    . E" b9 X7 ^, {# ?<div style="position:absolute;top:110.853;left:62.911;"><nobr>9 o6 F0 S# ^& F* r- z
    <span style="font-size:7.995;color: #231f20;">[L.]</span>0 I% A. f6 i& S- o8 L
    <span style="font-size:7.995;color: #231f20;">an</span>
    8 \& L) u- B7 S! @1 S; j9 H<span style="font-size:5.596;color: #231f20;">0</span>5 B6 C' T. j3 @
    <span style="font-size:7.995;color: #231f20;">num</span>
    0 a. }4 ?3 s* y8 q+ p! h. f<span style="font-size:7.995;color: #231f20;">(year);</span>
    ( a* N; J8 P! ^; O<span style="font-size:7.995;color: #231f20;">a</span>
    " Q; [8 b) e) H<span style="font-size:5.596;color: #231f20;">0</span>! n" J5 @$ e3 `1 [  L5 Q
    <span style="font-size:7.995;color: #231f20;">qua</span>
    1 k6 z5 |# d, R" n<span style="font-size:7.995;color: #231f20;">(water);</span># b; k7 y5 E" [6 A: A
    <span style="font-size:7.995;color: #231f20;">arte</span>) }# R' H3 \. d, J
    <span style="font-size:5.596;color: #231f20;">0</span>: L9 c* T$ }0 Z: b$ j) ]: ?6 b
    <span style="font-size:7.995;color: #231f20;">ria</span>5 c5 u/ U6 Q5 L& `: F( w) m
    <span style="font-size:7.995;color: #231f20;">(artery).</span>
    ! M4 ?3 Z0 e4 c</nobr></div>
    ; j: ~; G1 X7 b: R! B6 g! @- v- g" G5 e6 X+ @: `* t4 C

    5 G" X+ D! y# Z0 \0 O3 `. {$ A后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    发表于 2018-7-5 23:15:38 | 显示全部楼层
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑 ! W3 ^- a- x( n9 M* h0 Q/ R- T6 p
    & c! f" r- e$ M1 t" o9 ]8 L  U
    ; `) @  w" ]) c0 h
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。- N, S* ?8 c. d0 m

    ) Y3 S  w( r) m, |; DDIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925
    % S- }0 ^5 v" D5 U/ p2 t, m# d3 z7 S" m) b* @  D
    如果要再造轮子,可以考虑:' P0 h! K) x5 M7 G( h( J* e! C7 K" a
    - 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单
    2 ^$ d1 O$ `( j5 ~7 Z9 h- 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,
    - f& a; y6 w( i, q$ S5 x2 e8 p" s( R. [- 破解 app
    " `) J+ V& [0 k) r- |7 O- 其他
    4 s0 H0 Z4 U  Y/ {
    8 B0 _) e7 \' M' Q

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-7-6 01:45:34 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 03:21:46 | 显示全部楼层
    Oeasy 发表于 2018-7-5 23:15$ s4 ]" `% V# D9 K6 m4 C8 k
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。
    . D* a6 }, |) K- f2 |& L4 J4 [* b4 }2 K# o
    DIMD32 在 3 年前就有人做过 ...

    8 W9 G: [  E' JO大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-7-6 13:13:22 | 显示全部楼层
    xliley01 发表于 2018-7-5 20:31
    : m* f7 ^( u! Y8 _8 `& v由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?8 I) x: v& B: b- J5 S1 ]& O
    * Y7 y3 E3 |' ~- N& y1 H. ~) _
    例如: ...

    0 u7 g9 t( ~$ I7 r* g关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图5 H0 f' W! F' n2 R; Z. J
    . O- R* @# o4 ?9 N; F, T+ B, r

    % U8 c' E0 d- T( a& Y
    ( ?" x. ^/ F# _( C1 e5 Q$ F继续努力看看。9 s; m" r( e: m2 _9 r0 q
    $ o! M* \7 D8 O6 r% o
    另外,求推荐个好的pdf编辑器。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-6-11 12:43
  • 签到天数: 1541 天

    [LV.Master]伴坛终老

    发表于 2018-7-6 19:36:59 来自手机 | 显示全部楼层
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2018-7-6 20:43:46 | 显示全部楼层
    sabrina2111 发表于 2018-7-6 19:36
    0 t7 j. g+ W+ l' H# j$ o9 ^虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...
    % S( Q( [4 _" E! G. ]
    跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2018-7-6 22:55:13 | 显示全部楼层
    xliley01 发表于 2018-7-6 13:13
    . t  s  z4 \9 S关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图
    & a" }: S$ F$ C" p9 }& _
    Adobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2018-7-22 18:15:45 | 显示全部楼层
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-23 00:57 , Processed in 0.023216 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表