掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4142|回复: 11

[讨论] 【记录贴】可下载两本书的 mdx 毛坯版 pdf转mdx--最省力[?]方法

[复制链接]
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-12-22 11:03:45 | 显示全部楼层 |阅读模式
    本帖最后由 mikeee 于 2019-1-2 11:59 编辑 - @1 Z! e  d  v! a

    ) g9 j; s( g) W! x& N5 F2 p! LPdf文件
    9 ^) F. D0 X0 S: x- O工具:Abbyy Finereader +  html 解析工具(主要用到 css selector或 xpath,此帖将使用 python3 的 pyquery)
    3 `" [! k+ V$ E* I; J% R* f! w8 D/ H' }) t% K
    其他信息:曾有网友发帖问起有没可能将此书做成 mdx [https://www.pdawiki.com/forum/fo ... light=word%2Borigin]。我用 Abbyy Finereader 网页版做了10 页的测试,证实可行。/ ^* ^; n, E3 M: L4 G% ]
    + h% u- C; u* B7 L, {4 Q- x
    后来没了下文。假期临近,我来学习这个帖 [https://www.pdawiki.com/forum/fo ... &tid=29288&ctid=352] 记录一下将两本书转成两列文本及 mdx 的过程。希望能帮助其他网友在将 pdf 转为 mdx 时节省一点时间。如有不当之处也请各路高人不吝指点。
    0 V. ?$ H/ ]7 Q! M% s/ y/ `1 r& c, d& O' w! S5 ], N0 [  H
    难点:Pdf 转 mdx 的关键一步是将pdf文件里的文字转化成做 mdx 所需要的格式(词头和内容(释义))。最简单的格式就是两列,见过pdawiki有工具将两列xls转成 mdx。当然,要做成漂亮的 mdx 则需要折腾 css、javascript,这些不在此帖的范围。 一般情况下要将 pdf 文件里文字的词头和内容分离都会比较麻烦。如果有规则可循,则可以用上正则什么的。而此书尽管文本是可以直接拷出来的,但每页有页头(如 Ballad of Typhoid Mary 55)和字母(如L)的信息,要用正则处理到也不是不可能,不过肯定要折腾一番。最麻烦的地方可能是出来的文本段落信息没有了,pdf 文件里的每一行都是一段。结论,要pdf里的文字一次性拷出来整理成两列会非常麻烦。如果原pdf文件是扫描的,拷文字的办法自然也是不可以的。而此帖的办法则可以用于扫描pdf文件——尽管没有亲测过,可能有不少坑。有时间或许也会试试。$ n0 Q  H$ a' U

    ' b$ R/ b4 q2 b" l& f& T" q基本思想:用 Abbyy Fineread 将 pdf 转换成 docx, 再将 docx 转换成 html。再用 python包 pyqery分离词头和内容。(这一步也可用其他办法,比如 node的jquery或cheerio。python 里应该也是可以用 bs4 解析html,喜欢 xpath 的也可以用 lxml)。将 docx 转换成 html的另一个好处是:页头消失了。如果不想用程序解析 html,也可以用浏览器打开 html文件,拷出文本做进一步处理。
    5 ?- H8 J7 ^- O; g3 \

    ( b/ E) I3 t- _' i* s- l步骤一览
    . l+ {. \9 I# L9 V  J% p
    • Pdf 转 docx
    • Docx 转 html
    • 解析 html
      * i1 {0 B) e( R! P
    其实[https://www.pdawiki.com/forum/fo ... light=word%2Borigin] 的9楼已经给出了步骤及 Python 源码。
    7 O) ~; A# e# i$ t! {" n" J' G: ?" ^
    第三步最简单的解析方法就是用浏览器打开 html 文件拷出文本再用自己喜欢的方法将词头和内容分离。本帖将利用 python 的 pyquery包非常快捷省力地分离词头和内容。+ _0 \$ {# c# c& E" D) [2 j

    # ^3 y# ?2 }* v8 a' {详细步骤, 重点在第三步上,但第一、二步好像也有坑。4 e* X: ?: u8 g7 h/ l

    " N' a9 y! y6 v% oA Dictionary of Confusable Phrases.pdf转Mdx2 \0 Z4 _: c# [% a3 E8 v
    • Finereader设置:完全识别、检测页首、只识别英文、* d% w& k# |7 M9 Z4 T' H- {+ W2 Y
    0 [2 U$ Q$ o& g" X( F1 d
    6 R8 n  |2 N, U  O% n4 M
    果然有坑,全书 405 页,进行到四十几页时系统说内存不足。杀掉所有程序再试。因为知道pdf文件含文本,将“完全识别”改成“快速识别”,可以以节省内存——识别成功。( q: N3 B; a0 ?' ]( {
    memo to self:第一、二步好像可以合成一步,Finereader里可直接存为 html,但是否可以用 css selector分离则有待测试。 试了,词头的html tag为
    1. <span class="font6" style="font-weight:bold;">a la guerre comme a la guerre • c'est la guerre</span>
    复制代码
    在一个群里问到, 可用 css selector
    1. span[class="font6"][style^="font-weight"]
    复制代码
    定位词头。以后再回来折腾这个。其实可以直接用 css selcetor: span[class="font6"][style="font-weight:bold;"] 或 span.font6[style="font-weight:bold;"]) ^( F8 d% K# ?
    memo to self: 先转成 docx 在处理纯英语文件时有个好处,可以利用Office Word的 spellchecker,而且Finereader不确定的地方会以颜色显示,有利于对格式、字体等的初步校核。格式和字体对css selector有影响。因此:分两步(pdf到docx,再docx到html)的做法是对的,第一、二步好像可以合成一步的做法不会再用了6 d4 [8 D0 C% p# T, u
    : m/ v9 A3 o0 }- n. f3 D
    继续,用 Office 打开 docx,存为 html。用Chrome打开 htm 文件。右击页面选 Inspect (或Ctl-Shift-I)调出 Devtools。选定Element标签。在html页面里寻找粗体词头(比如第一个词头 a la guerre comme a la guerre • c'est la guerre)。$ l3 {( h, }4 x8 Y
    1 C2 j) G5 c2 W  I0 w. q4 a
    memo to self: OCR前可先切掉pdf文件的首尾。或用 Office 处理 docx 文件或用 BlueGriffon(或其他html编辑器)处理 html文件删去无用的东西,后面分析 css selector时可以省去一些麻烦。
    7 d$ G$ q# B; ]: V% J. |6 j! q. w- Q$ }& _" y) L
    折腾一阵后可以知道词头的 css selector 是
    1. .Bodytext30
    复制代码
    而释义部分的 css selector 是
    1. .Bodytext0
    复制代码
    可以在Devtools里的 Elements标签里按 Ctl-F 后键入 .Bodytext30 或 .Bodytext0 验证:点击下箭头(Search Next),html 对应的元素被高亮。对应的序号会被显示出来。
    7 {( d* @5 `; y$ X/ N3 _: i* ?" h" a  [; x$ ~. W7 e! E
    % E/ E7 [7 J( ~3 C% Q: d+ @5 N
    .Bodytext30 共选出 3970个元素,第一个词头(a la guerre comme a la guerre • c'est la guerre)是第53个,最后一个词头(zero hour zero time)是第 3969个,因此词头的个数应该是 3917 。用pdf阅读器打开pdf文件,可以看到从第10页到339为正文,共330页, 合每页约12条大致差不多。其实这本书里的每一个词头都是一对,且含•。因此直接从pdf导出txt文本数一下•的个数就知道有多少条词目:3969 -- 和3917并不吻合。所以还要看看究竟是 .Bodytext30 漏了条目还是 • 出现在不是词头的地方。先搁置一下。(不吻合的原因是有些词头带两个•,有些释义里也用到•。)处理了一下后可以确定条目数为 3966。仔细看了一下html,发现Fineread OCR识别时错误地将几个词头整成了释义。html 错了 css selector 自然也就找不到词头,所以,OCR后先得检查 html 文件。: g* k% ?$ ~* c% P. \
    memo to self:OCR完了后应对照 pdf 检查 docx 或 html 文件。8 P" n6 U7 Z' o1 C

      & z( h( L. `  i% L- _
      2 j" q0 E2 B/ n0 ^! K8 `
      7 t2 o) v# m' t8 B- H1 D6 N前面讲过,由于《A Dictionary of Confusable Phrases》这本书的词头含 •(如 abandon ship • give up the ship)而且是自成一行,所有第三步无需折腾css selector而只需用简单的正则。只要通过浏览器从 html 文件拷出 txt, 再用正则将 词头和释义分离。附上第一、二步得到的 html 文件以及通过浏览器从 html文件拷出的 txt。【附件: html-txt-A Dictionary of Confusable Phrases.rar】3 }) Y5 {! D. u  _  F5 u) P/ y/ }9 F
      ( h7 ~" [& m" H
      附件里的 txt可用支持正则的文本编辑器(如vscode,notepad++, emeditor、editpad、vim、emacs)用以下正则分离词头和释义:
      1. \n([^•\n]*?)(\s*•\s*)([^\n]*)([\s\S]*?)(?=\n[^•\n]*•)
      复制代码
      (不想用环视的话好像搞不定……求坛里高人赐招。)前三个括号(即 \1 \2 \3)匹配词头; 第四个括号(\4)匹配释义。最后一个括号是环视零宽匹配。但因为有些释义里用到•,用正则的话必须对这些做特别处理。又一次显露了正则的局限性。
      . T' i$ C! P$ X
        K7 {3 \5 x  Q" K4 M3 x
      3 E; [1 i. [- c2 {
      用正则分离出来的 词头(共3966条)放在附件里(附件 hw-via-regex.txt 8 w0 H5 U7 |8 Y) U5 q, V
      8 F8 g: _% ~# e6 R
      到这一步有了这个txt文件要做成 mdx其实已经不用费太大功夫了。如在文本编辑器里折腾的话,根据 MdxBuilder 的要求利用\1 \2 \3 \4就可以生成MdxBuilder所需要的文件,进而用MdxBuilder生成mdx。
      / f/ W' c& E0 O# V- V
      ( N$ Y- M& n9 @2 [; Z2 W3 x. ?4 }

      + A! P! V: y0 d. J7 M+ |
    • 从[A Dictionary of Confusable Phrases.htm](见附件)抽取词头 via python3 的 pyquery包
      2 W; ^* I1 B, p1 y# I$ E" m我们上面看到Devtools里用 .Bodytext30 选出的词头数和用正办法则得到不一样。我们需要检查Finereader OCR得到的 docx文件。但单靠肉眼检查是非常费力而又不可靠的方法。我们要做的是用python程序抽取词头,然后用比较软件对比 python 程序得到的词头和用正则得到的词头。二者不同的地方就是可能出现问题的地方。( G+ _1 n" l, Y! o' F; n& y
      . a. |! j/ X& d. e4 W$ t
      来到了此帖的核心:pyquery,先上程序
      1. '''* |, ~: i4 i% \
      2. For Python3, not tested for Python2: n- D% p: B+ B: Q
      3. $ `- R) o9 C% V  i1 `* h, o7 v
      4. extract headerwords from
        ; A2 t6 D! i+ z* F$ B8 K
      5. A Dictionary of Confusable Phrases-trimmed.htm
        4 Q5 m  I* Z6 l; @* E
      6. '''2 `; e( x* o  l& Q- [
      7. from pathlib import Path3 d% k) \1 f  \8 Y) ^3 l  I
      8. from pyquery import PyQuery as pq
        & e4 U% p0 Q! d& O

      9. $ ]+ H7 ?) B# Q3 g
      10. file = r'A Dictionary of Confusable Phrases-trimmed.html'4 K* q; ^1 i& X# O" N3 l. N
      11. file = r'A Dictionary of Confusable Phrases.htm'
        6 M. c, g1 W1 o" r7 N6 n

      12. . v3 d6 A2 n5 R; s0 x! x: t
      13. assert Path(file).exists(), f'[{file}] does not exist'
        : M7 J1 a2 C3 J9 N8 r5 z/ [" v/ O
      14.   c: ]3 f$ J2 g2 z2 ^0 ^: J/ `
      15. encoding = 'utf8'5 p! i5 y9 C- C; O% F- A& I4 o
      16. try:
        " P2 v2 c( i( F8 A
      17.     with open(file, 'rt', encoding=encoding) as fp:
        6 h0 w, }, }" g
      18.     file_cont = fp.readlines()
        7 R( M: `5 R: ^1 M/ E: p( _3 G" r
      19. except Exception as exc:4 S+ g* ^) A5 o/ g  w( {6 Q
      20.     print(exc, 'trying with 18030')! Y1 \$ k4 n4 o6 C0 y; b) K
      21.     encoding = 'gb18030'
        ; Z8 A$ d$ H& n) t  A: j
      22.     try:7 o) w/ Y8 ]: c5 ]. s+ g' ^
      23.         with open(file, 'rt', encoding=encoding) as fp:
        & g' h$ \- N1 L, ]* o
      24.         file_cont = fp.read()' q5 i# L# E( o) V) R# y, {
      25.     except Exception as exc:
        4 m2 q" g/ Q5 I$ r% a
      26.         print(exc)# p# S0 C3 g9 L$ R6 X5 x& m
      27.         raise SystemExit(f'Unable to read file [{file}] in utf8 nor gb18030, exiting')
        6 c8 C/ T  ^- E2 c3 L
      28. 0 v! d! x  b8 R0 i( `- _6 b9 |8 A
      29. # file content in file_cont, start to parse9 @6 Y) d, ~0 s  D8 Q4 {/ L1 t
      30. css_header = '.Bodytext30'
        3 ]8 V; U1 V, v1 d1 p

      31. 3 B9 U7 _& s) [! c3 t$ {
      32. doc = pq(file_cont)3 Y& q1 \0 o% ^2 i
      33. headers = doc(css_header)
        , o) s' [* |# M% m
      34. $ o* r& T& [: m# \3 m( c
      35. with open('hw-via-pyquery.html', 'w', encoding=encoding) as fhandle:
        ) c, @3 F+ `8 t0 \5 K9 }# {  |
      36.     fhandle.write(str(headers))
        ; f) D* J0 J4 t% E
      复制代码
      贴上去的码缩进全没有了。手动缩进很辛苦。源码也上载在附件里。(稍微改了一下,直接输出词头txt文件,见附件 html_to_hw_rev.rar)
      3 c8 P+ L$ A/ U! c
      0 T7 k2 ]" r1 D1 N1 l程序读进[A Dictionary of Confusable Phrases.htm](见附件),然后利用前面得到的 css selector (.Bodytext30) 抽取词头,再写进文件[hw-via-pyquery.html]. 用浏览器打开[hw-via-pyquery.html]大致这个样子:
      8 t8 [" T, i3 V4 k" h
      # H! s* Y5 u) S, T* u1 f5 T1 E
      8 o; i& w1 @9 a4 I# E3 g, l6 j, L1 m
      在浏览器里ctl-a ctl-c 拷出 txt, 拷进文本编辑, 删掉空行(搜 \r\n\r\n 替代成 \r\rn 或用你喜欢的办法)。存为 hw-via-pqquery.txt。
      : d% b- ]: B. J7 G再用比较软件打开 hw-via-regex.txt 和 hw-via-pqquery.txt。我用了 Beyand Compare. 这个样子:
      4 E% ?$ B! r: U: u
      ) x$ X3 _0 Q& Z2 p7 |" _8 z' ^9 Y: Q' Q

      8 C0 e) A3 h9 V左边是 hw-via-regex, 右边是 hw-via-pyquery. 可以看出,hw-via-pyquery漏掉了一些词头。根据显示的信息打开 docx检查以后,就发现 finereader做OCR时在换页有时会出错。在docx里参考原pdf文件进行修改。用Office Word打开 docx 后,可以看到,词头都是 size 8 粗体,而释义则是size 7。5 o- O. G0 v( V8 e5 `$ L5 r: c
      - n  w5 Q( b0 X3 y/ t* p. q& a* X
      Finereader将pdf转成 docx 再转成 htm 并不完美,近4000条例大约有30-40条要手动将词头的 .Bodytext0 修改成 .Bodytext30, 用到一条正则花了不少脑筋 (<p class=Bodytext[0][^>]*>((?!</p>).)*?•((?!</p>).)*?</p>) ,正则搜索htm文件里的 <p class=Bodytext0> ... </p> 含• 的地方,改成 Bodytext30。最终得到的词头见附件 hw-via-pyquery-rev.txt。
      9 W0 o* h2 i! P3 t, t. j4 l( w
        u1 Q. C+ L" y( y8 J下一步就是抽取对应的释义了。可以预计会有很多坑。貌似圣诞假完不成。
        M6 \4 `" z$ d& J
      ' D% B& n5 q$ E$ f) p! ~好像还挺顺利。稍微折腾一下就可以知道,词头和释义分别在 .Body30 和 .Bodytext0、.Bodytext3 里。祭出python pyquery,贴源码缩进消失,不好整,就不贴源码了。源码见附件 html_to_hw_cont.rar。最后得到词头及释义的 txt 文本(附件 A Dictionary of Confusable Phrases edited1_hw_cont.rar),如下图
      " ]! p: a: e; r/ j/ [! z5 D' Q% v$ e3 b" e- f8 F3 e* V+ e
    • 到这里,要从 txt 做成 mdx 词典已经不是太费事了。当然,还需要校对、微调格式等等。% f( Z1 P; r/ @: M
      & B6 m0 |; F/ M% |  p9 x
      折腾了一下午,mdx词典毛坯出来了,还有些问题,非ASCII码有乱码,索引还没整好。先放出来。附上python源码和 mdx词典。(附件 mdx_pdf-to-mdx.rar)及对应的 css 和 jpg (附件 demo_data.rar)。- d: F* j0 h0 c. T4 m
      # N& S% m) T' D, L% x. _
      mdx的乱码已经修好。但内容仍需校对,不过已不属于本帖的范围。会找时间为mdx词典做个详细的索引,只需加几行码不是太难的事情。  r; D! r( b6 d- A

      $ r0 }4 D/ d! `3 ]6 S下面截止折腾 Word and Phrase Origin这本书。做法基本相同,过程的记录会简略一些。/ ~+ g4 V' c8 _( Y" R! L2 f
      4 L& ^- J8 v6 `- y/ x
      鉴于标题里“最省力”这个词可能有争议;), 后面加个问号吧。3 o7 {2 l9 E9 q0 S+ J
      - v9 w% Y8 u- V5 v5 [4 L9 v
    WORD AND PHRASE ORIGINS.pdf 转 Mdx
    ) b: C5 p% r3 |
    7 u) j- g: A2 a, E
    • pdf至docx5 I$ ^9 N" t' G! S; T- @! C
      有了做上一本的经验,先将截取pdf正文(删掉首尾的序言和索引)。Finereader OCR花了两个多小时。打开得到的 docx文件却发现每页页首的页面数目和标题没有被移除,网络版Finereader反而移除了页首的东西。还好后面的css selector可以排除页首的东西、6 V& F9 b8 X' S
    • Docx至htm (见附件htm_to_txt_word-phrase-origin.rar里的 word-phrase-orgin.html)
    • Htm至(Mdxbuilder用的)Mdic_thtml: 几乎可以重现 htm 里的内容4 f( D  y) \3 _( X' l; H
      python 程序利用pyquery和 css selector 分离词头和释义 (见附件htm_to_txt_word-phrase-origin.rar里的html_to_hw_cont.py)
      0 e7 S# n$ O. o4 X得到的 txt 几乎重现了 pdf的内容 (见附件htm_to_txt_word-phrase-origin.rar里的 word_and_phrase_origin.txt)。这个样子:
      2 }; D& |; z6 ]* D1 N- _$ W
      1. ……sold it to consumers, eliminating the middleman. Within 20 years the company be­came the first American grocery chain.
        ' ]) I3 Q& `0 g5 T7 ^5 M
      2. + N6 N2 _* G' _
      3. [Aardsma.] The huge Baseball Encyclopedia lists pitcher David Aardsma, now of the Boston Red Sox, as first on the alphabeti­cal list of players who have played in the Major Leagues since 1876. Before Aardsma made the San Francisco Giants roster in 2004, home run king Hank Aaron topped the Encyclopedia list.
        3 z8 p# p, h4 ?3 d7 V" N( X
      4. % P# }% n6 ?& Q% a6 W
      5. [aardvark; aardwolf.] Both these animals dig in the earth for termites and ants, the former somewhat resembling a pig, the latter looking a little like a striped wolf. Thus the Boers in
        - U! Z3 j  l2 G" f* D' L

      6. , g) x* u' C$ a- O
      7. South Africa named them, respectively, the aardvark (from the Dutch aard, “earth,” plus vark, “pig”) or “earth pig,” and aard­wolf, or “earth wolf.” 5 h# y+ b9 E1 C+ z" x' @) I

      8. ) `4 }# e6 X0 K6 t- |
      9. [Aaron lily; Aaron's beard; Aaron's rod; Aaron's serpent.] Numerous plants are named for the patriarch Aaron. Mention in the 133d Psalm of “the beard of Aaron” led to Aaron's beard becoming the common name……
      复制代码
      要生成 Mdx词典只要加几行码生成Mdithtml再导入 MdxBuilder 生成 Mdx文件就可以了。从近1000页的 pdf 文件到 Mdx 词典毛坯只需一个人几小时的时间!
    • 做成了 Mdx,没校对过。(附件 mdx_word-phrase-origin.rar)
      9 I  ?! R. g7 d$ j

    $ V# X, d7 o( q算是做完了两本书。结论:此法是可行的,但和用任何方法一样,最终还是需要人去一个一个字地检查及校对。大家如有什么建议、评论、问题,请跟帖,我尽量回答。开贴的四天以来我也学了不少东西,但愿此帖能对有些人有点用处或有所启发。(signing off boxing day 2018)4 D- D/ e; T# \* c9 N' U' v
    2018-12-27 更新:有网友发现 https://www.pdftohtml.net/ 可以免费(无文件大小限制、无广告、无需注册——至少现在是这样)将pdf转成 html并且找到了基于css selector的方法分离两列(成功将Word and Phrase Origins 一书的 pdf 分拆成每页左右两个文件)。这样的话,贴里提到的第一、二步就可以合成一步在 https://www.pdftohtml.net/ 上完成。2019-01-02 更新:重读开篇里提到的贴 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=29288&ctid=352,里面说的用软件a-pdf-pc将pdf一切二和用Adobe Acrobt去页眉和页脚的方法都可以简化从pdf到mdx的制作,可以一试。贴里还说可以用软件AnyBizSoft_PDF_Converter将pdf转成html,下次也要试试。此帖的第一、二步可用软件包括:Abbyy Finereader,迅捷,AnyBizSoft_PDF_Converter 以及 pdftohtml.net (貌似只能转英语)。
      G/ J: f2 b8 ^/ A) _
    ' X! B6 H4 g- c6 y) P: G- a0 ^

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    3

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-1-29 01:48
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-12-26 00:47:54 | 显示全部楼层
    看你很认真,我就来随便扯几句; p* i4 z& ?2 E
    为什么会有 PDF 这种格式?那是因为有大量的纸质资料,需要在电子设备上阅读。PDF 格式除了能大屏竖放的 ipad, kindle 还算舒服,  其他设备通通看着很难受。这是一种为了利用纸质设资料而提供的一种不得已的方法。! q, R. b3 @. x$ V6 {" R% E/ l
    HTML 格式才是真正能跨设备的电子格式。
    ) J8 t$ t, k5 K: {1 _8 k真得不需要关心任何技术,仅仅凭现状和逻辑,就可以得出结论,目前不可能存在省力的,简单的,通用的转换成真正能用的 HTML 的方法。如果有,那 PDF 这种反人类格式就不应该存在,至少不应该广泛存在。
    8 S1 H- E: {$ E" r你现在转这个,其实已经算很简单的 PDF。不出所料,需要有大量的完全不通用的代码辅助,真正做到能用,可用,应该还有巨量的人肉操作。
    6 G; c1 B$ t) M5 G3 z( m' F( v那种查几个单词就会有肉眼可见的错误的,我认为是完全不能用的,如果出来是这样的质量,我建议还是放手吧,花这么大精力根本不值得。
    " f+ G: L- H1 g7 o9 B! a8 r) ~, J. [7 K$ c) L
    . C" B1 |+ H7 }, P, M6 |! p" E
    如果你愿意继续,我有点小 tips 看看是否有帮助8 q4 h5 e' z# I
    . u5 p$ `/ d7 {* e5 H4 o  }; s" F
    6 }( F4 Z! g& n7 s( m! j: i
    http://app.xunjiepdf.com/
    7 Q8 W0 |1 T& ^" R国产的,可以 PDF 转 HTML,这个思路以及算法和 word 以及你用的 abbyy 完全不同的,格式远远比那两个精准的多。' r' H; e3 y: I$ w5 `: ?4 U

    ; H  y' o8 [' W$ J) d' U

    ( J5 U5 W6 \2 Q1 m通常处理这种需要反复改来改去的 HTML,我会先用 chrome snippets+ \! [: k2 q# x& |9 j0 _1 j
    - _- H5 i9 E$ G& w& Z; m1 J

    0 w' y8 E; ?8 M* P: B# v2 [7 m1 U. T" v( I: D9 q3 |

    0 w* D0 h7 t+ ^5 i0 }
    0 u; C# |: l8 M+ C, G" k0 {- W: h
    这里可以码大量的代码,你想码多长都可以。当然从代码是可以访问当前网页的,怎么改都可以。所见即所得,调试断点之类的那是当然也有的。) ?/ k. A$ E& B( I' N
    除了网页不能过大,我是想不出有比这里更好,更方便用代码处理网页的地方了。- @0 X& N+ d0 i( d; _6 ]' w- F8 R

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-1-7 09:42
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2018-12-22 13:09:33 | 显示全部楼层
    一定是很牛的,虽然我看不懂
  • TA的每日心情
    奋斗
    2022-10-31 03:46
  • 签到天数: 224 天

    [LV.7]常住居民III

    发表于 2018-12-22 12:36:58 | 显示全部楼层
    挺不错的,谢谢分享哈
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2018-12-22 14:47:59 | 显示全部楼层
    感谢分享,到时候试试。
  • TA的每日心情
    奋斗
    2019-11-16 20:51
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2018-12-22 18:20:53 | 显示全部楼层
    非常感謝!正需要這樣的教程,學習學習自己製作詞典!
  • TA的每日心情
    开心
    2022-5-28 06:17
  • 签到天数: 277 天

    [LV.8]以坛为家I

    发表于 2018-12-22 21:06:40 | 显示全部楼层
    Although I do not understand this very much, I'll keep checking it out.
  • TA的每日心情
    奋斗
    2021-11-24 12:18
  • 签到天数: 487 天

    [LV.9]以坛为家II

    发表于 2018-12-25 21:07:24 | 显示全部楼层
    这个技术厉害了
  • TA的每日心情
    开心
    2023-3-1 12:06
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2018-12-25 23:43:17 | 显示全部楼层
    thank you so much for sharing such a valuable information
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

     楼主| 发表于 2018-12-26 11:17:02 | 显示全部楼层
    本帖最后由 mikeee 于 2018-12-26 14:15 编辑 6 ?2 L7 o( a5 e
    fearfare090807 发表于 2018-12-26 00:47( x5 U7 [$ _- G
    看你很认真,我就来随便扯几句9 [: M9 w0 R) d$ a- p' t
    为什么会有 PDF 这种格式?那是因为有大量的纸质资料,需要在电子设备上阅读 ...
    * T2 l* Y5 \3 F' M0 ]( ]
    感谢你的评论和tips。& D  c# w/ |6 A8 f5 g% y2 R
    8 c. H; J2 b7 K# p, i: k' i
    我试了一下迅捷,效果不错,但在原 pdf 文件是两列时并不适合我用的方法——迅捷OCR得到的两列是混在一起的。只要高亮一些内容就可以知道。两列混合就没办法用程序的方法分离。以后碰到 pdf 是一列时再来试试迅捷。又试了一下,迅捷8里设成编辑优先可以得到我所要的那种。但迅捷好像没法去掉页码和每页页首的标题,会在抽取词头和释义带来很大的麻烦。Finereader 的可取之处在于OCR可设置成去掉每页页首和页末的东西。如果能找到办法系统地移除pdf每页的header和footer再用迅捷就不错了。搜了一下,Mac里的Pdf Preview好像可以。Windows里面好像要装Adobe 啥的。
    3 ]: c7 ^# D+ @- Z) n0 s! a7 A
    ) Q: M) }: A+ d1 L另外我已经在标题的“最省力”后加了个问号。不过我觉得吧,OCR得到的内容的校对是任何技术手段都无法解决的。我的贴只是讨论如何将OCR得到的东西比较快捷地换成可以易于制作mdx的格式。内容校对还是得靠眼睛和大脑。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-12-28 14:58:02 | 显示全部楼层
    本帖最后由 喬治兄 于 2018-12-28 16:22 编辑
    8 L! ?6 ]; [& [5 B( J1 a
    fearfare090807 发表于 2018-12-26 00:47% V9 E" _" g- S$ R9 G6 U
    看你很认真,我就来随便扯几句, t( C5 \3 z! i0 [6 q% d6 \8 }
    为什么会有 PDF 这种格式?那是因为有大量的纸质资料,需要在电子设备上阅读 ...

    - \: l" C! \/ S. l2 @+ ^) V, `" F7 P% e3 _) v7 `
    fearfare090807 兄:
    9 O& \% y7 o  w" v' y+ `8 z剛剛試了一頁效果好像沒有aabby好耶; z- m- b2 G% h
    那公司的qq服務號感覺像機器人
    / D7 ^. d4 R0 z0 _
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 19:42 , Processed in 0.068425 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表