TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
发表于 2018-11-28 09:34:34
|
显示全部楼层
本帖最后由 mikeee 于 2018-11-28 14:38 编辑 ! I5 \, S- r; k0 R, ` ]$ n9 A
8 P+ e- p5 V+ T我来安利一个方法:# G8 _1 X$ U; [5 F" d& t3 Q! Q' G
- 先用 Abbyy Finereader 将 pdf 转成 docx
- 再用将 docx 转存为 html
- 然后用 pyquery(python)/cheerio(javascript) 解析(可借助Chrome的Devtools)得到的 html (或直接拷出txt)
9 k4 c8 J9 a' |; Y$ }! u , F: Y& `6 c w% s' s" A1 B
1)里用 Abbyy Fineread 将 pdf 转成 docx 可以自动处理页首页注等(如章名,页码等)。这些用其他方法处理相当头疼。Abbyy Fineread还有个好处,原有些pdf里分行时用的分字符(-)可以被处理掉。手动处理这些东西也很费事。2)主要是为下一步用程序解析结构准备。不想编程就直接折腾 docx 好了。3)可以节省很多时间。坊间流行的正则麻烦多多。Python里也有其他包(如bs4,lxml)但个人认为都不如 pyquery 好用。bs4用自己一套,lxml基于xpath。pyquery抄 jquery (抄得够全)用 css selector。
8 H( D. s, S& e# \" s' [5 L! M4 y有人会问我是不是试过,是的。参看此帖的 9 楼 https://www.pdawiki.com/forum/fo ... light=word%2Borigin' X9 a0 h) {0 ^0 e# _
- Q" Z' ~/ W6 B# ]; U6 O, g大家不妨用别的方法处理一下这本书的 pdf 试试。直接下载地址 http://npu.edu.ua/!e-book/book/d ... hrase%20Origins.pdf (2018.11.28仍然有效)。顺便提一句,这本书还挺不错的。好像还没有 mdx版,如果没人做,我可能元旦时来折腾一下。主要是硬盘紧张,没地方装 abbyy finereader,ocr需要的硬盘可能也得几百M。% x3 ]% }6 C( \& b2 E" }0 A
+ R' K4 M% D* h+ \) ?+ r1 [ |
评分
-
1
查看全部评分
-
|