掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3432|回复: 9

[求助] Word and phrase origins[2008版, 高清, 可复制]

[复制链接]
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

    发表于 2013-9-27 17:46:08 | 显示全部楼层 |阅读模式
    请各位看看这个http://www.baidu.com/link?url=YB ... igasAC20NXFW8hNMJda, 看看能否转换成mdx

    该用户从未签到

    发表于 2013-9-28 05:30:27 | 显示全部楼层
    dingyang 发表于 2013-9-27 23:06
    , i* k2 P% t, w7 z- }( ^# MPDF很难转成mdx的

    " k4 G, R( U) j7 ]$ B, }1 O: b{:5_227:}也不难,就是不管高手、低手,估计最低也得耗上两百个小时,才能把楼主链接里的pdf,做成能见人的mdx。
    4 L- C5 K! f2 }$ l9 E- t0 z. c文本版的pdf,跟扫描版的pdf相比,也就省了OCR一步,距离能直接build为mdx的txt还有十万八千里呢。
    * L) Q2 ]& ^+ ^( `
    & k6 x' L& U: a9 ^6 f4 JSelf-help is better than help from others; God helps those that help themselves.自己动手、丰衣足食啊。谁感兴趣谁动手啊。
    3 w' @5 M& R: W0 i' F' I. u, Q提供几个思路" f2 b4 a5 B4 T
    1. pdf转html,这样pdf里词头的加粗可能得以保留,但是会有很多问题,因为pdf页面里内容是两栏,转成html后内容会出现错位的情况,最后让人心力交瘁,还不如一条一条复制粘贴。
    ! [) J# w8 c8 ?/ S2. pdf转word,pdf的两栏可能就变成文本框了,这样操作起来稍微简单些,但是最后说不定会发现,还是不如一条一条复制粘贴。
    * a% ~# l$ G% t3 B未实际操作,供参考。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-11-25 16:50:10 | 显示全部楼层
    本帖最后由 mikeee 于 2018-11-25 18:08 编辑
    8 \% I" O* e- @1 J
    + ]6 d3 ^# e2 Q/ {有一个办法应该可行:先用 Abbyy Finereader 转成 docx,docx再转成 htm。# v4 ?6 R: l6 A& w8 P$ E
    % C, n! i$ D# H- P0 r
    我机器里没装Finereader,用在线 https://finereaderonline.com 做了十页(每天在线只能OCR十页),效果不错:htm里的页头自动消失。两列变成了单列,粗体保留,好像原pdf换行时的 hyphen 都去掉了,但原pdf里跨页的段落好像没有合并。
    & f; D) R& j6 v3 H2 b; T9 K
    ) L! `2 B& {# J* \Chrome Devtools 大致看了看:css selector: p.Bodytext21 可定位所有的释义) F; ^. O9 e. ~
    css selector:p.Bodytext21>span.Bodytext2Bold 可定位释义里的粗体
    4 c3 L, C; M3 H$ ~+ U0 H. |6 ^4 o( |+ A$ J+ d" K: P0 F: \2 O
    贴不了图,发个 docx 和 htm 文件(仅10页) 百度盘链接: https://pan.baidu.com/s/15Qc4tQeWcePy7AhTJLiJXQ 提取码: encg
    4 f! U% d% e" S  Z# j: P& _
    9 p4 W: e2 {/ K8 m* a9 d& F2 w折腾了一阵,这个 python3 码处理上面说的 htm 得到的东西大致可以做成 mdx& ]# l1 A( a- y
    1. '''word and phrase orgins test
      * k7 O, k: X! v6 d: k6 N$ Z
    2. '''
      9 S( Q  H. s% Z, n7 I5 K: C- \5 y  i
    3. from pyquery import PyQuery as pq
      3 v5 a! {# c9 r* R7 b" Y

    4. , R; Q" P' r6 ~5 [6 ]$ Q( ^
    5. file = r'WordandPhraseOrigins.htm'
        Z; n7 i. Z5 `1 C2 T" s8 K- ~) p
    6. try:& y9 H8 ^( F$ S$ h$ @, {! T
    7.     html = open(file, 'rt', encoding='utf8').read(), t' b7 Z  C" @0 j
    8. except Exception as exc:
      8 s, U& f# ?, x6 f9 X$ n7 ~
    9.     print('error: {}. Trying gb2312...'.format(exc))9 a& p% Z; Y' W: o* h* ]
    10.     try:5 z, C% u& M/ ^6 t
    11.         html = open(file, 'rt', encoding='gb2312').read(): G' Q4 ^% e7 c# W, K  ~3 q' V9 @
    12.         print('Looks good')8 a7 U- M: h2 {" W' I6 C  U5 m: m3 |5 r
    13.     except Exception as exc:
        c6 a, K- W, G  f- l
    14.         SystemExit('error: {}. Giving up...'.format(exc))' `) z$ S  @$ T( S; v: n. [# N- u
    15. doc = pq(html)" h7 w+ t2 B6 [/ j9 m

    16. ( `# U" @! i6 P
    17. css_text = 'p.Bodytext21'
      ! I& m& d  n: {( z9 |% ?
    18. css_bold = 'p.Bodytext21>span.Bodytext2Bold'
      * S- e7 {; N, }! ^
    19. + D% c8 d0 @# R1 S+ s" e
    20. items = doc(css_text)
      & U2 e# g3 [) S; o( z# c
    21. , ~6 o* Q; o& D
    22. text = doc(css_text).map(lambda idx, elm: pq(elm)(0 X# F" a( c& R" s! f
    23.     'span.Bodytext2Bold').text() + ('(hw)\n' if pq(elm)('span.Bodytext2Bold').text() else '\n') + pq(elm)('span.Bodytext20').text())& W- R6 z  w: ?& N/ U
    24. print('\n\n'.join(text[:60]))
      4 N4 d( `+ d( y8 T, C
    复制代码
    上面码的输出大致这个样子:
    。。。5 `3 y1 m6 i6 t+ B% I
    A-Rod.(hw)# ^; F- C, w% r
    People who have little or no knowledge of baseball might have trouble with these initials. They are short for Alex Rodriguez, the famous Yankee baseball star.
    : {* {3 z. V+ B( W1 U5 d+ `: u9 V' ~/ O8 X: \
    around Cape Horn.(hw)$ G% f1 S- N% b3 i: Q( Z
    An expression once used in whaling communities to mean “being away on a whaling voyage.” One old poem went:
    # v* Q7 r# B2 p5 I( K. Q. x
    3 u$ u* c. j" t: X* C, n9 e% K9 j9 _6 x3 U, q
    “I’ll tell your father, boys,” I cried To lads at play upon my lawn.
    ! s/ P9 d/ Y5 Q* t0 j) @+ S& X# \) N1 A2 S# f. w

    ; |- |! @- P; {4 T! |" n/ d/ WThey chorused back, “You’ll have to go Around Cape Horn.”
    6 |& H$ F/ I. Z
    4 W$ ~" J& a* A% Baround the horn.(hw)" h/ a: @4 }/ r; [  Z) r8 d4 o
    In the days of the tall ships any sailor who had sailed around Cape Horn was entitled to spit to windward; otherwise, it was a serious infraction of nautical rules of conduct. Thus, the permissible practice of spitting to windward was called Cape Horn isn’t so named because it is shaped like a horn. Captain Schouten, the Dutch navigator who first rounded it in 1616, named it after Hoorn, his birthplace in northern Holland.4 W2 E' ?# i& E! i2 A# V- L5 I
    * `' g' I# A( y! N5 `" k
    arrant thief; knight errant.(hw)
      `6 M; l& m4 j. Kwas originally just a variation of nomadic or vagabond, the word best known in a knight who roamed the country performing good deeds. But from its persistent use in expressions such as an a thief who roamed the countryside holding up victims, came to mean thorough, downright, or out-8 h( [0 ^% C% a, e8 r& }# x6 V3 D6 e
    。。。

    8 E: n# Q- h$ o3 R% C- f% h9 k
    顺便安利一下 pyquery,是不是完爆正则、bs4、lxml
    / u- J+ n2 e0 n: g. d
    . J8 T* O6 E: ]- l1 m2 `5 z: a8 j% y7 M) n
    , I* e. D* m# t# P$ G, J

    评分

    1

    查看全部评分

  • TA的每日心情

    2023-8-3 00:11
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-9-27 23:06:41 | 显示全部楼层
    PDF很难转成mdx的
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-9-29 17:38:36 来自手机 | 显示全部楼层
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……
  • TA的每日心情
    开心
    2019-8-11 07:55
  • 签到天数: 606 天

    [LV.9]以坛为家II

    发表于 2013-9-29 20:56:28 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38 3 t( {1 ]" U2 B2 Y' V
    pdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……

    3 X8 [# G1 G3 V: w, w; I- E期待新作品,辛苦了。
  • TA的每日心情
    开心
    2022-2-24 19:08
  • 签到天数: 40 天

    [LV.5]常住居民I

     楼主| 发表于 2013-10-1 14:30:14 | 显示全部楼层
    shbf 发表于 2013-9-29 17:38
    ! r, J. P% H+ a* z9 t- y. bpdf转 txt,格式有一定规律, 编程处理后可以做成mdict词库,我正在编程处理……
    0 ^8 q3 ~1 i  }$ q3 O0 W" r7 f3 h
    期待新作品,辛苦了。Many thanks! {:5_213:}
  • TA的每日心情
    开心
    2019-9-3 09:48
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2013-10-5 09:07:51 来自手机 | 显示全部楼层
    词典文本已导出并处理……基本无误,两栏问题完美解决。
    ' t; ?$ \/ N# e; E- h' v0 {, H% ^8 I4 M
    主要遗留一些小缺点,可以自行纠正,1. 部分.,)后面少一个空格。2.部分年份数字和英文单词之间少一个空格。这两个问题很好解决的。$ j5 T0 E% C4 ]3 w4 }

    5 C$ n+ Z5 v9 j当然要做成mdx,还需把关键词标记出来,我用{}标记到字母C, 剩下的需要对照pdf,工作量有点大,不做了。发上源文本,请有时间的网友处理吧!
    , R8 }' M* w. H6 y9 [1 b! hhttp://pan.baidu.com/share/link?shareid=1686563253&uk=3759036089
  • TA的每日心情
    奋斗
    2019-3-25 01:00
  • 签到天数: 99 天

    [LV.6]常住居民II

    发表于 2018-11-24 22:20:14 | 显示全部楼层
    感谢 shbf 兄的辛勤工作。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2018-12-27 13:39:42 | 显示全部楼层
    做成了 mdx 毛坯版,不完美,但可以用了,会找时间完善一下。15米,相当于免费的吧。
    / F4 k0 u3 p. r. c3 `) G下载mdx:https://www.pdawiki.com/forum/fo ... p;extra=#pid1035923
    ) D% O) M5 n/ q! O( i' o* C
    . [2 V  n5 N+ W! Q: h( |欢迎制作校对精美版,可免费提供从 pdf 到 mdx 各环节的资料(文本,python程序等等)。详细步骤及相关资料可参考此贴 https://www.pdawiki.com/forum/fo ... &extra=page%3D1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-22 18:38 , Processed in 0.026940 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表