掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1748|回复: 43

[工具] MdxScraper:提取MDX内容并输出为PDF、HTML或JPG

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2024-1-15 20:11:46 | 显示全部楼层 |阅读模式
    本帖最后由 VimVim 于 2024-1-22 16:10 编辑
    6 n6 A- D3 _% o& Z9 ?" x; C* B4 G5 U
    * 项目地址:https://github.com/VimWei/MdxScraper
    8 A7 i( U& P5 h
    " }& S$ Z6 ~6 I7 n$ V0 }3 S& k## 简介6 d/ C3 t6 [/ F0 v- ~0 _/ l5 Z

    $ x) n. C# |6 T) d# O
    一句话:根据指定的词汇列表,从MDX字典提取内容并输出为PDF、HTML或JPG。

    4 v! F6 L' _7 ?. W5 H/ P; x7 r$ Z
    详情:MdxScraper 是在MdxConverter 基础上升级改造:
    % R4 G7 {) M  }- Z9 j( a2 ~0 R
    • 全面提升跨平台兼容性,包括wkhtmltopdf、mdx路径名等在跨平台中的多种写法。
    • 支持同一个页面多次重复引用同一图片的情形(词典中的读音图标多次出现的情形很常见)。
    • 增加对jpg、jpeg、gif等图片的支持,原程序只支持png图片。
    • 兼容img标签的各种写法,原程序只支持一种,因此也就兼容各种词典情形。
    • 兼容无CSS文件的词典。
    • 增加PDF输出时排版的多个常见配置选项,让用户更加自由定制。
    • 将mdict-query直接放在同名子目录下,避免繁琐安装。
    • 以当前时间命名文件名,避免多次输出时覆盖原有的文件。
      0 ~9 f3 F8 O) l

    ( L6 s: I% e) ?7 x* C0 y9 J7 N7 x1 W4 _# Z8 K0 v
    ## 下载% z) g$ K2 i) r8 O# _' S

    2 l# c, A3 U0 V0 I) S, f. _
    游客,如果您要查看本帖隐藏内容请回复
    4 l% A7 s7 i1 p( P5 W2 u5 O

    : N- H# A; a* p. Y/ g& P
    , c% ^8 e  x/ |  q8 f' K  H* J0 L, W, Q4 a4 c& u  f& {

    评分

    2

    查看全部评分

  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

     楼主| 发表于 2024-4-17 17:41:48 | 显示全部楼层
    本帖最后由 VimVim 于 2024-4-17 17:48 编辑 . x' |+ M' d- A, H/ V! h0 H
    VimVim 发表于 2024-2-4 23:128 |# h/ @9 U" ~0 O
    具体看readme。简单的说:' u" d+ p7 a" c2 U; B( t/ z. O
    2 e% e" a% J! _7 F0 a6 M' G
    1、安装python和 ##依赖库及程序
    $ o- K+ e' l) P# r2 O  y4 h2、执行命令:python MdxScraper.py "mdx\某某词典.mdx" input.txt output.pdf
    : }. m. r8 `! p# `
    & C* Y3 v, z0 u& {
    已经全面更新了程序,通过配置的方式使用,
    2 y. m5 o7 A: E: R6 j4 h8 Q0 Y; y
    7 x( x. C7 u! G5 W* w- v+ q. o
    8 r& p9 B; N$ _
    • 配置参数:settings.py
    • 运行程序:python MdxScraper.py
      ! t, T9 y$ R  q

    : n5 a$ e' V; S8 A
      J9 |* i3 q' [更简单明了,具体看官网发布页面的说明。) G" X% F  M' v1 W# Y6 ~' u

    0 N& }, z7 g* I3 M6 ~3 P, x
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

     楼主| 发表于 2024-2-4 23:12:53 | 显示全部楼层
    本帖最后由 VimVim 于 2024-4-17 17:45 编辑
    % j" C9 }6 ?5 X# d$ Q& A/ c3 R
    zljoutlook 发表于 2024-2-4 20:01
    # P7 P4 f! ?% A( O  z3 }) N* A下载后只有五个文件,没有执行程序,如何使用请赐教
    ) l, S, t: g( h
    具体看readme。简单的说:. R0 c6 D$ C! g# @) |4 Y3 u7 ^; ^( a$ v
    9 t; J# L7 d" v: r+ r
    1、安装python和 ##依赖库及程序
    ; S- o* s* U+ n0 d) [% z2、执行命令:python MdxScraper.py "mdx\某某词典.mdx" input.txt output.pdf9 E2 d  t& f5 l6 A! C
    3 X8 K+ y( p8 \% E8 w. W
    如果还有疑问,请自行学习python基础知识。: B! c7 h. ~% U2 t
    * i" X$ Q8 ]$ t2 S+ n1 ?
    - E) j0 j1 k- z: [+ x6 G
    Update:程序已升级,通过配置的方式使用,而非命令行,使用更简单,具体看发布页说明。
  • TA的每日心情
    开心
    昨天 10:46
  • 签到天数: 1539 天

    [LV.Master]伴坛终老

    发表于 2024-1-19 07:38:57 | 显示全部楼层
    楼主,我的宽带上不了外网,有没有百度阿里网盘这种资源啊。谢谢啦

    点评

    需要自行解决爬梯。比如chrome的squarex插件。  发表于 2024-1-22 10:30
  • TA的每日心情
    慵懒
    6 小时前
  • 签到天数: 1996 天

    [LV.Master]伴坛终老

    发表于 2024-1-15 21:03:34 | 显示全部楼层
        感谢楼主分享。
  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2500 天

    [LV.Master]伴坛终老

    发表于 2024-1-16 00:07:31 | 显示全部楼层
    Thanks for sharing...
  • TA的每日心情
    开心
    2025-1-17 11:06
  • 签到天数: 386 天

    [LV.9]以坛为家II

    发表于 2024-1-16 05:39:43 | 显示全部楼层
    感谢楼主分享
  • TA的每日心情
    奋斗
    2024-8-17 10:12
  • 签到天数: 290 天

    [LV.8]以坛为家I

    发表于 2024-1-16 08:11:24 | 显示全部楼层
    好东西,以后可能用得上。谢谢。
  • TA的每日心情
    开心
    2024-8-22 09:34
  • 签到天数: 381 天

    [LV.9]以坛为家II

    发表于 2024-1-16 09:08:50 | 显示全部楼层
    感谢楼主分享
  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2346 天

    [LV.Master]伴坛终老

    发表于 2024-1-17 00:17:01 | 显示全部楼层
    谢谢楼主分享!
  • TA的每日心情
    擦汗
    12 小时前
  • 签到天数: 1788 天

    [LV.Master]伴坛终老

    发表于 2024-1-17 09:05:53 | 显示全部楼层
    Thanks for sharing...
  • TA的每日心情
    开心
    昨天 10:46
  • 签到天数: 1539 天

    [LV.Master]伴坛终老

    发表于 2024-1-19 07:36:28 | 显示全部楼层
    谢谢楼主大哥
  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2630 天

    [LV.Master]伴坛终老

    发表于 2024-1-19 08:13:24 | 显示全部楼层
    感谢楼主的分享
  • TA的每日心情
    擦汗
    2024-12-27 21:37
  • 签到天数: 202 天

    [LV.7]常住居民III

    发表于 2024-1-20 13:30:45 | 显示全部楼层
    看来不错,谢谢分享。
  • TA的每日心情
    开心
    昨天 00:13
  • 签到天数: 1480 天

    [LV.10]以坛为家III

    发表于 2024-1-20 19:02:36 | 显示全部楼层
    这个有用处。。。。。

    该用户从未签到

    发表于 2024-1-21 11:51:38 | 显示全部楼层
      感谢楼主分享!
  • TA的每日心情
    开心
    昨天 00:13
  • 签到天数: 1480 天

    [LV.10]以坛为家III

    发表于 2024-1-21 14:56:55 | 显示全部楼层
    链接打不开啊,怎么回事呢。

    点评

    需要自行解决爬梯  发表于 2024-1-22 10:29
  • TA的每日心情
    开心
    2021-4-24 08:20
  • 签到天数: 634 天

    [LV.9]以坛为家II

    发表于 2024-1-21 22:41:03 | 显示全部楼层
    本帖最后由 yuqinghuaz1 于 2024-1-21 22:43 编辑 3 g8 q1 ?' Z# m: h
    , R8 s( L0 b$ e" N; V
    谢谢分享   这个可以有   但是无法下载

    点评

    需要自行解决爬梯  发表于 2024-1-22 10:28
  • TA的每日心情
    奋斗
    2020-6-15 09:00
  • 签到天数: 34 天

    [LV.5]常住居民I

    发表于 2024-1-22 11:43:51 | 显示全部楼层
    # @9 v* D1 {' E
    Thanks for sharing...
  • TA的每日心情
    开心
    昨天 00:13
  • 签到天数: 1480 天

    [LV.10]以坛为家III

    发表于 2024-1-22 15:34:32 | 显示全部楼层
    OK,翻过去,能下载。
  • TA的每日心情

    2024-5-24 22:00
  • 签到天数: 707 天

    [LV.9]以坛为家II

    发表于 2024-1-22 20:18:03 | 显示全部楼层
    感谢楼主的热心奉献
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-3-15 12:48 , Processed in 0.033199 second(s), 33 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表