掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1513|回复: 42

[工具] MdxScraper:提取MDX内容并输出为PDF、HTML或JPG

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2024-1-15 20:11:46 | 显示全部楼层 |阅读模式
    本帖最后由 VimVim 于 2024-1-22 16:10 编辑
    / f4 d9 x* E" ]; Q% w8 X  l8 h% q' q8 t; `6 a8 E; Y- V- j( y
    * 项目地址:https://github.com/VimWei/MdxScraper
    : L) c+ C+ F( N) X. d) ?5 n1 O! d  h$ I* J0 q
    ## 简介9 x  b0 V+ G" W) }' k7 t' t+ x
    6 w0 r5 @, ?: Z- j; [
    一句话:根据指定的词汇列表,从MDX字典提取内容并输出为PDF、HTML或JPG。

    4 c+ h: n( H) h2 z0 c5 Y/ R/ w
    详情:MdxScraper 是在MdxConverter 基础上升级改造:

    8 B% y. ^% ~* X. X  g, I# g& p: R! F
    • 全面提升跨平台兼容性,包括wkhtmltopdf、mdx路径名等在跨平台中的多种写法。
    • 支持同一个页面多次重复引用同一图片的情形(词典中的读音图标多次出现的情形很常见)。
    • 增加对jpg、jpeg、gif等图片的支持,原程序只支持png图片。
    • 兼容img标签的各种写法,原程序只支持一种,因此也就兼容各种词典情形。
    • 兼容无CSS文件的词典。
    • 增加PDF输出时排版的多个常见配置选项,让用户更加自由定制。
    • 将mdict-query直接放在同名子目录下,避免繁琐安装。
    • 以当前时间命名文件名,避免多次输出时覆盖原有的文件。4 U6 F) M1 `* j; _! r" f

    . z8 p" R2 Z+ ?9 d. w7 \; D# e" p. h1 M% q
    ## 下载6 _3 W9 a, N" a& C( B3 o3 N  {" }

    + [/ P9 r" @: o
    游客,如果您要查看本帖隐藏内容请回复
    ' n$ F1 e9 Q# U8 ~" Y& k" V
    : K( n8 C: u, y

    1 C* f) Z; X2 Q
    3 J4 _8 d( B5 C

    评分

    2

    查看全部评分

  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

     楼主| 发表于 2024-4-17 17:41:48 | 显示全部楼层
    本帖最后由 VimVim 于 2024-4-17 17:48 编辑
    6 s8 K2 T# r1 o. V6 F# S! D+ r6 s4 p
    VimVim 发表于 2024-2-4 23:122 n; h1 B$ \7 U
    具体看readme。简单的说:$ d) }' _4 l, v3 E
    # R/ P4 ~0 t) O% u. d
    1、安装python和 ##依赖库及程序/ H5 D/ e( Z( C  A, q9 S
    2、执行命令:python MdxScraper.py "mdx\某某词典.mdx" input.txt output.pdf
    " |% \7 L& V2 \4 y& W' r6 C; m

    8 g& |0 x- N6 G( p( O9 k, e0 F已经全面更新了程序,通过配置的方式使用,
    " Y: l0 ]" c8 _) k2 s
    ) D( O+ R5 W7 _+ O; H3 G  g0 W9 W8 o% J
    ( [( Z6 ?8 ~9 U7 Y/ ?; x
    • 配置参数:settings.py
    • 运行程序:python MdxScraper.py$ ?- O  @9 @* F6 O
    . x8 [! l+ P; m. A. e, Z

    - e7 m" c; D6 x7 x& @更简单明了,具体看官网发布页面的说明。
    0 i- P" C2 U1 A0 K! h3 G8 ]8 }. B3 z$ t+ I! F; {
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

     楼主| 发表于 2024-2-4 23:12:53 | 显示全部楼层
    本帖最后由 VimVim 于 2024-4-17 17:45 编辑 " x5 ^( [' @' @7 ^
    zljoutlook 发表于 2024-2-4 20:01* V1 C; S3 ]1 @# n% V1 @
    下载后只有五个文件,没有执行程序,如何使用请赐教
    + u; [. R: B! e" M6 N
    具体看readme。简单的说:
    0 T" M! V  ?" b* p6 S& a' k8 U4 _' ]+ i- E/ D" m- P% l) B
    1、安装python和 ##依赖库及程序
    ' F4 q) C- P# P5 L2、执行命令:python MdxScraper.py "mdx\某某词典.mdx" input.txt output.pdf8 X; V) S) F( T8 g
    ( v  z7 K/ L; y* v- Q; W
    如果还有疑问,请自行学习python基础知识。* p' N% L7 [0 k

    8 {; k5 ?9 e5 E' K  z) N6 I( t9 E# t' m  X! P9 y' y
    Update:程序已升级,通过配置的方式使用,而非命令行,使用更简单,具体看发布页说明。
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 1452 天

    [LV.10]以坛为家III

    发表于 2024-1-19 07:38:57 | 显示全部楼层
    楼主,我的宽带上不了外网,有没有百度阿里网盘这种资源啊。谢谢啦

    点评

    需要自行解决爬梯。比如chrome的squarex插件。  发表于 2024-1-22 10:30
  • TA的每日心情
    慵懒
    昨天 12:01
  • 签到天数: 1913 天

    [LV.Master]伴坛终老

    发表于 2024-1-15 21:03:34 | 显示全部楼层
        感谢楼主分享。
  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 2421 天

    [LV.Master]伴坛终老

    发表于 2024-1-16 00:07:31 | 显示全部楼层
    Thanks for sharing...
  • TA的每日心情
    开心
    2024-6-8 14:23
  • 签到天数: 385 天

    [LV.9]以坛为家II

    发表于 2024-1-16 05:39:43 | 显示全部楼层
    感谢楼主分享
  • TA的每日心情
    奋斗
    2024-8-17 10:12
  • 签到天数: 290 天

    [LV.8]以坛为家I

    发表于 2024-1-16 08:11:24 | 显示全部楼层
    好东西,以后可能用得上。谢谢。
  • TA的每日心情
    开心
    2024-8-22 09:34
  • 签到天数: 381 天

    [LV.9]以坛为家II

    发表于 2024-1-16 09:08:50 | 显示全部楼层
    感谢楼主分享
  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 2255 天

    [LV.Master]伴坛终老

    发表于 2024-1-17 00:17:01 | 显示全部楼层
    谢谢楼主分享!
  • TA的每日心情
    奋斗
    22 小时前
  • 签到天数: 1705 天

    [LV.Master]伴坛终老

    发表于 2024-1-17 09:05:53 | 显示全部楼层
    Thanks for sharing...
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 1452 天

    [LV.10]以坛为家III

    发表于 2024-1-19 07:36:28 | 显示全部楼层
    谢谢楼主大哥
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 2542 天

    [LV.Master]伴坛终老

    发表于 2024-1-19 08:13:24 | 显示全部楼层
    感谢楼主的分享
  • TA的每日心情
    郁闷
    2024-2-25 12:47
  • 签到天数: 201 天

    [LV.7]常住居民III

    发表于 2024-1-20 13:30:45 | 显示全部楼层
    看来不错,谢谢分享。
  • TA的每日心情
    开心
    前天 17:15
  • 签到天数: 1429 天

    [LV.10]以坛为家III

    发表于 2024-1-20 19:02:36 | 显示全部楼层
    这个有用处。。。。。

    该用户从未签到

    发表于 2024-1-21 11:51:38 | 显示全部楼层
      感谢楼主分享!
  • TA的每日心情
    开心
    前天 17:15
  • 签到天数: 1429 天

    [LV.10]以坛为家III

    发表于 2024-1-21 14:56:55 | 显示全部楼层
    链接打不开啊,怎么回事呢。

    点评

    需要自行解决爬梯  发表于 2024-1-22 10:29
  • TA的每日心情
    开心
    2021-4-24 08:20
  • 签到天数: 634 天

    [LV.9]以坛为家II

    发表于 2024-1-21 22:41:03 | 显示全部楼层
    本帖最后由 yuqinghuaz1 于 2024-1-21 22:43 编辑
    5 q5 [  \% a' C; R2 L
    6 j+ `# `7 ^5 f2 Q6 R9 k 谢谢分享   这个可以有   但是无法下载

    点评

    需要自行解决爬梯  发表于 2024-1-22 10:28
  • TA的每日心情
    奋斗
    2020-6-15 09:00
  • 签到天数: 34 天

    [LV.5]常住居民I

    发表于 2024-1-22 11:43:51 | 显示全部楼层
    5 Y' u( T$ ~9 P: E* i
    Thanks for sharing...
  • TA的每日心情
    开心
    前天 17:15
  • 签到天数: 1429 天

    [LV.10]以坛为家III

    发表于 2024-1-22 15:34:32 | 显示全部楼层
    OK,翻过去,能下载。
  • TA的每日心情

    2024-5-24 22:00
  • 签到天数: 707 天

    [LV.9]以坛为家II

    发表于 2024-1-22 20:18:03 | 显示全部楼层
    感谢楼主的热心奉献
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-12-12 22:27 , Processed in 0.104730 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表