掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2730|回复: 21

[求助] mdx转换成txt如何去除代码?

[复制链接]
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2017-3-5 23:06:56 | 显示全部楼层 |阅读模式
    我为了把mdx转化成没有html格式的txt文件,一般转换txt后做某种处理就可以去掉代码然后进filelocator pro搜索文件的内容
    ' `6 g( `' R& E! X7 F9 f$ Z
    , }% t/ M. h- `然而我转换后变成这样- k" d; x! K% K& Y& ^. k- T

    ( H( _% w: Y' ?0 u输入abandon搜索后发现代码并没有被去除
    $ k, t) I7 o9 H) g5 D4 _
    , t, G. u/ z( E; q4 B; l! X  o请问怎样才能方便去除这些代码,并用回车区分它们?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    发表于 2017-3-22 00:12:32 | 显示全部楼层
    Serica 发表于 2017-3-21 22:41
    . h* M7 S) q! j- A) g+ y故意分享的不完整的文档?请详细言明。那人人品有问题。

    - d4 @  z3 [' Z. D1 n. uFrank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt文档,我打开后发现他分享的柯林斯、剑桥、牛津等等这些词典到了字母m或者h等之后就没有了,就是说只有原词典的几分之一,但是mdx在网上流传的版本都是全的,他是通过代码转化而来,如何会缺少这么多?还有,他把词典的名字改变了,比如说把柯林斯词典改名为剑桥类似这样的,而网上流传的mdx文档哪里有名字混乱成这个样子的呢?我私信过他,他没有回复我,并且他那一个高赞答复下面的评论与也关闭了,他写那个答案是为了扩大知名度,但是任何一个费力写代码的人恐怕都不会愿意将自己的成果分享出来,可是不分享出来就没有那么多赞,因此他采取了这种卑鄙手段,也许是因为我发现了,或许是他早就决定了,反正他关闭了评论,这样的话绝不会有人知道他的这种动机了。其实论坛里面的高手们制作几个txt根本不在话下,我在本论坛看到了一个好多年前的帖子就写到了利用filelocator进行语料库搜索,Frank的办法别人好多年前就想到了。' G! U3 D" G* Z/ R# [$ i' `/ w
    还有他在https://www.zhihu.com/question/2 ... profile_answer_card这个问题下面分享的一个doc文档也是不全的,这一个是人工校对的,自然更加舍不得分享出来了,但是不分享出来怎么会有赞,怎么推销自己呢?因此分享不全的资料就可以骗赞!

    该用户从未签到

    发表于 2017-3-22 08:23:47 | 显示全部楼层
    本帖最后由 Oeasy 于 2017-3-22 08:36 编辑
    $ w/ n; J) b0 T/ `
    取进止 发表于 2017-3-22 00:12
    0 Q0 A+ [" }1 ZFrank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt ...

    0 Y5 u; l, g3 M9 L
    ' L% i3 k8 z# t' a# s! F' ^& d* f' V
    我晕。。。: |# F  ~: x8 y" |1 g& u! f
    这样也可以。。。
    - i' ^- R, B' F% `6 f那些 txt 以及相关方法真正首发者是:! r2 o; N* ]( w6 W! f0 }7 R4 `
    - LYX1692 https://pdawiki.com/forum/thread-11546-1-1.html
    1 l* E- ?6 g- T9 Q1 H* q, W他也在知乎 https://www.zhihu.com/people/bei-ji-hu-82/answers
    5 q! q$ `# u1 G7 }$ M* \2 L/ j5 g( n6 U1 u# P5 {4 \* K
    0 R) y( c! a, C1 b6 h6 C
    信息不对称啊。
    & t7 k! a5 G! z# C# H+ y
    . @- h! @# u) t) g) I不过 GoldenDict 直接可以全文搜索啊,没必要转 txt 的。 当然,大家苦于全文搜索好多年,LYX1692 2013-12-19 发帖的时候,GoldenDict 尚未加入全文搜索功能,后来有了这功能, 转 txt 全文搜索词典这种方式至少在我这儿,已经退出历史舞台了,倒还有一些不明真相的群众还把这当宝。GoldenDict 才是真的神器啊。
    % m1 G, d4 t1 \7 l& Y) _1 d3 ]6 L+ d* K6 s5 @2 S! @2 i2 |- Q6 R
    当然,txt 搜索灵活性更大,速度也更快一些。GoldenDict 全文搜索还是有一些缺陷,不过对我而言够用了。
    0 A8 L) L( h" n% O6 d0 \' o6 H0 h+ L% \; |8 X
    我每天发公众号文章,里面的例句都是我用 GoldenDict 搜出来的。
    , d6 ~( [" W/ P4 d9 l: H6 Q) [% g; W  @( B1 u4 ?$ l7 W& e0 J
    比如下面两篇,其实就是我用 GoldenDict 全文搜“棒极了”,然后一个个整理、复制粘贴出来的。2 h( |9 H: X2 D4 l+ E

    ) z1 J4 D& a( q        [2017-03-22] 棒极了[2] http://mp.weixin.qq.com/s/rD-B33NqC7qXojdJfQTggA
    7 E9 r+ u! B: L        [2017-03-21] 棒极了[1] http://mp.weixin.qq.com/s/QvKY0OrVaA55j4MQPdMgpg6 t: z* D% D* s$ V( ~) v, ~

    4 z9 W1 K% _  x6 |8 M        [2017-01-21] GoldenDict 全文搜索几例 http://mp.weixin.qq.com/s/gHMJrVG_bmGw142fEEtNeQ
    6 j8 ]: }' c" |& \# s0 F
    * p+ U: `6 y) T/ {我又发广告了。。。2 z  k( z; o9 C- M+ L# `
  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 222 天

    [LV.7]常住居民III

    发表于 2017-3-17 01:18:50 | 显示全部楼层

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2017-3-5 23:20:14 | 显示全部楼层
    据我所知,网上有个TextForever这个工具,mdx转text后,再改后缀名为html,然后用这个工具把html部分替换成回车等方法分隔段落,然后输出text就代码了,但是我8G的内存开始转化却提示out of memory
    4 O! s  m8 T9 n# U  [论坛有人能顺利转换出来吗?
  • TA的每日心情
    开心
    2021-7-10 04:32
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2017-3-6 00:10:59 | 显示全部楼层
    goldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?
  • TA的每日心情
    开心
    2018-1-2 00:27
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2017-3-17 01:02:02 | 显示全部楼层
    可以学习下正则表达式。
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    发表于 2017-3-17 10:51:01 | 显示全部楼层
    kyletruman 发表于 2017-3-6 00:10! _( G7 i. @+ \, w- G, a3 u
    goldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?

    " [1 m5 Z) i% h0 f6 g我很早以前就想这样做了,知乎上面一个人(frank huang)介绍的这个方法,但是那个人故意分享了错误的不完整的TXT文档,我尝试自己做但是一直未果,全文搜索的话虽然也知道但是不知道具体如何实施,请问你介绍的那两个词典是电脑和手机都可以使用吗?哪一个更好呢?

    该用户从未签到

    发表于 2017-3-21 10:04:33 | 显示全部楼层
    maralica 发表于 2017-3-5 23:20$ ]  Y2 L  L' y0 m  F8 n& F0 V6 J" l1 I
    据我所知,网上有个TextForever这个工具,mdx转text后,再改后缀名为html,然后用这个工具把html部分替换成 ...

    6 Z- w3 l) C1 M3 }% T6 |# [0 O/ G1 ?- E8 q* \+ O
    多大的文件?我用textforever處理過200MB的沒問題。如果文件太大,可以先用textforever分割後才清理。
  • TA的每日心情
    开心
    2018-1-2 00:27
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2017-3-21 22:41:13 | 显示全部楼层
    取进止 发表于 2017-3-17 10:51
    * t2 A: Y9 s7 t' e8 h6 v; v我很早以前就想这样做了,知乎上面一个人(frank huang)介绍的这个方法,但是那个人故意分享了错误的不 ...
    6 G0 i* l& A2 Q& @2 I" s6 Y5 ^* `
    故意分享的不完整的文档?请详细言明。那人人品有问题。
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    发表于 2017-3-22 10:07:07 | 显示全部楼层
    我也是前几天就看到了论坛里面几年前就有人想到过这个方法,因此我才说他(Frank)的方法别人几年前就想到了。不过我当时也觉得他的方法很了不起(。ò ∀ ó。)
    4 G, I2 q! j, T  X: K我以前不知道全文搜索这个功能,goldendict没有安装过,前几天发现深蓝词典很方便,并且是安卓手机版本。$ q6 u! x9 ?) T- g1 {9 p6 x
    filelocator搜索和全文搜索相比,最大的优点在于前者可以将搜索到的所有内容集中起来显示,可以一次性复制。
    % K  L' L3 m$ Y4 [1 F3 ~这样如果做成汉译英词典的话,简直~( ̄▽ ̄~)~. X* e) N/ m3 ]5 |( x" S( m
    还有,你的公众号里面有一个人头像和我差不多,你发现了吗?

    该用户从未签到

    发表于 2017-3-22 11:05:46 | 显示全部楼层
    取进止 发表于 2017-3-22 10:07# H# d* [& y5 R+ w5 w& o; G2 C) G
    我也是前几天就看到了论坛里面几年前就有人想到过这个方法,因此我才说他(Frank)的方法别人几年前就想到 ...
    8 G  H. K: C; [

    . h- Y' h  ]% P; Z, P. f哈哈,确实是有个头像为月亮狗的 Luo 同学,非常之热心,精选留言最多。如果你就是他的话,这里再表达一下我的感谢。
    2 [# {7 [" ]1 v; b2 f
    0 K1 f  J. s- I3 _/ J/ m, s
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2017-3-23 20:20:03 | 显示全部楼层
    kyletruman 发表于 2017-3-6 00:10
    " O# S. S4 |( J# u: h! O! {- Wgoldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?

    * `+ t1 t8 c; z) y0 g* D主要是全文搜索不能用正则表达式搜,而且要结合其他文件,包括词典里一起搜,比如搜一个带某种词组的句子,而这个词组的动词也有变形的那种呢
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2017-3-23 20:26:24 | 显示全部楼层
    时隔一个月才回复,论坛的坛友果然很给力呀。
    . f/ `' C! M& b其实我发现这个全文搜索软件的确了不起,比如将高质量的pdf外刊、或者题库,词典全分好类,然后在用正则表达式搜索
    $ z8 `/ p, ^+ z每天使用这个方法制作很多不同的例句,然后导入到anki(卡片记忆软件),相信坚持一年半载,英语的水平会越来越高的
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2017-3-23 21:42:34 | 显示全部楼层
    perspective 发表于 2017-3-21 10:041 n6 K* r* k$ ^4 |6 ]
    多大的文件?我用textforever處理過200MB的沒問題。如果文件太大,可以先用textforever分割後才清理。
    $ Z- d  L7 E& a# M, R0 Z! q& Y
    文件从300M到700不等吧,就是用这个软件老是不成功。比如我看vocabulary.com的mdx不错,转换txt后有300M,然后改后缀名为html,之后无法去除html编码。0 J7 I# h4 {" X$ B( X
    但如果用柯林斯CN的mdx,转换后的txt有70多M,改后缀后扔进textforever总算成功了。9 S% B6 A. g& l5 t( V' k3 Y2 n8 m
    另外我尝试了2L的方法,下了他推荐的软件,发现那个200M的仍然不行
    6 \6 l$ N1 ]; T9 q! d" c/ D
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

     楼主| 发表于 2017-3-23 21:53:38 | 显示全部楼层
    ! t1 S$ G( B+ _) E
    你给出的方法也特别不错,尤其是对英汉词典有用。/ l$ l! j5 l/ k
    但是对于英英词典,转换中带html字符一律删除,而不是替换为空格,这样就把两个英文合在一起了。
    $ b  C( S. `. D: z比如下面转换后的一项单词:
    & s; c7 |: `% q9 W8 G) U( H1 Qbranchiate        branchiate(once / 562825 pages)adjWORD FAMILYbranchiateUSAGE EXAMPLESThe state of being made up of branchiate segments.Webster, Noah, Webster's Unabridged Dictionary—(2n...(2012)Thus we see that in our aquariums most of the axolotls remain in the branchiate condition, transformed individuals being on the whole very exceptional.Various, Encyclopaedia Britannica, 11th Edit...(2010)adj provided with gillsSyn|Antgilledabranchial, abranchiate, abranchious, gill-lesshaving no gills\n

    该用户从未签到

    发表于 2017-3-24 11:31:05 | 显示全部楼层
    Oeasy 发表于 2017-3-22 08:23
      ~$ d. X$ f+ j( v- G  P" t& u我晕。。。
    / b. Y& m' ~, _这样也可以。。。, |* o7 U* e3 N
    那些 txt 以及相关方法真正首发者是:

    3 a  y/ \% ~7 h4 `# o8 H' o# C2 w您这是怎么能翻出我的知乎账号来的啊。我哪里露出马脚了。

    点评

    看头像ww  发表于 2017-3-26 00:24

    该用户从未签到

    发表于 2017-3-24 11:49:18 | 显示全部楼层
    本帖最后由 LYX1692 于 2017-3-24 13:20 编辑 " P0 C0 f1 O# b
    ' m  K9 a$ \, A  u* X! @
    我来冒个泡吧。
    ' n& b8 I& s% e; H$ G2 n+ KFilelocator pro 作全文搜索这想法,应该是我先想出来的吧。, b6 q7 s' i! G% M1 C
    至于说去除代码这事,TextForever是可以的。如果单个文件太大,就切割下,反正就算你用Filelocator pro,文件过大也是不便搜索的。
    " A) E- Q. k( p1 k, Z% s- Y(Python 的 BeautifulSoup 也可以,至少它是有这功能的,我自己只是拿它处理过一些小文档,没有处理过大文档,效果未知)
    5 E7 p4 E! v8 @( B# k6 Q都是要切割成一些小文档,这样不会影响搜索,反而有利于提升搜索速度。" i* H' L. p: N+ w
    * f  i4 L0 s3 B3 n2 j
    如果是我做,我恐怕不会直接用工具转成纯文本 txt 的。# a4 R! P  P: v. T. |
    我以前做的时候,虽然我知道有更方便的工具,可我还是得用正则来做的。
    0 w5 d; ^& M& V- o因为你是要弄成纯文本来搜索,你最好设置好特定的格式。5 g2 R* s: s. h  X
    比如说,单词词条上加个五角星什么的。' w( k& m8 L1 u$ ~, l- U

    9 J9 b& t' ?. g像这样:* T; O2 d$ c, l
    »He tries to keep his professional life completely separate from his private life.    ┊ 他设法让自己的工作和私生活完全分开。~『朗文当代』) x+ f1 o: P. }6 R' F! ^

    , D, c2 ^, Q! P5 o9 v. }7 N( z哪里是例句,哪里是中译,哪里是原文出处。
    - l- y: l% U- J3 k
    3 j) N8 Q& W, p9 A) C& i以一定的格式来处理 txt,会让你的搜索更有针对性。# Z8 A1 k, }$ S4 ]/ k( j* `$ j
    导出来之后,也有利于你进一步整理。
    & s+ h% r8 f4 b
    , T! }1 b: c$ f' \! [* y  j, o* n这样的话,用正则,一个个htm标签来细心排版,活虽然做得慢点,可是,对你以后想做的事有好处。/ p7 e4 q0 L  D% |2 |
    . G' a9 K9 }( m) A2 ?0 E

    , X6 c0 z, n. G8 i; I8 `——————
    ( {+ T# ~) W! m5 S* Q感谢O大帮我看了下发贴时间,看到2013,这让我很感慨。
    1 e9 _" ?* L  ]! C* z

    该用户从未签到

    发表于 2017-3-26 00:03:55 | 显示全部楼层
    Oeasy 发表于 2017-3-22 08:23
    2 D4 Q; K. I; g/ t我晕。。。+ U1 C: k% ]5 u0 h: \) Y  X% m7 s
    这样也可以。。。
    , z2 {0 i9 |  w那些 txt 以及相关方法真正首发者是:

    * T( o4 w! f) s) Z* q我把mdx轉為txt,其實最終是要轉成 stardict格式,拿來給 kobo 或 nook等電紙書機器用。Kobo可以安裝 Koreader,字典格式是 stardict,但html會變成無用的干擾,必須清理。nook2 可以裝 android 版的 goldendict,但不支持 mdx,所以也得用清理過的stardict.) O" g6 T8 S" p: b* y
    4 B3 {( {/ t' _0 B% O
    轉成stardict,清理過後,畫面比起mdx陽春許多,但要長時間讀書,電紙書比手機或平板好百倍,只得折騰了。
  • TA的每日心情
    慵懒
    2021-3-24 18:53
  • 签到天数: 72 天

    [LV.6]常住居民II

    发表于 2017-4-1 15:36:47 | 显示全部楼层
    试试置顶帖里的Dict Source Editor
  • TA的每日心情
    慵懒
    昨天 13:38
  • 签到天数: 1221 天

    [LV.10]以坛为家III

    发表于 2020-11-11 15:37:09 | 显示全部楼层
    取进止 发表于 2017-3-22 00:12, h' a( U( [2 Y1 ?& t" ], H
    Frank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt ...

    0 ~! c5 B2 K  c5 ^" R5 e$ x验证了一下,居然真的名字是乱的,从他那下载的名字叫做剑桥的词典,打开里面是柯林斯的内容。不过这个文件最后一个单词虽然是 m,但单词好像不是按字母顺序排列的,我找了几个 p、s 开头的单词也能都找到,所以不确定是不是内容不全
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI ( 美ICP 0000000字 )|网站地图

    GMT+8, 2021-8-3 09:20 , Processed in 0.052822 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表