掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: lgmcw

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    慵懒
    2021-9-1 08:46
  • 签到天数: 61 天

    [LV.6]常住居民II

    发表于 2021-9-25 11:27:29 | 显示全部楼层
    多谢,我总算找到答案了。明天把词典再重做一下。
  • TA的每日心情
    开心
    2023-4-7 00:20
  • 签到天数: 494 天

    [LV.9]以坛为家II

    发表于 2021-9-25 16:42:46 | 显示全部楼层

    6 |7 P3 _& i' p0 ]: O6 ]好东西 谢谢分享* @. K0 ^' ?$ I6 J

    该用户从未签到

    发表于 2021-9-27 09:15:39 | 显示全部楼层
    謝謝分享此
  • TA的每日心情

    2022-10-14 17:24
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-9-27 17:48:28 | 显示全部楼层
    感谢大佬分享,学习
  • TA的每日心情
    开心
    2023-12-31 23:26
  • 签到天数: 1286 天

    [LV.10]以坛为家III

    发表于 2021-9-27 21:59:55 | 显示全部楼层
    感谢楼主,多谢!

    该用户从未签到

    发表于 2021-10-3 14:54:37 | 显示全部楼层
    感谢楼主分享。
  • TA的每日心情
    开心
    2018-1-15 14:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2021-10-3 20:32:09 | 显示全部楼层
    看一看,感谢分享!
  • TA的每日心情
    擦汗
    2021-11-17 09:18
  • 签到天数: 79 天

    [LV.6]常住居民II

    发表于 2021-10-6 09:52:48 | 显示全部楼层
    muyuzhth0 发表于 2021-7-23 14:38
    : M3 Z: J+ C9 P* Ipython3.8.9调试成功!
    / l0 b2 o7 L0 C+ Z, y
    # |5 I4 [3 [/ C" n: f; m0 |6 V做了如下修改:

    # `% H  g$ T5 {7 H! m" r$ w! u(3) 在哪里加入
    1. current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt
    复制代码

    ( G! }2 C  n. k; i
    / A% C- f, V6 X4 U! k我的版本是 3.9.7  ,目前没有遇到 No such file or directory 报错。 然后是genMDX_ox4.py 文件有部分中文乱码# k9 Y- a- K/ R  u% ]

    ' z; D3 _6 i2 ]$ L, k
    1. # -*- coding: utf-8 -*-
      7 M" ^1 Q. O8 Y- s, m4 j
    2. # encoding=utf8. Q3 m! Q: J' G2 t

    3. * e% K$ Z7 G. n) T  i) u' m( w" a
    4. from __future__ import unicode_literals,print_function, absolute_import, division+ }9 n1 T. j" k9 r9 y0 @8 \- S/ r
    5. 5 ^4 b& d% |' v2 ~  [- q
    6. ( t7 ]. Z. h5 ^
    7. import re
      3 r$ @' d- g: M- s% z  j
    8. import copy6 }0 [/ T7 e9 l3 f1 h+ @* h# |
    9. import chardet
      , a" s* l6 I) o& k9 g3 w
    10. % l! g( D% g7 L" m( m" s
    11. import os1 E2 b! R9 L% D: v: a
    12. import io
        i: T; F, x6 e
    13. import sys
      8 c( i$ a7 P/ R
    14. # reload(sys)
      6 ?' m/ f: M5 S, W% \# z: D5 r4 X
    15. # sys.setdefaultencoding('utf-8')' @1 f1 a& K& |1 s# B
    16. " [  j# J7 A' @' p
    17. import collections1 @  I5 O' A1 ]9 n  I9 r
    18. from collections import defaultdict
      % n% z1 w" Q* ~1 S% W

    19. $ ?7 v5 D3 Q  s

    20. 9 O9 M8 X3 {- h) X' S+ O
    21. from writemdict import MDictWriter, encrypt_key0 ~$ |; U5 E2 i: D* C8 W
    22. from ripemd128 import ripemd128
      : D3 d, k8 R% T0 H6 E+ V

    23. - R0 D& K6 E' G8 L* l

    24. % m. c% H4 Q+ e- R, u/ G/ w
    25. head = 0
      0 y0 n6 B& q+ z) B
    26. new_mean =[], b/ G4 b3 o: n* \
    27. f=io.open('OALD4_azure.txt', 'r',encoding='utf-8')5 s0 b1 n8 j" v* f
    28. #f=io.open('oxford2_original.txt', 'r',encoding='utf-8')6 e  a/ B& F. a- I5 m  P0 x# e2 f1 @3 G
    29. d = defaultdict(list) #����һ�����ֵ䣬Ҳ��ʹ��{}������% ?+ M5 f; n5 e8 B$ C4 v9 s: [! i
    30. for line in f: #ÿ�δ�f�ж���һ��
      : V  d8 M) Q* `  w! r6 d
    31.     line=line.rstrip('\n')#ȥ����β�Ļ��з�7 \  s& a: L2 q! G: u
    32.     if line == '</>':+ {8 O) Q! l+ p3 _  [4 Z4 c9 m8 L
    33.         if head == 2:
      . L; G) o" l6 Z
    34.             new_mean[0:] = ["".join(new_mean[0:])]; W) ]1 V3 ?, ]& v! o4 h# X8 h
    35.             d[word].append(new_mean[0])' H& N8 f6 l. w0 P1 y- w
    36.         head = 1;# {, j7 [- z$ _
    37.         new_mean =[]2 v0 Y+ y* a0 X# J' K
    38.     elif head == 1:
      , K, p  K! J/ P' n) W7 _9 I+ f& j2 _
    39.         word = line% W; k* v3 Q# Y3 `6 o% [/ x( h$ M
    40.         head = 2
      9 q+ D' X$ k# ?4 b0 d1 Y
    41.     elif head == 2:
      # r% w2 T8 b8 F4 h) E
    42.         new_mean.append(line). n- p! e8 k) U8 R2 F
    43.         head = 2
      / m; P* P8 x6 X
    44. f.close()" Q( M& b) ]4 D3 x' X3 _7 u( y

    45. / {0 G# D' h/ \' U" h7 `. Y

    46. 1 U* G3 Y: e2 G& `
    47. ff=io.open('about_OX4.txt', 'r',encoding='utf-8')#�ʵ�about��Ϣ��txt�ļ��뱣��Ϊutf-88 ~, s; P/ J, e. D( g
    48. about=[]
      ) Q6 s# A) J+ Q5 B" T; Q# z$ }
    49. for line in ff: #ÿ�δ�f�ж���һ��# P' _# b+ ^4 U
    50.     about.append(line)
      ! j  p! ~+ V2 P9 E- \, B
    51. about[0:] = ["".join(about[0:])]
      - {) g- J& q, k9 O) j( j( s0 ]5 e

    52. 8 [4 H9 D; p$ L1 @( y  |

    53. 9 V' G4 ?9 Q: d
    54. #outfile = open("example_output/��ţ��Beta_V2.2.1.mdx", "wb"); _- V5 |4 U# Z1 J) U
    55. #writer = MDictWriter(d, "��ţ��Beta_V2.2.1", about[0])5 W1 b' p) x5 P
    56. outfile = open("output_ox4/OALD4_Ex.mdx", "wb")
      " z; |8 u) q7 p1 J
    57. writer = MDictWriter(d, "ţ��߽�˫��(���İ�)", about[0])# s& I+ k& w, L
    58. writer.write(outfile)
      ; }' @9 V3 o  K, b/ o: H' F! ~
    59. outfile.close()* D- g1 u* J, D# t+ W

    60. , @1 H* H! }) Y: \: P. u
    复制代码
    3 J1 s8 V7 g* H
    1 K! m+ F' j  n2 g9 w

    + P7 k7 A( f( w* m: d9 V9 I) V是否可以看看你的文档呢 乱码的部分中文写的是什么?
  • TA的每日心情
    开心
    2024-4-3 08:34
  • 签到天数: 313 天

    [LV.8]以坛为家I

    发表于 2021-10-21 15:49:49 | 显示全部楼层
    向大牛學習編程!

    该用户从未签到

    发表于 2021-10-22 14:47:53 | 显示全部楼层
    我也想要整一个
  • TA的每日心情
    开心
    2021-11-27 10:32
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2021-11-8 11:41:55 | 显示全部楼层
    感谢大神分享!
  • TA的每日心情
    郁闷
    2023-12-5 07:37
  • 签到天数: 631 天

    [LV.9]以坛为家II

    发表于 2021-11-8 12:07:00 | 显示全部楼层
    非常好,大赞
  • TA的每日心情
    开心
    2019-5-18 14:33
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2021-12-14 11:17:04 | 显示全部楼层
    thank for your sharing.
  • TA的每日心情
    开心
    2022-9-6 08:28
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2022-1-6 10:27:03 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    开心
    2023-7-26 00:08
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2022-1-28 22:45:46 | 显示全部楼层
    谢谢楼主大大,
  • TA的每日心情
    慵懒
    2022-2-10 12:51
  • 签到天数: 352 天

    [LV.8]以坛为家I

    发表于 2022-2-2 21:06:57 | 显示全部楼层
    正好需要打包大文件。谢谢了
  • TA的每日心情
    开心
    2022-3-22 20:13
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2022-2-3 09:43:15 | 显示全部楼层
    学习学习,谢谢分享
  • TA的每日心情
    开心
    2022-2-10 09:34
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2022-2-10 10:08:59 | 显示全部楼层
    元老玩家  感谢  感谢

    该用户从未签到

    发表于 2022-2-11 22:51:45 | 显示全部楼层
    楼主辛苦了,感谢您的付出!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 10:54 , Processed in 0.085415 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表