掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: lgmcw

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    慵懒
    2021-9-1 08:46
  • 签到天数: 61 天

    [LV.6]常住居民II

    发表于 2021-9-25 11:27:29 | 显示全部楼层
    多谢,我总算找到答案了。明天把词典再重做一下。
  • TA的每日心情
    开心
    2023-4-7 00:20
  • 签到天数: 494 天

    [LV.9]以坛为家II

    发表于 2021-9-25 16:42:46 | 显示全部楼层

    % C5 M, i8 z1 F# k3 z! R好东西 谢谢分享* G# W8 N$ g4 B3 {9 [4 {  h$ H# Q

    该用户从未签到

    发表于 2021-9-27 09:15:39 | 显示全部楼层
    謝謝分享此
  • TA的每日心情

    2022-10-14 17:24
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-9-27 17:48:28 | 显示全部楼层
    感谢大佬分享,学习
  • TA的每日心情
    开心
    2023-12-31 23:26
  • 签到天数: 1286 天

    [LV.10]以坛为家III

    发表于 2021-9-27 21:59:55 | 显示全部楼层
    感谢楼主,多谢!

    该用户从未签到

    发表于 2021-10-3 14:54:37 | 显示全部楼层
    感谢楼主分享。
  • TA的每日心情
    开心
    2018-1-15 14:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2021-10-3 20:32:09 | 显示全部楼层
    看一看,感谢分享!
  • TA的每日心情
    擦汗
    2021-11-17 09:18
  • 签到天数: 79 天

    [LV.6]常住居民II

    发表于 2021-10-6 09:52:48 | 显示全部楼层
    muyuzhth0 发表于 2021-7-23 14:38$ E; l7 g5 {+ S9 W; m0 l/ f& g
    python3.8.9调试成功!
    : V! t: h, t- d# W/ b, z
    7 N/ b8 A8 I* J: O$ Y$ F做了如下修改:

    ) m+ @2 n: a* g# N' l(3) 在哪里加入
    1. current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt
    复制代码
    6 g' p7 d0 J3 m: D/ y/ X- p

    1 d0 R$ R& z1 \1 T* u* ]7 p, g3 V我的版本是 3.9.7  ,目前没有遇到 No such file or directory 报错。 然后是genMDX_ox4.py 文件有部分中文乱码& J& o# t& }9 B" c2 H# P+ K) n( p

    & k5 C# y, d- N8 Q
    1. # -*- coding: utf-8 -*-
      8 C9 q" I' G  |
    2. # encoding=utf8
      ( G2 w5 n( i, p8 B" I

    3. ( e  n" r0 B/ v, I0 c/ x! S
    4. from __future__ import unicode_literals,print_function, absolute_import, division7 s2 c8 n1 _% m9 T; ?

    5. 1 d) e5 w6 ^! F: D8 [2 h( p

    6. ( i% l  l; ~7 P( e+ {8 n
    7. import re
      * d! Y. f; F0 p$ |/ m1 d# c3 S1 X
    8. import copy
      ' S+ Z! c: W. ~6 j+ @
    9. import chardet; \  \8 A% X9 D
    10. ; H2 G' M, }& T4 J
    11. import os
      7 A3 O/ J" a+ [- Z' `; H7 t) a
    12. import io
      + |+ B1 O* V7 k7 O  `% J$ i( z
    13. import sys: h) x; z9 g* J$ |
    14. # reload(sys)2 D, N  I9 u& M( F0 ^* k! b- g: b! o
    15. # sys.setdefaultencoding('utf-8')- `6 l1 h/ h4 M9 g& N

    16. : g) ?0 _% J9 l9 g# K% W# O) ?8 m
    17. import collections! ]8 u( t' h4 E7 I+ x! m8 O( N
    18. from collections import defaultdict
      # b$ c9 H  m" x' U

    19. + T; k  ^& Q  h; L3 G
    20. : X+ h+ M8 G& Z. [3 w
    21. from writemdict import MDictWriter, encrypt_key
      . J, S1 m2 y9 L% S* f
    22. from ripemd128 import ripemd1284 Q2 _$ `- p# j7 F1 u& G/ d

    23. ; }! D. N7 l8 T' K2 t
    24. * q/ g3 t' T8 M) f2 }
    25. head = 00 m2 s1 p9 _  l3 s) j+ B. C  V
    26. new_mean =[]
      / W4 e, H& ?+ U8 x1 B
    27. f=io.open('OALD4_azure.txt', 'r',encoding='utf-8')
      3 p1 `. O; m. i) S( E
    28. #f=io.open('oxford2_original.txt', 'r',encoding='utf-8')# [, Z1 Q  G# t6 M
    29. d = defaultdict(list) #����һ�����ֵ䣬Ҳ��ʹ��{}������6 l8 g- }. ]) O# }2 h, P$ X9 i
    30. for line in f: #ÿ�δ�f�ж���һ��
        d. e0 L8 J3 m/ |
    31.     line=line.rstrip('\n')#ȥ����β�Ļ��з�
      . h9 C- }7 x7 F9 l5 \  M# F
    32.     if line == '</>':
      2 C0 v" Q! X& J+ V* i5 M
    33.         if head == 2:
      3 X& E, ~" S1 O/ W6 s
    34.             new_mean[0:] = ["".join(new_mean[0:])]" B2 o# g3 X6 r
    35.             d[word].append(new_mean[0])
      # n, I+ N' W: a/ r3 }( q
    36.         head = 1;/ v" Z0 H( b' u) z
    37.         new_mean =[]: g1 y8 X2 R3 T" Q4 M( d8 K  P2 Y
    38.     elif head == 1:0 E2 w0 T$ [8 m( V
    39.         word = line% Z/ y4 x) X* ]% F0 {2 z) Z- k% T
    40.         head = 2: P% m  M" J$ F$ R8 v- U6 I: ^) [
    41.     elif head == 2:4 l. a. z  B/ w4 E, f1 S' z
    42.         new_mean.append(line)- c, U  \+ y9 w0 n
    43.         head = 25 K3 q5 R* @% A0 g) X  X4 P
    44. f.close()
      - R3 a: g  u6 e3 n6 B
    45. & Y- v+ W* A  q0 L5 a6 g7 B- b

    46. 7 t- U% }* y4 J- _
    47. ff=io.open('about_OX4.txt', 'r',encoding='utf-8')#�ʵ�about��Ϣ��txt�ļ��뱣��Ϊutf-8
      / `' I4 ^* t/ @4 G0 h
    48. about=[]8 Z- M/ O. o/ z3 M) `
    49. for line in ff: #ÿ�δ�f�ж���һ��& z+ m8 c1 S5 t. }' A
    50.     about.append(line)
      ; B8 C  J, t, g) O# g9 O2 o+ P
    51. about[0:] = ["".join(about[0:])]- N& P4 l; x5 [& p" t
    52. ! k4 m4 _- @' ]- t; \

    53. % I' y$ A; C0 T. |
    54. #outfile = open("example_output/��ţ��Beta_V2.2.1.mdx", "wb")2 @1 x+ I  I. S; m6 S. Q
    55. #writer = MDictWriter(d, "��ţ��Beta_V2.2.1", about[0])
      ! l( Z# ^' g8 R& i
    56. outfile = open("output_ox4/OALD4_Ex.mdx", "wb")* l7 y5 ]: O1 s$ B3 Q" S4 f
    57. writer = MDictWriter(d, "ţ��߽�˫��(���İ�)", about[0])8 U$ y; x* W: ^# _7 I! G- e. m
    58. writer.write(outfile)
        A- H/ [' J" Z5 c$ ?0 z
    59. outfile.close()- ?& H: F* D2 j+ @" A6 q! w& z
    60.   y& e$ g4 _4 V& q
    复制代码
    + ~9 R* c- E% P$ V# E

    + D5 Q6 B' i; F: Q3 _; h; c( i' {3 u. h; Z4 X
    是否可以看看你的文档呢 乱码的部分中文写的是什么?
  • TA的每日心情
    开心
    2025-1-12 09:13
  • 签到天数: 334 天

    [LV.8]以坛为家I

    发表于 2021-10-21 15:49:49 | 显示全部楼层
    向大牛學習編程!

    该用户从未签到

    发表于 2021-10-22 14:47:53 | 显示全部楼层
    我也想要整一个
  • TA的每日心情
    开心
    2021-11-27 10:32
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2021-11-8 11:41:55 | 显示全部楼层
    感谢大神分享!
  • TA的每日心情
    开心
    2025-4-24 00:50
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-11-8 12:07:00 | 显示全部楼层
    非常好,大赞
  • TA的每日心情
    开心
    2019-5-18 14:33
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2021-12-14 11:17:04 | 显示全部楼层
    thank for your sharing.
  • TA的每日心情
    开心
    2024-6-22 15:25
  • 签到天数: 179 天

    [LV.7]常住居民III

    发表于 2022-1-6 10:27:03 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    开心
    2023-7-26 00:08
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2022-1-28 22:45:46 | 显示全部楼层
    谢谢楼主大大,
  • TA的每日心情
    慵懒
    2022-2-10 12:51
  • 签到天数: 352 天

    [LV.8]以坛为家I

    发表于 2022-2-2 21:06:57 | 显示全部楼层
    正好需要打包大文件。谢谢了
  • TA的每日心情
    开心
    2022-3-22 20:13
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2022-2-3 09:43:15 | 显示全部楼层
    学习学习,谢谢分享
  • TA的每日心情
    开心
    2022-2-10 09:34
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2022-2-10 10:08:59 | 显示全部楼层
    元老玩家  感谢  感谢

    该用户从未签到

    发表于 2022-2-11 22:51:45 | 显示全部楼层
    楼主辛苦了,感谢您的付出!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-4 01:32 , Processed in 0.021639 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表