掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: lgmcw

[工具] ⚜【支持超大文件】Python MDX词典打包工具 2019-11-19更新

  [复制链接]
  • TA的每日心情
    慵懒
    2021-9-1 08:46
  • 签到天数: 61 天

    [LV.6]常住居民II

    发表于 2021-9-25 11:27:29 | 显示全部楼层
    多谢,我总算找到答案了。明天把词典再重做一下。
  • TA的每日心情
    开心
    2023-4-7 00:20
  • 签到天数: 494 天

    [LV.9]以坛为家II

    发表于 2021-9-25 16:42:46 | 显示全部楼层

    8 ^8 I0 _' p) p; d好东西 谢谢分享5 K0 O2 ]% T" }! n' B2 F7 F: B

    该用户从未签到

    发表于 2021-9-27 09:15:39 | 显示全部楼层
    謝謝分享此
  • TA的每日心情

    2022-10-14 17:24
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-9-27 17:48:28 | 显示全部楼层
    感谢大佬分享,学习
  • TA的每日心情
    开心
    2023-12-31 23:26
  • 签到天数: 1286 天

    [LV.10]以坛为家III

    发表于 2021-9-27 21:59:55 | 显示全部楼层
    感谢楼主,多谢!

    该用户从未签到

    发表于 2021-10-3 14:54:37 | 显示全部楼层
    感谢楼主分享。
  • TA的每日心情
    开心
    2018-1-15 14:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2021-10-3 20:32:09 | 显示全部楼层
    看一看,感谢分享!
  • TA的每日心情
    擦汗
    2021-11-17 09:18
  • 签到天数: 79 天

    [LV.6]常住居民II

    发表于 2021-10-6 09:52:48 | 显示全部楼层
    muyuzhth0 发表于 2021-7-23 14:38
    . F2 P3 x& v4 t: Mpython3.8.9调试成功!
    : m! F" Y0 n7 t+ T) e4 T* k& _! Z) ?5 q0 W8 ?8 R0 s
    做了如下修改:
    / b7 i7 a  p$ ?0 A
    (3) 在哪里加入
    1. current_path = os.path.dirname(__file__);current_path+"/OALD4_azure.txt
    复制代码
    & _. ?% i. H2 R8 v2 [# O: G1 C' J
    5 @1 n5 F, z( `1 m
    我的版本是 3.9.7  ,目前没有遇到 No such file or directory 报错。 然后是genMDX_ox4.py 文件有部分中文乱码
    ' }6 h1 h6 p( j& G( y" j+ g
    4 N; a, D  c& |/ U' E9 e
    1. # -*- coding: utf-8 -*-
      : V) p. W" C9 m; c) {# h
    2. # encoding=utf8
      , E# o- A0 y" _( X% x2 a

    3. $ O3 g6 q/ t/ E# o1 V
    4. from __future__ import unicode_literals,print_function, absolute_import, division* ?6 C+ s' `& A( s% s
    5. % {4 }" z' y+ I5 q

    6. $ h6 C. Z& [6 L
    7. import re3 Z/ R) }- t& ?5 I
    8. import copy
      " o6 ~* D! M) G+ F9 c) X- a; S3 z2 x9 \
    9. import chardet
      ' n4 o9 }% G1 G# N  u
    10. 3 f: V, H+ W) s7 l8 E; K* ?
    11. import os
      1 N( q: N9 P7 x
    12. import io1 \( }! Z; ]) f2 y; D1 f3 f( n: K* n
    13. import sys+ d0 N: l0 K5 z0 A1 O/ r
    14. # reload(sys)6 P8 E) w  x1 {8 `5 {' i1 V) H
    15. # sys.setdefaultencoding('utf-8')
      , l- T$ j( q' W6 P8 G' c+ x3 G+ R# c

    16. ) g8 E/ z* Y8 A3 [) l8 M! r1 |
    17. import collections+ b4 j0 H5 o- w- v$ B
    18. from collections import defaultdict
      & a) h  z( s; w! c! l) o

    19. 2 x9 ^5 F. d& x* F
    20. $ |, u# e# F& S8 B6 D
    21. from writemdict import MDictWriter, encrypt_key; i) O3 s  \- Y+ [
    22. from ripemd128 import ripemd128  `( X8 Q3 s6 w8 h' c; G; _9 {1 p

    23. 7 {# B$ N; r0 _' Y; f* s8 V7 J7 _
    24. 7 C7 O* ~) w3 o/ e! z! E' q% s
    25. head = 0# R$ x6 E9 p, k+ X3 e
    26. new_mean =[]) @( U9 u* u% B: }0 I
    27. f=io.open('OALD4_azure.txt', 'r',encoding='utf-8')
      * j! e) h6 U2 g/ `& c
    28. #f=io.open('oxford2_original.txt', 'r',encoding='utf-8')
      . t% I- r$ ^) Z6 x. U/ \/ o7 T
    29. d = defaultdict(list) #����һ�����ֵ䣬Ҳ��ʹ��{}������
      " }+ H* T* g' P" ?, e2 S4 T
    30. for line in f: #ÿ�δ�f�ж���һ��
      9 J8 u* l) h1 w- ]5 c) @" |
    31.     line=line.rstrip('\n')#ȥ����β�Ļ��з�0 m% ]/ U! V; Z
    32.     if line == '</>':
      / T# l4 P  Q; O; q) H2 ?; K
    33.         if head == 2:
      : s. v2 U% h& g! x. R3 W; O
    34.             new_mean[0:] = ["".join(new_mean[0:])]1 d+ O: x1 P; D. T: }
    35.             d[word].append(new_mean[0])
      9 o7 x* h3 q. z* u7 B+ v2 F
    36.         head = 1;
      : c: c+ o. G& r3 w
    37.         new_mean =[]4 y4 m, F( C8 ^- F4 c
    38.     elif head == 1:
      4 v( n0 X+ o" s& V8 j! u3 U
    39.         word = line
      $ X+ m+ r5 T( b7 s
    40.         head = 2' F! L$ v  K9 N5 _4 j
    41.     elif head == 2:* V5 c( W" O  V6 i2 j' ]
    42.         new_mean.append(line)3 X! b5 [0 d7 \# A% J
    43.         head = 2
      % P$ l' b/ t. ?" V! a8 X
    44. f.close()
      ' L4 g7 n+ L$ u" T/ V6 n3 b
    45. ) l: m" Z) a* q

    46. : T7 l" q1 t% ~, T
    47. ff=io.open('about_OX4.txt', 'r',encoding='utf-8')#�ʵ�about��Ϣ��txt�ļ��뱣��Ϊutf-8! Q0 z- r  D& ]. Z$ m" O+ R/ Y
    48. about=[]
      ; q8 R' d; f  ^( s2 w! }5 r
    49. for line in ff: #ÿ�δ�f�ж���һ��
      , x7 j* k" \# G# }1 s
    50.     about.append(line)( a1 S9 h  D  |6 f( g
    51. about[0:] = ["".join(about[0:])]
      ! O. e( s0 I( f: M% Z- t
    52. . m1 ?6 W: w6 ?4 L# @9 I
    53. ' t( p3 H+ M7 {
    54. #outfile = open("example_output/��ţ��Beta_V2.2.1.mdx", "wb")
      ; J  X, t- U5 A& B
    55. #writer = MDictWriter(d, "��ţ��Beta_V2.2.1", about[0])
      5 D/ Y8 }6 j- D, U- y2 r* j. L# S
    56. outfile = open("output_ox4/OALD4_Ex.mdx", "wb")( o5 m: K" E0 Y+ p8 R% k  g& J
    57. writer = MDictWriter(d, "ţ��߽�˫��(���İ�)", about[0])
      $ y8 d* n" b  y5 c0 \
    58. writer.write(outfile)
      - k7 c. I0 S! R! C
    59. outfile.close()0 t3 z+ Q& d' \

    60. / I7 |2 A4 m8 `
    复制代码
    6 }- g  Q+ D/ V  a- [- u) Z, X
    1 n/ _  z1 Q7 R5 }! C6 B0 M/ g9 |

    7 T/ b# u& F4 f是否可以看看你的文档呢 乱码的部分中文写的是什么?
  • TA的每日心情
    开心
    2025-1-12 09:13
  • 签到天数: 334 天

    [LV.8]以坛为家I

    发表于 2021-10-21 15:49:49 | 显示全部楼层
    向大牛學習編程!

    该用户从未签到

    发表于 2021-10-22 14:47:53 | 显示全部楼层
    我也想要整一个
  • TA的每日心情
    开心
    2021-11-27 10:32
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2021-11-8 11:41:55 | 显示全部楼层
    感谢大神分享!
  • TA的每日心情
    开心
    2025-4-24 00:50
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2021-11-8 12:07:00 | 显示全部楼层
    非常好,大赞
  • TA的每日心情
    开心
    2019-5-18 14:33
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2021-12-14 11:17:04 | 显示全部楼层
    thank for your sharing.
  • TA的每日心情
    开心
    2024-6-22 15:25
  • 签到天数: 179 天

    [LV.7]常住居民III

    发表于 2022-1-6 10:27:03 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    开心
    2023-7-26 00:08
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2022-1-28 22:45:46 | 显示全部楼层
    谢谢楼主大大,
  • TA的每日心情
    慵懒
    2022-2-10 12:51
  • 签到天数: 352 天

    [LV.8]以坛为家I

    发表于 2022-2-2 21:06:57 | 显示全部楼层
    正好需要打包大文件。谢谢了
  • TA的每日心情
    开心
    2022-3-22 20:13
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2022-2-3 09:43:15 | 显示全部楼层
    学习学习,谢谢分享
  • TA的每日心情
    开心
    2022-2-10 09:34
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2022-2-10 10:08:59 | 显示全部楼层
    元老玩家  感谢  感谢

    该用户从未签到

    发表于 2022-2-11 22:51:45 | 显示全部楼层
    楼主辛苦了,感谢您的付出!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-6 04:05 , Processed in 0.021738 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表