|
发表于 2016-8-8 00:00:21
|
显示全部楼层
你好, 谢谢关注.
8 J* t3 e+ K4 Y/ a( {! r你是指帖子图一的顶部的词头/性列表吗?
' T+ G; X: Y8 V(如果是的话)是参照大神的构思做的. 在下写的是极其丑陋, 很多逻辑错误和不规范, 就不公开误人了! 词典公开是基于源文件公开. 在下没有改动原文本. 所以没敢误人.
( H2 K% O, P E但可以说说大概的流程(在下较为呆呆, 就用呆呆法了, 没有逻辑可言).5 d7 n. b0 b4 o/ f( S' }9 V# P
# 使用Python解压原mdx/mdd, 读取txt, 输出词条列表. 和拆解以每一词条为一个内容的文本文件(小文件方便阅读), 而词条列表里, 配以唯一序号和对应词条文件名.
: j3 q' `4 V' {. V" m2 r! D# 将词条列表排序. 确保相同词条排放在一起. 这样就可以放心合并词条了.
& e% r' ^* I1 v' D/ T# 读取词条列表, 再读取相应的词条文本内容里词性资料(使用Beautiful Soup, 用lxml解释器), 删除不需要的, 生成词性列表, 再合并文本内容(如有其他的功能也可一并作处理).
P3 `" g" q( y4 t" {9 U# x; j9 N M# 然后再逐一合并成mdx格式的txt. 再用MdxBuilder打包即可.5 W" C6 Y, @+ c2 r
6 O, A& ~/ I$ U6 e G2 I
论坛里有很多大神都公开了他们的代码. 如bt4baidu, 但凡抓网站的都有原码和原数据. TA的代码很逻辑, 在下能力有限是读不通. 也提供逻辑哲学(帖子大多顶置), 还提供图片处理代码呢. 犀利啊.
7 j# n4 W4 P6 J9 e( B2 T其中imfirefly大神的代码里有很多注解.
6 t5 A, _7 D7 C0 U[2016.07.21]CC-CEDICT(MDX+MDD: 4.78M)# Q/ s r( @- Y) C* Q' U$ |
https://www.pdawiki.com/forum/fo ... &fromuid=201568
* X1 C' u7 N5 B3 M; D) K$ G(出处: 掌上百科)3 j: W' ~2 P4 N5 X z6 s
在此向他们表示严重的致敬! 同时希望对你有用.0 P2 U, I# M3 L' L( s+ |3 T/ S
谢谢. |
|