邱海波 发表于 2015-9-19 07:30:22

请教各位mdict制作问题

本帖最后由 邱海波 于 2015-9-19 07:33 编辑

如题,我现有较新中文维基百科全简体超纯文本版的数据(资源来自网络,http://licstar.net/archives/262):链接: http://pan.baidu.com/s/1o6ms8Q2 密码: mew7

上述.bz2解压后得到一个wiki_cn文件,可加上扩展名.txt。

问题来了:

文本中词条格式如下:(双击图片,查看实际大小)

https://www.pdawiki.com/forum/data/attachment/album/201509/19/072958i7220da077o7x178.png

现请教各位,该如何制作成mdict数据。

谢谢!

(题外话:话说被逼着上传了头像和加满5个好友,终于能再发帖了!活着真好!)

zhu1234 发表于 2015-9-19 11:57:51

下来看了,词头和内容木有规律,手工完成几乎不可能。建议下载的时候保留原标签,才便于制作。

邱海波 发表于 2015-9-19 16:41:45

zhu1234 发表于 2015-9-19 11:57
下来看了,词头和内容木有规律,手工完成几乎不可能。建议下载的时候保留原标签,才便于制作。

感谢回复,之前我还在想能否写个正则表达式把那些空白替换掉,终于没成功。看来要推倒重来。

zhlpen 发表于 2015-9-22 14:34:07

本帖最后由 zhlpen 于 2015-9-22 14:37 编辑

空白行可以用emeditor的 工具/插件/删除空行删除掉,不用编写正则表达式,可能因为你的文件太大,全选文本后替换空行在我的电脑中没有成功,如果你的电脑运行比较快应该没有问题。
另外你的文本中的规律,标题后面没有标点符号,而段落后面有标点符号,利用这个规律,能否在后面加上分词的标志</>,多余的或漏下的标志在进行手工操作则可以减轻工作量。
还有你的文本好像不全,有的词头下面没有内容

邱海波 发表于 2015-9-23 07:23:31

zhlpen 发表于 2015-9-22 14:34
空白行可以用emeditor的 工具/插件/删除空行删除掉,不用编写正则表达式,可能因为你的文件太大,全选文本 ...

谢谢你的宝贵建议。
页: [1]
查看完整版本: 请教各位mdict制作问题