掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1238|回复: 19

[求助] 将词典数据转化为数据库

[复制链接]

该用户从未签到

发表于 2020-3-15 18:33:26 | 显示全部楼层 |阅读模式
前几天下载了红宝书app但特别难用,无聊把apk文件解压发现了它的数据库,感觉非常不错,于是有了这个念头,想写一个python脚本把词典转换为数据库。但是实际写的过程发现很多问题,词典mdx解压的数据html感觉有很多不规则,写起来很难,所以想问问有没有人有类似的经验。4 z  k- d$ O- r* f

- z# o3 Y# q5 E& H: l& w. G. o
1 z2 W) Y; y1 ^7 v红宝书内部数据库:
( @4 |3 }# \8 b% }3 C) y% I" o: y' x3 x9 P  Q  w

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 13:05:44 | 显示全部楼层
    处理前后比较! t6 |( \. n0 k0 b0 a  A# \

    " m6 U8 L, S+ }' l- i) F; w- X

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-3-15 18:48:38 | 显示全部楼层
    一般转出的数据库也是双列吧,这么细致太复杂了
  • TA的每日心情
    慵懒
    2021-9-28 14:33
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2020-3-15 18:55:40 | 显示全部楼层
    难,除非一个词典写一个脚本
  • TA的每日心情
    慵懒
    2018-4-1 11:19
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    发表于 2020-3-15 21:54:36 | 显示全部楼层
    wordnet直接有一个现成的数据库,另外可以买语料库的数据
    4 o4 c; u& z# F8 Y8 d我自己利用wordnet数据做了一个数据库(filemaker做的),各个mdx抽取点数据,然后组合在一起。下面是目前最新的主页面。主要不会用bs4抽取mdx数据,理论上还是好弄数据库的; ?3 S6 d9 f( G& ^. k

    / m, x# `9 f. q+ T: d6 y
    1 {3 `* c' t7 M) |

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    慵懒
    2018-4-1 11:19
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    发表于 2020-3-15 22:31:08 | 显示全部楼层
    akiritoa 发表于 2020-3-15 21:546 K. b$ i1 Z& ?
    wordnet直接有一个现成的数据库,另外可以买语料库的数据
    ! K+ H0 f( Y/ L, l# E我自己利用wordnet数据做了一个数据库(filemaker ...

    1 U7 D5 a" F9 fmdx的东西,你应该是需要自己建立数据库,你看看能不能转成json,一般转成json就好建库了
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-3-16 01:10:12 | 显示全部楼层
    我觉得你如果是需要mdx版本的,可以给出数据,说不定论坛就有人帮你给做了。
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 13:01:05 | 显示全部楼层
    传上来、处理简单
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 13:08:56 | 显示全部楼层
    转为结构化、你怎样搞都行
    ; G3 _* Y1 Q+ \: |7 _' [) L, y

    该用户从未签到

     楼主| 发表于 2020-3-16 16:39:15 | 显示全部楼层
    lwx228 发表于 2020-3-16 13:01
    5 Y' }& L' Q0 Z0 u传上来、处理简单

    2 L& Y2 y% |/ l. D& o$ l6 f" I4 K9 Y我现在想做的就是论坛的牛津高阶英汉第9版,大佬会做?

    该用户从未签到

     楼主| 发表于 2020-3-16 16:42:05 | 显示全部楼层
    lwx228 发表于 2020-3-16 13:05
    * W/ q8 D5 l: X+ G( z处理前后比较

    0 x0 l; {) F/ j+ e, d不是这样,我想做的是牛津高阶第9版,我看了下,有很多种不同的结构,比如多词性的单词,一个词性的单词,动词词性的单词会有变形,还有单词中有俗语等模块,模块中也有例句,不同单词的html的tag有时候还会变,我估计可能是他们防爬虫的一些措施
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 16:42:49 | 显示全部楼层
    链接?这样的N多了
    $ d! ?( F, X5 u' O3 a& d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-3-16 16:47:35 | 显示全部楼层
    那一种想念 发表于 2020-3-16 16:42
    , H& C4 N  Q6 ~- `8 u% W: R不是这样,我想做的是牛津高阶第9版,我看了下,有很多种不同的结构,比如多词性的单词,一个词性的单词 ...
    $ \( Y3 ]2 H* c- H
    在数据库增加词性列、这样就会体积增加
  • TA的每日心情
    擦汗
    2020-6-6 16:10
  • 签到天数: 164 天

    [LV.7]常住居民III

    发表于 2020-3-23 17:56:46 | 显示全部楼层
    强烈支持, 做成细分内容的数据库简直太棒了, 功在当代的好事, - e9 |" o+ P* h% v9 }. D5 G' q- k
    anki那个查词插件好像有这个作用,只是对个别词典可以细分,比如朗文. 楼主可以参考下, 有源码的

    该用户从未签到

     楼主| 发表于 2020-3-23 19:18:32 | 显示全部楼层
    haoduodianying 发表于 2020-3-23 17:56
    : t3 l6 M  K. G% J6 p. v" J, j3 G强烈支持, 做成细分内容的数据库简直太棒了, 功在当代的好事, 2 f; k1 u: r6 R; y- Z8 \9 C
    anki那个查词插件好像有这个作用,只是对个别 ...

    3 O, K7 Q5 E) k8 N% f' A难的不是源码,python我也会,难的是词典的内容很多很乱,我做了一部分,基本都可以提取出来,但是还是没办法找到规律
  • TA的每日心情
    慵懒
    2018-4-1 11:19
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    发表于 2020-4-4 10:57:00 | 显示全部楼层
    按比较难的词(play)做的一个json结构示意图8 Y5 K4 D- _1 e# J7 w

    5 ]& R& @; o4 R- C& }

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-4-4 11:14:25 | 显示全部楼层
    akiritoa 发表于 2020-4-4 10:57
    4 O* c( z/ g2 L$ L( h. w+ Y按比较难的词(play)做的一个json结构示意图
    + a6 @4 {) o, g  ^
    漂亮。
    - l+ y; o" p) Q5 W; Q* h( d( _. B' V5 S+ t9 ]1 R
    我只会用excel+公式进行这样的扩展
  • TA的每日心情
    慵懒
    2018-4-1 11:19
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    发表于 2020-4-4 18:03:34 | 显示全部楼层
    lwx228 发表于 2020-4-4 11:14
    - ?$ ]$ B. M- ?1 k; ^4 `$ t% n, w$ D漂亮。: X# x# q$ m! h( T

    5 {# g% F+ ^1 X7 D/ W' o  L- n我只会用excel+公式进行这样的扩展

    * I( u3 X' Q5 t2 t( o" F# ]- r我整理成json后一般用excel的query来做,毕竟不是科班,不太会处理json
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2020-4-5 00:57:05 | 显示全部楼层
    那一种想念 发表于 2020-3-16 16:42
    . S, h  O0 S, f% Y! j+ _不是这样,我想做的是牛津高阶第9版,我看了下,有很多种不同的结构,比如多词性的单词,一个词性的单词 ...
    2 Z- \) L; T+ J/ r4 v( W5 Q' x
    做这些东西最大的难度是因为找不到原作者定下来的标签使用规范,只能通过观察有限的词条的标签来做。最后的结果是难免有没有观察到的词条有你不知道的标签用法,所以做出来难免有BUG。
    ( [# m; I3 P1 C( i5 _2 y一个尽量少出现BUG的方法是如果有的话尽量找到纸版的词典,除了多观察排版更要研究一般正文前面都有凡例之类的词典标记的说明。9 Y5 P" h4 l! D* E
    但即使这样做了仍旧可能有BUG。
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2020-4-5 01:03:55 | 显示全部楼层
    本帖最后由 lbhl 于 2020-4-5 01:05 编辑 5 `8 j) Y  Z- `3 P
    akiritoa 发表于 2020-4-4 18:039 Z# B) w! I: i: {
    我整理成json后一般用excel的query来做,毕竟不是科班,不太会处理json

    " q3 \: Q* J3 [7 t6 Hjson有现成解析器使用,真的太简单了。
    & L: s( H" }& O3 e% c不要被所谓“科班“两个字吓到了。计算机应用(非系统)软件开发是典型的不需要科班就有可能胜任的,只要你有慎密严谨的逻辑思维,都能做。9 C9 b# O. B0 V! f  M
    MDX这些相关的技术属于前端开发技术,说实话是属于前端中技术含量相当低或者说入门水平的技术活儿,因为太单纯就是静态网页的呈现,每个网页还都是一个模子里出来的,动态几乎没有最多加几个极其简单的显示隐藏切换的交互的按钮,任何一个实用价值的网站的前端开发难度都比MDX高几个档次。当然,词典软件的开发另当别论,难度还是非常之大的。
    2 a7 f, v1 H( T
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 16:51 , Processed in 0.061672 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表