掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 774|回复: 6

[求助] 图片版的词头是如何得到的?

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2020-1-20 20:50:36 | 显示全部楼层 |阅读模式
    本帖最后由 lbhl 于 2020-1-20 20:58 编辑
    & _0 V# {# I, E4 s: k) `
    1 \0 w+ f1 {2 R6 |, @5 E最近改版了几个图片版词库,但仅限于图片的清晰化处理和MDX的小修改,最关键的词头并未也无需改变。" C' Q, `+ Y& C$ `- c: W- o8 {

    . E, _2 f! B8 m/ H  X8 W2 V一直很好奇,这些图片版的MDX词头是如何得到的?
    % W& d' G3 t6 r( k  [) H& i1 M( [8 g( [: j
    无需探讨技术细节也很容易想到如下问题:" w, U+ q+ h9 G# C4 a

    + l( P9 m' ^* y1 t$ S  _如果是OCR必然有很多错误而需要人工检查,但仅仅是将一部词典每页上的词头OCR结果都人工检查一遍,那也是个不得了的工作量了。难道是只需得到和检查每一页第一个和最后一个词头而不管中间的词头?比如正在做的图片版词库来自词典A,那么找一个收词量巨大肯定包含A所有词头的词典B,且词典B的MDX已经有现成的。然后将B的词头当成A的来用(精确地说,B中收录的任何词X,只要字母顺序位于A中某页第一个词和最后一个词之间,那么不管X是否真的在A中该页收录,一律看成A是收录了且作为一个词头出现在A的MDX中。这样做的话,如果在词典软件中输入A中的词汇肯定没问题,但输入的如果是A没有仅B有的词汇,也将呈现出一个扫描的页面结果,而此页面根本就没有这个词汇。
      ?4 c* z! Z& B, R我相信这个最基本的问题早已在本坛有答案了,但本坛信息纷繁芜杂看得眼花缭乱,实在无精力一一搜索,还望过来人如K大和乔治兄这些图片版词库制作的大师,能在这亲自费点笔墨指点,或者给个链接网页上面有解答的。这样也提高学习效率少走弯路,而把有限的时间花在制作上。
    1 V& b6 H5 z. I8 d6 M, m
    ' Y: ]0 A& `1 m+ m这一切,都为了制作出更多原创图片版词典MDX。我这尽管没有文字版词典,但扫描版词典实在太多了,估计任何一个人都没有我收藏多,这个优势不利用起来也对不起本坛如饥似渴的网友啊。
    / r4 n4 r0 k" N. q9 N5 ?3 Y+ d6 p5 j. [! X! f( |5 d
      q/ J  p( r2 x0 r
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-1-20 21:01:14 | 显示全部楼层
    [2020.01.20]遠東英漢大辭典 全索引 詞頭
    * ]; |, J( D! phttps://www.pdawiki.com/forum/thread-35976-1-1.html?x=183822
    4 w" ^8 ~7 ~  w& H, {, t( X
      Q. X% e; o8 w1 a+ _& E要不要跟着做做看。

    该用户从未签到

    发表于 2020-1-20 21:01:35 | 显示全部楼层
    英语的,用词表匹配
    , I" Y0 o- Z' U# {# `, [/ @4 L, W; m; S; p
    汉语的,就是一个字一个字看
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

     楼主| 发表于 2020-1-20 21:05:34 | 显示全部楼层
    klwo2 发表于 2020-1-20 21:01) }" m9 W: X" F
    英语的,用词表匹配
    . D; c, y# Q/ P5 I( P3 T- g
    2 C" R3 G" p& [, |1 U" \& n汉语的,就是一个字一个字看
    ! d$ _5 a  T4 B' L) {
    K大过于言简意赅,恕本人愚笨无法理解啊。
  • TA的每日心情

    2020-2-23 10:00
  • 签到天数: 100 天

    [LV.6]常住居民II

    发表于 2020-1-20 21:08:26 | 显示全部楼层
    oversky 发表于 2020-1-20 21:016 A% Z3 ?' h. g: i
    [2020.01.20]遠東英漢大辭典 全索引 詞頭
    4 t9 p7 |' _$ r& f1 M: xhttps://www.pdawiki.com/forum/thread-35976-1-1.html?x=1838225 o% U, L& z5 L' M+ Q
    ...

    ) p- ?8 V0 o$ w3 v肯定要啊
  • TA的每日心情
    开心
    2021-5-17 10:39
  • 签到天数: 486 天

    [LV.9]以坛为家II

    发表于 2020-1-20 22:11:58 | 显示全部楼层
    我做过两三本,笨方法是:
    # c& D+ x! C4 f- [, s, c4 F1.英语应该还好,找相近词头数的词典导出词头,用EXCEL表格手动匹配页码。
    + `, E" V2 b$ P: a2.中文就纯手工录入。/ w4 }, z* K" k; }  g% i! S
    体会:没有特殊需要,以后不做了,太耗时间。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-1-23 14:35:38 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-1-23 15:28 编辑
    ; N2 `1 L6 E% S. L0 V
    " J7 s/ V5 I8 }* E- U5 S0 n( u- Flbhl 兄:
    8 K2 o5 G+ A2 v5 u+ V' Q; P4 ?詞頭可找份字表去粗匹配
    : @% U$ _" h  K  F方法如小弟這帖土法煉鋼! H* m- n# Q8 y3 M! i
    https://www.pdawiki.com/forum/thread-33566-1-1.html
    $ r! Y" ^8 p* ~9 C( l% D! U  U( t這帖已添加狗皮膏藥 +......
    ( C; M- n% Z* `若是貼了沒好, 吃了沒硬: [( ?9 V1 g) A$ `" K, F9 z0 b
    那就.....藥石惘然.....% W5 V. t5 T2 J

    / h" b$ N9 x5 C& m4 c
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-3 20:01 , Processed in 0.074117 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表