掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 787|回复: 6

[求助] 如何正确地OCR识别出音标避免乱码?

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2020-9-28 16:57:24 | 显示全部楼层 |阅读模式
    用ACROBAT自带的OCR处理词典页面,发现音标识别出来绝大部分都有乱码。不知道如何解决?

    该用户从未签到

    发表于 2020-9-28 19:13:06 | 显示全部楼层
    本帖最后由 klwo2 于 2020-9-28 19:24 编辑
    / C8 V3 l/ t2 s' O+ E5 @* \2 {
    leescott 发表于 2020-9-28 17:41
    7 A  a6 E; j- z+ H/ a: jFineReader和 TESSERACT可能比较好。
    # e" l( M9 L5 R- M+ H6 Q: b/ L下面最后有篇文章,用FineReader 。9 ~4 t; g: b! F% ]1 y+ U
    https://www.researchgate.net/po ...

    & r7 Y5 Y! H8 P' I2 b+ ]理论上,FineReader可以自制语言,把IPA包进来就行了。可是实际效果不行:
    , m2 R! a3 L; A# ?) q
    : @7 D  @+ G2 h' e. _7 o- J8 Y  H1 t4 J' H& P

    ; G) ?. m# P: K试了多个配置,/ʃəs/ 就是不能识别,/ʃəs/ 有多常见大家都知道
    / B- r% W8 e6 f/ V6 Z( ^! G* Q- e5 D0 l' C3 ^
    更何况楼主想要的,估计是中文也准、英文也准,最好音标还不出错,有这么美的事儿,英汉词典早就大跃进变文字版了
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-9-28 17:10:11 | 显示全部楼层
    starmars 兄,你這不是多問的嗎?,英文字母都不一定正確了,更何況是音標呢!

    该用户从未签到

    发表于 2020-9-28 17:20:56 | 显示全部楼层
    解决不了
    8 R0 t! m4 S0 a: F7 z! i( H3 j/ p% d# J( A# B9 @) h" O
    英语词典里的【国际音标】,其实只是国际音标的子集。下面这些,也是国际音标:
    7 a9 k; ^6 e; o5 [, ?& \
    ) e8 W9 O; h4 U% T8 t; w* W9 u( H$ e# J- r; N1 Z
    - [' @$ O  |; S8 H1 q
    又有帽子又有尾巴) ^; h" p' y3 o4 g

    & O. O) a# `* I汉语拼音那么简单的,都没见到OCR全对的呢
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    发表于 2020-9-28 17:41:31 | 显示全部楼层
    本帖最后由 leescott 于 2020-9-28 18:00 编辑
    3 C* h2 F  S; I1 c" k- B, M( |: y% i- I& W9 I$ N7 k5 `
    FineReader和 TESSERACT可能比较好。8 U8 j8 H+ }3 I4 C1 ^( t+ c6 P
    下面最后有篇文章,用FineReader 。
    : r/ i; X% J8 R" q7 ]- J. Whttps://www.researchgate.net/pos ... honetic_IPA_symbols
    5 I  i" g# K$ i1 m文章提到自制语言。我想如果有必要需要自制字体。该字体包括所有符号。/ j! U6 R. J- f  J& W  [

    . V4 ?( i5 e/ \参考https://www.pdawiki.com/forum/fo ... id=41387&extra=
      y- ^( N6 U7 Q6 @- K& n9 F, [
  • TA的每日心情

    2022-3-2 15:17
  • 签到天数: 248 天

    [LV.8]以坛为家I

    发表于 2020-9-28 18:03:46 | 显示全部楼层
    OCR的正确率很难提高的,要想尽可能好,需要专门针对音标做一些训练,技术难度不小
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    发表于 2020-9-29 15:46:02 | 显示全部楼层
    如果能用成 reCAPTCHA 的形式,
    9 a  T$ m: c; m) U" W' x/ f' ^" k登入、下载就识别训练一下,
    % d0 s+ z+ a/ x; H5 G9 d这样参与的人就多了。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 16:46 , Processed in 0.054588 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表