sszl 发表于 2019-4-23 23:32:55

PDF 文档 ORC 后,英文音标出现乱码,请问如何解决?


软件是 Adobe Acrobat Pro DC 2019,使用了软件自带的文本识别功能,扫描后可以复制文本,
但是把文本拷贝到 WORD 或文本编辑器里,音标会出现乱码,请问如何解决?




Word 发表于 2019-4-24 00:08:00

本帖最后由 Word 于 2019-4-24 00:23 编辑

并不是乱码,只是识别错误,可以尝试不同的识别软件,效果各有不同。
另外,一些特殊符号,需要识别库本身支持,才有可能识别正确

Snowdax 发表于 2019-4-23 23:52:26

调编码格式为 UTF8 试试吧。

klwo2 发表于 2019-4-23 23:56:07

{:4_91:}本来就是识别错了,所以答案是无法解决。忍着

atauzki 发表于 2019-4-24 00:16:42

ocr又不是百分百准确,要不然人家图片词典都是白做

y8888 发表于 2019-4-24 07:25:44

目前OCR只有云方面表现良好,其它的都是错误一堆。如果以句正确率来论,50%正确率算是不错了。

menglongma 发表于 2019-4-24 11:06:24

这个错误是识别过程中形成的,无法改变。但可以尝试所有文件识别结束后,观察分析错误规律,再用编辑软件进行替换修改。
页: [1]
查看完整版本: PDF 文档 ORC 后,英文音标出现乱码,请问如何解决?