starmars 发表于 2021-2-4 21:53:56

什么工具和方法提取扫描页面中词头速度是最快的?

扫描页面OCR之后,词头如何与释义例句等最快速分开呢?有的词头还带小点分割音节的。(不做复杂的切片词典,只求分离出每页的词头)。坛子里信息太多看得眼花没时间一个个试了,有过来人传授经验最好了。
谢谢了!

abtxu 发表于 2021-2-5 08:07:43

abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码),使得模板能够准确套用。识别之后选择标准格式导出,就基本实现文字和页码有良好的分隔。然后用正则替换文字页码之间的内容为tab

starmars 发表于 2021-2-6 13:32:18

abtxu 发表于 2021-2-5 08:07
abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码), ...

“就基本实现文字和页码有良好的分隔” —— 朋友,OCR之后词头和其释义例句都成了文字了,我的问题是怎么将每页上的每个词头(每页上有很多词头,我不是指仅在页眉的那一两个标注本页头尾的词头)与其释义例句等分隔开从而提取出来,最终的目的就是得到页码和该页所有词头单词的对应关系。

badnumber 发表于 2021-2-9 04:27:25

本帖最后由 badnumber 于 2021-2-9 04:28 编辑

这个要写程序去解析,因为不同的词典的“凡例”不一样,所以应该没有通用的工具。而且ocr百分之百是会有错的,所以除非先校对,否则解析肯定也会有错。

starmars 发表于 2021-2-9 18:51:04

我在编写程序帮助纠正OCR的错误。一个OCR出来的单词在WORD或者EXCEL中不被软件用红线标识出可能有拼写错误,那也不见得OCR就没错。如果本应按字母表排序的单词突然发现某个单词排序错了那肯定是有拼写错了

starmars 发表于 2021-2-14 11:44:37

abtxu 发表于 2021-2-5 08:07
abbyy,先在文本模式下选择文字+页码,然后保存为区域模板。前提是图片处理为一页只有一栏(文字+页码), ...

我问的是,什么方法比较快可以挑出来选择正文解释部分删除掉,而只保留词头?做图片词典,咱要的只是某页对应哪些词头而已哦。
页: [1]
查看完整版本: 什么工具和方法提取扫描页面中词头速度是最快的?