Free Support Forum - aspose.com

Aspose.ocr 能识别中文吗?


#1

如果不能,或者有办法能识别发票这样的特殊格式吗?[例如只读取到里面的数字编码]


#2

@TianzeHanYu

感谢您与支持人员联系。

我们担心Aspose.OCR目前不支持中文。 我们的问题管理系统已记录ID为OCR-517的功能请求票证。 但是,请您分享一个示例文件,以便我们调查是否可以提取其内容。


#3

test2.pdf (63.6 KB)
test.pdf (37.6 KB)
实际上我们有这样两种形式的发票,如果无法识别中文的话,我希望能提取上面的数字信息。第一种发票是通过扫描原件获得的,我尝试将他转为excle(无法打开)或html保存,但得到的结果都是一张图片,所以想尝试借助ocr组件能否提取出来信息。第二种发票是电子版,我们能将其转为excel,根据一定的规律仍然可以获取我们需要的信息,虽然布局凌乱但是仍有规律,但希望两种类型能取得实现上的统一。

PS:但我以com.aspose.pdf.SaveFormat.Excel存储为xls或xlsx时,打开目标文件时都会提示我文件格式和扩展名不匹配,所以com.aspose.pdf.SaveFormat.Excel指向的是excel何种格式?


#4

@TianzeHanYu

感谢您进一步详细说明。

我们担心无法从共享的PDF文档中提取数字。 我们在我们的问题管理系统中记录了ID为OCR-582的调查单。

此外,请尝试按照将PDF转换为XLSX格式中的说明保存文件。