无法读取pdf内容

当我使用24.6版本读取某个pdf文件时,无法提取当中的文字内容;转为word文档时,是以图片的形式插入word文档中的,请问一下这种pdf文档如何处理,才能读取到文本内容

@LXY133

您能否分享您的示例 PDF 和您正在使用的代码片段?我们将在我们的环境中测试该场景并相应地解决它。

这个是测试的原文件(无法读取内容):
test1.pdf (65.4 KB)

这个是编辑过的原文件(可读取):
test.pdf (7.9 KB)
运行的代码:
图片.png (39.2 KB)

如果我们这里有错,请纠正。您尝试使用 Aspose.PDF 读取文本的文件是上面的文件,即 test1.pdf 吗?请注意,该文件中只有图像,没有文本内容。这就是 API 不从中读取任何内容的原因。

是因为该PDF文件为扫描件的原因?因为该文件是从扫描件转换来的

@LXY133

是的,因为 PDF 是扫描图像,API 无法读取其中的文本。这是预期的行为。