Pdf文件内容提取

mzjmc · August 30, 2022, 1:10am

您好！我想咨询一下关于pdf或者word文件提取的文档，当我一个文件有多页，并且每页都有标题,段落,句子,表格以及图片的时候，在循环读取每一页文档的时候有没有API事可以判断当前元素属性的比如isText 返回true代表当前是文字 isTable代表当前返回的是表格，这样我就可以按顺序提取出来整个文档的信息了

tahir.manzoor · August 30, 2022, 4:23am

@mzjmc

是的，您可以使用 Aspose.PDF 从 PDF 文件中提取内容。详细请阅读以下文章。
解析 PDF 文档

关于从 Word 文档中提取内容，我们在 Aspose.Words 论坛中创建了新主题，您将在其中得到适当的指导。

mzjmc · August 30, 2022, 5:49am

如果一个pdf的某一个页面当中有多重元素表格文字段落图片我想按照文档的顺序将它们提取出来该如何操作了

tahir.manzoor · August 30, 2022, 4:02pm

@mzjmc

您能否在此处压缩并附上您的输入 PDF 和预期输出 PDF 以供我们参考？然后，我们将为您提供有关它的更多信息。

mzjmc · August 31, 2022, 1:29am

好的稍等下我整理一下将会发送给你

mzjmc · August 31, 2022, 1:37am

归档.zip (479.1 KB)
您好该文件是我的的原文件和期望文件格式

tahir.manzoor · August 31, 2022, 12:04pm

@mzjmc

您能否分享一些有关您的要求的更多细节？谢谢你的合作。

mzjmc · September 1, 2022, 1:15am

将pdf文件按照文件原有的内容顺序进行内容提取，这pdf文件中会存在标题表格图片以及段落，我希望提取出来的时候是按照标题表格图片段落这样的顺序而不是每次只能单独的提取所有的某一个元素，谢谢你可以看看我发送给你归档中的原文，我希望提取出来之后还能保持原文的排版格式，但是我在API接口中似乎没有发现能满足我需求的接口文档都是按照单一的元素来进行提取的

tahir.manzoor · September 1, 2022, 3:49am

@mzjmc

Aspose.PDF for Java 不提供基于页面标题、表格和图片提取内容的 API。

根据我们的理解，您希望根据页面标题、特定标题下的表格文本和图像从 PDF 文件中提取内容。

如果您能分享用于提取文本的标准或条件，那就太好了。例如。您想提取表格或图片的文本。所需文本从什么位置开始和结束？

您可以阅读以下文章以从特定区域提取文本。希望这对您有所帮助。
从特定页面区域提取文本

mzjmc · September 1, 2022, 10:32am

Aspose.PDF for Java 不支持将pdf转换成xml? 或者在保存XML的时候无法设置字体？

tahir.manzoor · September 1, 2022, 5:57pm

@mzjmc

是的，Aspose.PDF for Java 确实支持 PDF 到 XML 的转换。请阅读以下文章。

通过 Java 将 PDF 转换为 XML
支持的文件格式