Pdf文件内容提取

您好!我想咨询一下关于pdf或者word文件提取的文档,当我一个文件有多页,并且每页都有标题,段落,句子,表格以及图片的时候,在循环读取每一页文档的时候有没有API事可以判断当前元素属性的 比如isText 返回true代表当前是文字 isTable代表当前返回的是表格,这样我就可以按顺序提取出来整个文档的信息了

@mzjmc

是的,您可以使用 Aspose.PDF 从 PDF 文件中提取内容。 详细请阅读以下文章。
解析 PDF 文档

关于从 Word 文档中提取内容,我们在 Aspose.Words 论坛中创建了新主题,您将在其中得到适当的指导。

如果一个pdf的某一个页面当中有多重元素 表格 文字 段落 图片 我想按照文档的顺序将它们提取出来 该如何操作了

@mzjmc

您能否在此处压缩并附上您的输入 PDF 和预期输出 PDF 以供我们参考? 然后,我们将为您提供有关它的更多信息。

好的 稍等下我整理一下将会发送给你

归档.zip (479.1 KB)
您好 该文件是我的的原文件和期望文件格式

@mzjmc

您能否分享一些有关您的要求的更多细节? 谢谢你的合作。

将pdf文件 按照文件原有的内容顺序进行内容提取,这pdf文件中会存在标题 表格 图片 以及段落, 我希望提取出来的时候是按照标题 表格 图片 段落这样的顺序 而不是每次只能单独的提取所有的某一个元素,谢谢 你可以看看我发送给你归档中的原文,我希望提取出来之后还能保持原文的排版格式,但是我在API接口中似乎没有发现能满足我需求的接口文档 都是按照单一的元素来进行提取的

@mzjmc

Aspose.PDF for Java 不提供基于页面标题、表格和图片提取内容的 API。

根据我们的理解,您希望根据页面标题、特定标题下的表格文本和图像从 PDF 文件中提取内容。

如果您能分享用于提取文本的标准或条件,那就太好了。 例如。 您想提取表格或图片的文本。 所需文本从什么位置开始和结束?

您可以阅读以下文章以从特定区域提取文本。 希望这对您有所帮助。
从特定页面区域提取文本

Aspose.PDF for Java 不支持将pdf转换成xml? 或者在保存XML的时候无法设置字体?

@mzjmc

是的,Aspose.PDF for Java 确实支持 PDF 到 XML 的转换。请阅读以下文章。

通过 Java 将 PDF 转换为 XML
支持的文件格式