您好!我想咨询一下关于pdf或者word文件提取的文档,当我一个文件有多页,并且每页都有标题,段落,句子,表格以及图片的时候,在循环读取每一页文档的时候有没有API事可以判断当前元素属性的 比如isText 返回true代表当前是文字 isTable代表当前返回的是表格,这样我就可以按顺序提取出来整个文档的信息了
是的,您可以使用 Aspose.PDF 从 PDF 文件中提取内容。 详细请阅读以下文章。
解析 PDF 文档
关于从 Word 文档中提取内容,我们在 Aspose.Words 论坛中创建了新主题,您将在其中得到适当的指导。
如果一个pdf的某一个页面当中有多重元素 表格 文字 段落 图片 我想按照文档的顺序将它们提取出来 该如何操作了
好的 稍等下我整理一下将会发送给你
将pdf文件 按照文件原有的内容顺序进行内容提取,这pdf文件中会存在标题 表格 图片 以及段落, 我希望提取出来的时候是按照标题 表格 图片 段落这样的顺序 而不是每次只能单独的提取所有的某一个元素,谢谢 你可以看看我发送给你归档中的原文,我希望提取出来之后还能保持原文的排版格式,但是我在API接口中似乎没有发现能满足我需求的接口文档 都是按照单一的元素来进行提取的
Aspose.PDF for Java 不提供基于页面标题、表格和图片提取内容的 API。
根据我们的理解,您希望根据页面标题、特定标题下的表格文本和图像从 PDF 文件中提取内容。
如果您能分享用于提取文本的标准或条件,那就太好了。 例如。 您想提取表格或图片的文本。 所需文本从什么位置开始和结束?
您可以阅读以下文章以从特定区域提取文本。 希望这对您有所帮助。
从特定页面区域提取文本
Aspose.PDF for Java 不支持将pdf转换成xml? 或者在保存XML的时候无法设置字体?