您好!我想咨询一下关于pdf或者word文件提取的文档,当我一个文件有多页,并且每页都有标题,段落,句子,表格以及图片的时候,在循环读取每一页文档的时候有没有API事可以判断当前元素属性的 比如isText 返回true代表当前是文字 isTable代表当前返回的是表格,这样我就可以按顺序提取出来整个文档的信息了
This Topic is created by tahir.manzoor using Email to Topic tool.
您好!我想咨询一下关于pdf或者word文件提取的文档,当我一个文件有多页,并且每页都有标题,段落,句子,表格以及图片的时候,在循环读取每一页文档的时候有没有API事可以判断当前元素属性的 比如isText 返回true代表当前是文字 isTable代表当前返回的是表格,这样我就可以按顺序提取出来整个文档的信息了
This Topic is created by tahir.manzoor using Email to Topic tool.
@mzjmc MS Word 文档是流文档,此类文档中没有页面的概念。 页面布局是由消费者应用程序动态构建的。 Aspose.Words 有自己的布局引擎,允许从 MS Word 文档中提取页面。 您可以使用 Document.ExtractPages 方法来实现这一点。
如果我了解您的需求更正,您需要分析文档内容,我认为,在您的情况下,您可以使用 DocumentVisitor 来遍历文档节点。
关于 PDF 文档,您应该在 Aspose.PDF 论坛中提问。