Extract content from Word document

mzjmc · August 30, 2022, 4:18am

您好！我想咨询一下关于pdf或者word文件提取的文档，当我一个文件有多页，并且每页都有标题,段落,句子,表格以及图片的时候，在循环读取每一页文档的时候有没有API事可以判断当前元素属性的比如isText 返回true代表当前是文字 isTable代表当前返回的是表格，这样我就可以按顺序提取出来整个文档的信息了

This Topic is created by tahir.manzoor using Email to Topic tool.

alexey.noskov · August 30, 2022, 5:51am

@mzjmc MS Word 文档是流文档，此类文档中没有页面的概念。页面布局是由消费者应用程序动态构建的。 Aspose.Words 有自己的布局引擎，允许从 MS Word 文档中提取页面。您可以使用 Document.ExtractPages 方法来实现这一点。
如果我了解您的需求更正，您需要分析文档内容，我认为，在您的情况下，您可以使用 DocumentVisitor 来遍历文档节点。
关于 PDF 文档，您应该在 Aspose.PDF 论坛中提问。