Free Support Forum - aspose.com

Aspose PDF java按照段落读取PDF内容相关问题

您好,使用了Aspose软件一段时间了,对于word文件按照段落读取都没问题。但是对于使用Aspose.PDF读取PDF段落,查了相关文档使用下边的代码依然无法获得类似于word中那样正常的段落内容。请问关于这块在Aspose.PDF java有其他的方法吗?

public List<String> readPdf(InputStream in) throws Exception {
    List<String> texts = Lists.newArrayList();
    com.aspose.pdf.Document pdfDoc = new com.aspose.pdf.Document(in);
    ParagraphAbsorber absorber = new ParagraphAbsorber();
    absorber.visit(pdfDoc);

    for (PageMarkup markup : absorber.getPageMarkups()) {
        for (MarkupSection section : markup.getSections()) {
            for (MarkupParagraph paragraph : section.getParagraphs()) {
                String paragraphText = paragraph.getText();
                texts.add(paragraphText);
            }
        }
    }
    return texts;
}

测试文件.zip (77.7 KB)

@IhsanYang

您是否可以通过运行此代码段来共享正在获取的控制台输出的屏幕截图。我们将进一步为您提供帮助。

@asad.ali 很抱歉这么晚回复您,请查看下边的截图,原始文档中的一个自然段落,经过这段代码读取内容,结果还是被分成了3个字符串句子。

aspose pdf读取pdf段落测试.jpg (80.3 KB)
原始文档中的一个自然段落.png (104.9 KB)

@IhsanYang

感谢您分享要求的信息。

为了更正,我们在问题跟踪系统中记录了一个问题PDFJAVA-39079。我们将进一步调查它的详细信息,并向您发布其更正状态。请耐心等待,并节省我们一点时间。

我们对造成的不便很抱歉。