使用aspose.pdf获取段落信息，发现获取到的是行信息，不是段落信息

xupp · August 26, 2021, 2:09am

项目组采购了贵公司aspose.pdf组件，解析pdf文件，获取段落信息，发现段落被拆成行
代码如下：image.png (36.3 KB)

pdf文件
上银医疗健康混合型证券投资基金基金合同.pdf (458.5 KB)
拆解pdf第三页的段落文本如下：image.png (74.1 KB)

我们期望段落不被拆解成行，期望文本格式如下：
image.png (46.7 KB)

aspose是否支持这种段落不换行的方式，我们测试发现，word文档才有aspose.word是可以做到的

mudassir.fayyaz · August 26, 2021, 12:26pm

您能否分享您正在使用的 API 版本。我建议您尝试使用最新的 Aspose.PDF 21.8。如果可能，还请分享有问题的段落在 PDF 的哪个页面上可用？

xupp · August 27, 2021, 1:25am

使用的版本是21.7，但是采用21.8测试时，拆解出来的效果与21.7版本是一致的，我们期望pdf文档是按照段落拆分成一行，实际上aspose拆分时，一个段落它分布在多行，aspose被拆分成了多行，而aspose.word是可以做到一段就是一行，请教aspose.pdf也具备这种能力。

mudassir.fayyaz · August 27, 2021, 5:05pm

你是对的。 Aspose.PDF for Java API 提取段落的不同行，然后将其附加为一个段落。由于 Word 文档和 PDF 文件的结构不同，因此这是 PDF 唯一可能的方法。