使用aspose.pdf获取段落信息,发现获取到的是行信息,不是段落信息

项目组采购了贵公司aspose.pdf组件,解析pdf文件,获取段落信息,发现段落被拆成行
代码如下:image.png (36.3 KB)

pdf文件
上银医疗健康混合型证券投资基金基金合同.pdf (458.5 KB)
拆解pdf第三页的段落文本如下:image.png (74.1 KB)

我们期望段落不被拆解成行,期望文本格式如下:
image.png (46.7 KB)

aspose是否支持这种段落不换行的方式,我们测试发现,word文档才有aspose.word是可以做到的

@xupp

您能否分享您正在使用的 API 版本。 我建议您尝试使用最新的 Aspose.PDF 21.8。 如果可能,还请分享有问题的段落在 PDF 的哪个页面上可用?

使用的版本是21.7,但是采用21.8测试时,拆解出来的效果与21.7版本是一致的,我们期望pdf文档是按照段落拆分成一行,实际上aspose拆分时,一个段落它分布在多行,aspose被拆分成了多行,而aspose.word是可以做到一段就是一行,请教aspose.pdf也具备这种能力。

@xupp

你是对的。 Aspose.PDF for Java API 提取段落的不同行,然后将其附加为一个段落。 由于 Word 文档和 PDF 文件的结构不同,因此这是 PDF 唯一可能的方法。