PDF转换为Word后内容在图文框中,取元素为图片,且程序无法从框中获取文字信息

问题:

  1. 使用 AsPose 将 PDF 转换为 Word 后,Word 中文本内容被文本框包裹(使用 flow 转换则会损失部分布局),
  2. 获取元素时获取到的是图片,且无法从框中获取文字。(从 Paragraph 中可以获取文字,但 Paragraph 为按行获取,这样会损失原本框的具体边界等信息)

@crzhu

请您提供更多信息,例如您使用的代码示例以及您希望如何处理文本框中的文本内容?

转换效果问题
例如,这是一个pdf 转换 后的 docx文件:

其文本框是按照非自然阅读顺序分割的段落,这个图片大概展示了每个文本框的实际内容:

我想实现的功能:
能够获取这个文本段落的所有信息,对其完整段落文本内容进行翻译,然后按照原来的样式格式,重新填充回docx。

遇到的过程问题

  1. 但是这里的文本框中无法获取信息,只能通过paragraph获取文本。
  2. 且paragraph为按文本框中的行获取的文本,这样翻译则语义混乱。
  3. 且将翻译内容填充回段落后,因混乱的文本框,会出现内容重叠。

我希望获取的支持

  1. 如何将pdf转换为word后,可以完美保留原格式与段落信息并去除这些混乱的文本框
  2. 或者如何从这些混乱的文本框中获取文本内容,而不是直接从paragraph获取

@crzhu 您使用的是 Aspose.Pdf 库吗? 另外,能否提供出现问题的文档?

是Aspose.PDF库,文档如下:
aspose.docx (2.7 MB)