@crzhu
请您提供更多信息,例如您使用的代码示例以及您希望如何处理文本框中的文本内容?
crzhu
3
转换效果问题
例如,这是一个pdf 转换 后的 docx文件:
其文本框是按照非自然阅读顺序分割的段落,这个图片大概展示了每个文本框的实际内容:
我想实现的功能:
能够获取这个文本段落的所有信息,对其完整段落文本内容进行翻译,然后按照原来的样式格式,重新填充回docx。
遇到的过程问题
- 但是这里的文本框中无法获取信息,只能通过paragraph获取文本。
- 且paragraph为按文本框中的行获取的文本,这样翻译则语义混乱。
- 且将翻译内容填充回段落后,因混乱的文本框,会出现内容重叠。
我希望获取的支持
- 如何将pdf转换为word后,可以完美保留原格式与段落信息并去除这些混乱的文本框
- 或者如何从这些混乱的文本框中获取文本内容,而不是直接从paragraph获取
@crzhu 您使用的是 Aspose.Pdf 库吗? 另外,能否提供出现问题的文档?
crzhu
5
是Aspose.PDF库,文档如下:
aspose.docx (2.7 MB)
@asad.ali Please check this request.
@crzhu
您能否也与我们分享示例源 PDF 文件以及用于转换的代码片段?在分享所需信息之前,请确保您使用的是 25.3 版本的 API。