问题:
- 使用 AsPose 将 PDF 转换为 Word 后,Word 中文本内容被文本框包裹(使用 flow 转换则会损失部分布局),
- 获取元素时获取到的是图片,且无法从框中获取文字。(从 Paragraph 中可以获取文字,但 Paragraph 为按行获取,这样会损失原本框的具体边界等信息)
问题:
转换效果问题
例如,这是一个pdf 转换 后的 docx文件:
其文本框是按照非自然阅读顺序分割的段落,这个图片大概展示了每个文本框的实际内容:
我想实现的功能:
能够获取这个文本段落的所有信息,对其完整段落文本内容进行翻译,然后按照原来的样式格式,重新填充回docx。
遇到的过程问题
我希望获取的支持