我想把pdf文件的文本段落提取出来然后进行逐段翻译,当参照https://docs.aspose.com/pdf/net/extract-paragraph-from-pdf/的方法2进行测试时,输出只返还了每页的第一行文本,而其他文本都没有捕捉到。使用别的方法例如Extract_text提取全文也是一样。请问这是什么原因呢?
下面附上了用来测试的pdf,非常感谢!
pdf_test.pdf (268.3 KB)
我想把pdf文件的文本段落提取出来然后进行逐段翻译,当参照https://docs.aspose.com/pdf/net/extract-paragraph-from-pdf/的方法2进行测试时,输出只返还了每页的第一行文本,而其他文本都没有捕捉到。使用别的方法例如Extract_text提取全文也是一样。请问这是什么原因呢?
下面附上了用来测试的pdf,非常感谢!
pdf_test.pdf (268.3 KB)
刚刚试了一次确实没问题了,但第二次运行的结果还是只有每页的第一行,这是什么原因呢?跟频繁的调用有关系吗?
pdf_test.pdf (268.3 KB)
code.docx (14.0 KB)
source.docx (12.6 KB)
image.png (33.9 KB)
以上是pdf原件,代码和输出信息截图
我们已使用您的代码测试了该场景,但未发现共享问题。 请检查附加的输出 TXT 文件。21.11.zip (1.4 KB)
也许,您正在评估模式下使用 Aspose.PDF。 在将 PDF 导入 Aspose.PDF DOM 之前,请获得 30 天的临时许可证并应用它。 请从这里获取临时许可证:
获得临时许可证
之前已经申请了临时许可证,邮箱信息都填了,但并没收到任何邮件和后续步骤的说明,再次申请时提醒已经超出限制,可不可以查看一下原因?
没有收到邮件,垃圾邮件也没有,能不能重新发一遍?现在已经不能再申请了
请点击以下链接,然后从页面右侧点击“我的订单和报价”。 您可以从那里下载您的许可证。 如果您仍然遇到问题,则需要再次订购临时许可证。
请检查我的订单和报价链接所附图片。 image.png (103.6 KB)
非常感谢,许可证的问题已经解决了。在测试时出现了两个新问题:
在尝试识别中文文本的段落时出现错误,会把每一行文本识别为一个单独的section和paragraph(具体见附件output_out.pdf),这会导致只能进行逐行翻译而不是整个段落翻译。
在使用Replace_text方法(地址[https://docs.aspose.com/pdf/net/replace-text-in-pdf/])将翻译后文本替换原文本后,会遗漏部分文本,并且存在一些格式问题。原因可能是翻译后文本比原文本更长,但网页里的方法注明可以自动调整页面排版。(见replaced_text.pdf)
这两个问题有解决方案吗?
output_out.pdf (273.4 KB)
replaced_text.pdf (463.5 KB)
我们已经设法在我们这边重现了同样的问题。 为了更正,我们在问题跟踪系统中将此问题记录为 PDFNET-51009。 解决此问题后,您将通过此论坛线程收到通知。
给您带来的不便,我们深表歉意。
您好,想问一下进度怎么样了?所以之前提到的两个问题你们那边是可以解决的对吧
我们尽最大努力及时处理每一个客户的要求,遗憾的是我们不能保证每个客户问题的交货日期。 我们按照先到先得的原则处理问题。 我们认为这是满足广大客户需求的最公平、最恰当的方式。
目前,您的问题正在等待分析并在队列中。 在我们完成对您的问题的分析后,我们将能够为您提供估算。
我遇到了同样的问题,请问如何解决
遗憾的是,由于队列中存在其他未决问题,较早记录的票证尚未解决。不过,我们已记录您的疑虑,一旦我们在问题解决方面取得一些进展,我们一定会立即向您通报最新情况。请耐心等待并给我们一些时间。
对此造成的不便,我们表示歉意。
在设置传入许可证之后“只会扫描每页第一行”这个问题会解决吧
恐怕我们无法进一步评论该问题,因为该问题尚未得到解决。关于最新的许可证,您可以使用30天免费临时许可证来使用最新版本,看看是否可以解决问题。同时,一旦我们有有关问题解决的更新,我们将立即在此论坛帖子中通知您。