使用Aspose.pdf提取中文段落文本有误,只返还每页的第一句

我想把pdf文件的文本段落提取出来然后进行逐段翻译,当参照https://docs.aspose.com/pdf/net/extract-paragraph-from-pdf/的方法2进行测试时,输出只返还了每页的第一行文本,而其他文本都没有捕捉到。使用别的方法例如Extract_text提取全文也是一样。请问这是什么原因呢?

下面附上了用来测试的pdf,非常感谢!
pdf_test.pdf (268.3 KB)

@xinhan

我们已经使用最新版本的 Aspose.PDF for .NET 21.11 测试了该场景,但没有发现共享问题。 所以,请使用 Aspose.PDF for .NET 21.11

刚刚试了一次确实没问题了,但第二次运行的结果还是只有每页的第一行,这是什么原因呢?跟频繁的调用有关系吗?

@xinhan

我们最后还没有发现这个问题。 您能否分享有问题的 PDF 以及问题详细信息的屏幕截图? 我们将进一步调查此问题并为您提供更多相关信息。

pdf_test.pdf (268.3 KB)
code.docx (14.0 KB)
source.docx (12.6 KB)
image.png (33.9 KB)

以上是pdf原件,代码和输出信息截图

@xinhan

我们已使用您的代码测试了该场景,但未发现共享问题。 请检查附加的输出 TXT 文件。21.11.zip (1.4 KB)

也许,您正在评估模式下使用 Aspose.PDF。 在将 PDF 导入 Aspose.PDF DOM 之前,请获得 30 天的临时许可证并应用它。 请从这里获取临时许可证:
获得临时许可证

之前已经申请了临时许可证,邮箱信息都填了,但并没收到任何邮件和后续步骤的说明,再次申请时提醒已经超出限制,可不可以查看一下原因?

@xinhan

创建临时许可证订单后,许可证将发送到您的电子邮件。 请检查您的电子邮件。 有时电子邮件可能会进入您的垃圾邮件/垃圾邮件文件夹,因此请务必检查这些文件夹。

没有收到邮件,垃圾邮件也没有,能不能重新发一遍?现在已经不能再申请了

@xinhan

请点击以下链接,然后从页面右侧点击“我的订单和报价”。 您可以从那里下载您的许可证。 如果您仍然遇到问题,则需要再次订购临时许可证。

请检查我的订单和报价链接所附图片。 image.png (103.6 KB)

非常感谢,许可证的问题已经解决了。在测试时出现了两个新问题:

  1. 在尝试识别中文文本的段落时出现错误,会把每一行文本识别为一个单独的section和paragraph(具体见附件output_out.pdf),这会导致只能进行逐行翻译而不是整个段落翻译。

  2. 在使用Replace_text方法(地址[https://docs.aspose.com/pdf/net/replace-text-in-pdf/])将翻译后文本替换原文本后,会遗漏部分文本,并且存在一些格式问题。原因可能是翻译后文本比原文本更长,但网页里的方法注明可以自动调整页面排版。(见replaced_text.pdf)

这两个问题有解决方案吗?

output_out.pdf (273.4 KB)
replaced_text.pdf (463.5 KB)

@xinhan

请创建一个独立的控制台应用程序(没有编译错误的源代码),以帮助我们在我们端重现您的问题并将其附在此处进行测试。

ASP-PDF.zip (235.4 KB)

@xinhan

我们已经设法在我们这边重现了同样的问题。 为了更正,我们在问题跟踪系统中将此问题记录为 PDFNET-51009。 解决此问题后,您将通过此论坛线程收到通知。

给您带来的不便,我们深表歉意。

您好,想问一下进度怎么样了?所以之前提到的两个问题你们那边是可以解决的对吧

@xinhan

我们尽最大努力及时处理每一个客户的要求,遗憾的是我们不能保证每个客户问题的交货日期。 我们按照先到先得的原则处理问题。 我们认为这是满足广大客户需求的最公平、最恰当的方式。

目前,您的问题正在等待分析并在队列中。 在我们完成对您的问题的分析后,我们将能够为您提供估算。

我遇到了同样的问题,请问如何解决

@SunHao158

遗憾的是,由于队列中存在其他未决问题,较早记录的票证尚未解决。不过,我们已记录您的疑虑,一旦我们在问题解决方面取得一些进展,我们一定会立即向您通报最新情况。请耐心等待并给我们一些时间。

对此造成的不便,我们表示歉意。

在设置传入许可证之后“只会扫描每页第一行”这个问题会解决吧

@SunHao158

恐怕我们无法进一步评论该问题,因为该问题尚未得到解决。关于最新的许可证,您可以使用30天免费临时许可证来使用最新版本,看看是否可以解决问题。同时,一旦我们有有关问题解决的更新,我们将立即在此论坛帖子中通知您。