使用Aspose.pdf提取中文段落文本有误，只返还每页的第一句

xinhan · November 26, 2021, 8:21am

我想把pdf文件的文本段落提取出来然后进行逐段翻译，当参照https://docs.aspose.com/pdf/net/extract-paragraph-from-pdf/的方法2进行测试时，输出只返还了每页的第一行文本，而其他文本都没有捕捉到。使用别的方法例如Extract_text提取全文也是一样。请问这是什么原因呢？

下面附上了用来测试的pdf，非常感谢！
pdf_test.pdf (268.3 KB)

tahir.manzoor · November 26, 2021, 4:48pm

@xinhan

我们已经使用最新版本的 Aspose.PDF for .NET 21.11 测试了该场景，但没有发现共享问题。所以，请使用 Aspose.PDF for .NET 21.11。

xinhan · November 29, 2021, 6:50am

刚刚试了一次确实没问题了，但第二次运行的结果还是只有每页的第一行，这是什么原因呢？跟频繁的调用有关系吗？

tahir.manzoor · November 29, 2021, 3:02pm

@xinhan

我们最后还没有发现这个问题。您能否分享有问题的 PDF 以及问题详细信息的屏幕截图？我们将进一步调查此问题并为您提供更多相关信息。

xinhan · November 30, 2021, 5:35am

pdf_test.pdf (268.3 KB)
code.docx (14.0 KB)
source.docx (12.6 KB)
image.png (33.9 KB)

以上是pdf原件，代码和输出信息截图

tahir.manzoor · November 30, 2021, 1:28pm

@xinhan

我们已使用您的代码测试了该场景，但未发现共享问题。请检查附加的输出 TXT 文件。21.11.zip (1.4 KB)

也许，您正在评估模式下使用 Aspose.PDF。在将 PDF 导入 Aspose.PDF DOM 之前，请获得 30 天的临时许可证并应用它。请从这里获取临时许可证：
获得临时许可证

xinhan · December 1, 2021, 7:09am

之前已经申请了临时许可证，邮箱信息都填了，但并没收到任何邮件和后续步骤的说明，再次申请时提醒已经超出限制，可不可以查看一下原因？

tahir.manzoor · December 1, 2021, 12:41pm

@xinhan

创建临时许可证订单后，许可证将发送到您的电子邮件。请检查您的电子邮件。有时电子邮件可能会进入您的垃圾邮件/垃圾邮件文件夹，因此请务必检查这些文件夹。

xinhan · December 2, 2021, 5:35am

没有收到邮件，垃圾邮件也没有，能不能重新发一遍？现在已经不能再申请了

tahir.manzoor · December 2, 2021, 12:57pm

@xinhan

请点击以下链接，然后从页面右侧点击“我的订单和报价”。您可以从那里下载您的许可证。如果您仍然遇到问题，则需要再次订购临时许可证。

请检查我的订单和报价链接所附图片。 image.png (103.6 KB)

xinhan · December 3, 2021, 9:08am

非常感谢，许可证的问题已经解决了。在测试时出现了两个新问题：

在尝试识别中文文本的段落时出现错误，会把每一行文本识别为一个单独的section和paragraph（具体见附件output_out.pdf），这会导致只能进行逐行翻译而不是整个段落翻译。
在使用Replace_text方法（地址[https://docs.aspose.com/pdf/net/replace-text-in-pdf/]）将翻译后文本替换原文本后，会遗漏部分文本，并且存在一些格式问题。原因可能是翻译后文本比原文本更长，但网页里的方法注明可以自动调整页面排版。(见replaced_text.pdf)

这两个问题有解决方案吗？

output_out.pdf (273.4 KB)
replaced_text.pdf (463.5 KB)

tahir.manzoor · December 3, 2021, 2:15pm

@xinhan

请创建一个独立的控制台应用程序（没有编译错误的源代码），以帮助我们在我们端重现您的问题并将其附在此处进行测试。

xinhan · December 6, 2021, 6:03am

ASP-PDF.zip (235.4 KB)

tahir.manzoor · December 6, 2021, 2:00pm

@xinhan

我们已经设法在我们这边重现了同样的问题。为了更正，我们在问题跟踪系统中将此问题记录为 PDFNET-51009。解决此问题后，您将通过此论坛线程收到通知。

给您带来的不便，我们深表歉意。

xinhan · December 10, 2021, 6:09am

您好，想问一下进度怎么样了？所以之前提到的两个问题你们那边是可以解决的对吧

tahir.manzoor · December 10, 2021, 9:47am

@xinhan

我们尽最大努力及时处理每一个客户的要求，遗憾的是我们不能保证每个客户问题的交货日期。我们按照先到先得的原则处理问题。我们认为这是满足广大客户需求的最公平、最恰当的方式。

目前，您的问题正在等待分析并在队列中。在我们完成对您的问题的分析后，我们将能够为您提供估算。

SunHao158 · March 31, 2024, 5:49am

我遇到了同样的问题，请问如何解决

asad.ali · March 31, 2024, 6:19pm

@SunHao158

遗憾的是，由于队列中存在其他未决问题，较早记录的票证尚未解决。不过，我们已记录您的疑虑，一旦我们在问题解决方面取得一些进展，我们一定会立即向您通报最新情况。请耐心等待并给我们一些时间。

对此造成的不便，我们表示歉意。

SunHao158 · April 1, 2024, 1:55am

在设置传入许可证之后“只会扫描每页第一行”这个问题会解决吧

asad.ali · April 1, 2024, 5:42pm

@SunHao158

恐怕我们无法进一步评论该问题，因为该问题尚未得到解决。关于最新的许可证，您可以使用30天免费临时许可证来使用最新版本，看看是否可以解决问题。同时，一旦我们有有关问题解决的更新，我们将立即在此论坛帖子中通知您。