Pdf处理速度慢的问题什么时候能有所改善?

PDF提取文本的功能基本上不可用,速度不是一般的慢,处理一个8M左右的PDF要10多个小时都不出结果,不要再叫我提供什么数据了,什么演示代码了,我先前的问题中已经提供过了,你们多找一些pdf试试应该就很清楚了,况且不是我一个人反应速度慢的问题,对这个产品有些失望!

@jcing

感谢您与支持人员联系。

ID PDFJAVA-38063的故障单已记录在我们的问题管理系统中,以便进一步调查和解决慢速文本提取问题。 一旦有关这方面的重大更新,我们将及时通知您。 请耐心等待我们。

我们对造成的不便很抱歉。

Document pdfDocument = new Document("/data/1.pdf");
pdfDocument.setEmbedStandardFonts(true);
// todo:下面这个优化会提示 java.lang.NullPointerException
// pdfDocument.optimizeResources();
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setFixedLayout(true);
saveOptions.setSplitIntoPages(true);
saveOptions.FontSavingMode = HtmlSaveOptions.FontSavingModes.AlwaysSaveAsWOFF;
saveOptions.LettersPositioningMethod = LettersPositioningMethods.UseEmUnitsAndCompensationOfRoundingErrorsInCss;
saveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsEmbeddedPartsOfPngPageBackground;
pdfDocument.save("/data/temp/out.html", saveOptions);

上面这段代码也是奇慢无比,7M大小的PDF等了10多分钟都没有出来!

@jcing

您能否与我们分享样本PDF文件,以便我们进一步帮助您。

f4a9598e4b79a5512408136dd0e1eaf5.pdf.zip (6.2 MB)

@jcing

感谢您分享请求的数据。

我们在将PDF转换为HTML时注意到了这个问题,并在我们的问题管理系统中记录了带有ID PDFJAVA-38094的票据,以便进一步调查和解决。 故障单ID已链接到此线程,以便在故障单解决后立即通知您。

关于PDFJAVA-38063,我们在这个链接分享了我们的发现。

经过一般折腾,终于找到了变通的办法!
Pdf 提取文本需要非常长的时间,有没有什么办法快一点吗? 这里提供了解决办法!
:grinning:

@jcing

谢谢你的反馈。

我们很高兴知道现在的环境在您的环境中正常运行。

The issues you have found earlier (filed as PDFJAVA-38063) have been fixed in Aspose.PDF for Java 18.11.

好的,我回头试试看,谢谢了!