Pdf处理速度慢的问题什么时候能有所改善？

jcing · October 24, 2018, 7:14am

PDF提取文本的功能基本上不可用，速度不是一般的慢，处理一个8M左右的PDF要１０多个小时都不出结果，不要再叫我提供什么数据了，什么演示代码了，我先前的问题中已经提供过了，你们多找一些pdf试试应该就很清楚了，况且不是我一个人反应速度慢的问题，对这个产品有些失望！

Farhan.Raza · October 24, 2018, 1:03pm

@jcing

感谢您与支持人员联系。

ID PDFJAVA-38063的故障单已记录在我们的问题管理系统中，以便进一步调查和解决慢速文本提取问题。一旦有关这方面的重大更新，我们将及时通知您。请耐心等待我们。

我们对造成的不便很抱歉。

jcing · October 24, 2018, 2:51pm

Document pdfDocument = new Document("/data/1.pdf");
pdfDocument.setEmbedStandardFonts(true);
// todo:下面这个优化会提示 java.lang.NullPointerException
// pdfDocument.optimizeResources();
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setFixedLayout(true);
saveOptions.setSplitIntoPages(true);
saveOptions.FontSavingMode = HtmlSaveOptions.FontSavingModes.AlwaysSaveAsWOFF;
saveOptions.LettersPositioningMethod = LettersPositioningMethods.UseEmUnitsAndCompensationOfRoundingErrorsInCss;
saveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsEmbeddedPartsOfPngPageBackground;
pdfDocument.save("/data/temp/out.html", saveOptions);

上面这段代码也是奇慢无比，７M大小的PDF等了１0多分钟都没有出来！