PDF提取文本的功能基本上不可用,速度不是一般的慢,处理一个8M左右的PDF要10多个小时都不出结果,不要再叫我提供什么数据了,什么演示代码了,我先前的问题中已经提供过了,你们多找一些pdf试试应该就很清楚了,况且不是我一个人反应速度慢的问题,对这个产品有些失望!
感谢您与支持人员联系。
ID PDFJAVA-38063的故障单已记录在我们的问题管理系统中,以便进一步调查和解决慢速文本提取问题。 一旦有关这方面的重大更新,我们将及时通知您。 请耐心等待我们。
我们对造成的不便很抱歉。
Document pdfDocument = new Document("/data/1.pdf");
pdfDocument.setEmbedStandardFonts(true);
// todo:下面这个优化会提示 java.lang.NullPointerException
// pdfDocument.optimizeResources();
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setFixedLayout(true);
saveOptions.setSplitIntoPages(true);
saveOptions.FontSavingMode = HtmlSaveOptions.FontSavingModes.AlwaysSaveAsWOFF;
saveOptions.LettersPositioningMethod = LettersPositioningMethods.UseEmUnitsAndCompensationOfRoundingErrorsInCss;
saveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsEmbeddedPartsOfPngPageBackground;
pdfDocument.save("/data/temp/out.html", saveOptions);
上面这段代码也是奇慢无比,7M大小的PDF等了10多分钟都没有出来!
感谢您分享请求的数据。
我们在将PDF转换为HTML时注意到了这个问题,并在我们的问题管理系统中记录了带有ID PDFJAVA-38094的票据,以便进一步调查和解决。 故障单ID已链接到此线程,以便在故障单解决后立即通知您。
关于PDFJAVA-38063,我们在这个链接分享了我们的发现。
The issues you have found earlier (filed as PDFJAVA-38063) have been fixed in Aspose.PDF for Java 18.11.
好的,我回头试试看,谢谢了!