Pdf转html,pdf中的表格格式不对

测试版本为24.6,没有设置license,代码如下

        Document pdfDocument = new Document("test1.pdf");
        HtmlSaveOptions opts = new HtmlSaveOptions();
        opts.setFixedLayout(false);      // ← 关键:改为 Flow layout
        opts.setSplitIntoPages(false);   // 一份 html,而不是每页一个
        pdfDocument.save("output.html", opts);
        pdfDocument.close();

我发现这个pdf解析出来的表格格式不对,而且很多单元格被错误解析为纯文本。
我测试如果使用你们的在线网页解析是正确的,请问下是代码还要设置什么选项吗

@Endergarten

在将PDF转换为HTML时,如果表格格式不正确,可能是由于选项设置不当导致的。您提到在使用HtmlSaveOptions时,表格没有边框,且许多单元格被错误解析为纯文本。

为了解决这个问题,您可以采取以下步骤:

  1. 使用流式布局:确保opts.setFixedLayout(false);设置为流式布局,这样可以更好地处理表格。
  2. 启用边框:设置opts.setHtmlBorderLineType(HtmlSaveOptions.HtmlBorderLineType.Solid);以确保表格边框被正确渲染。
  3. 检查其他选项:确保没有其他选项会影响表格的渲染,例如opts.setSplitIntoPages(false);可以保持所有内容在一个HTML文件中。

以下是更新后的代码示例:

Document pdfDocument = new Document("test1.pdf");
HtmlSaveOptions opts = new HtmlSaveOptions();
opts.setFixedLayout(false); // 使用流式布局
opts.setSplitIntoPages(false); // 一份HTML,而不是每页一个
opts.setHtmlBorderLineType(HtmlSaveOptions.HtmlBorderLineType.Solid); // 确保表格边框
pdfDocument.save("output.html", opts);
pdfDocument.close();

如果问题仍然存在,建议您使用Aspose的在线转换工具进行比较,以查看是否存在其他设置或格式问题。

请按照上述步骤操作,并让我知道结果。如果您还有其他疑问或需要进一步的帮助,请随时联系我!

@Professionalize.Discourse
HtmlSaveOptions 没有方法setHtmlBorderLineType。
没有表格线不是很重要,重点是pdf中的表格被错误解析

@Endergarten

我们已在内部问题跟踪系统中创建了以下新工单,并将根据免费支持政策中提到的条款交付其修复。

问题编号:PDFJAVA-45251

如果您需要优先支持服务以及直接与我们的付费支持管理团队联系,可以获取付费支持服务