使用aspose解析word文档,文档中的1),直接变成了1 ,请问怎么解决

使用aspose word for Java v21.9 ,解析word文档时,文档中的1),直接变成了1 ,请问怎么解决?
测试文档.docx (10.9 KB)

微信图片_20240118143925.png (6.7 KB)

微信图片_20240118143920.png (47.2 KB)

@SalesDhorde, 我无法使用以下代码重现列表标签的问题:

Document doc = new Document("测试文档.docx");
doc.save("out.21.9.html");

这里是输出 HTML 文件。 列表标签未更改为“1”,而是更改为“1)”。

out.21.9.html.zip (709 Bytes)

请创建并附加一个简单的控制台应用程序来演示该问题。 我们将对其进行分析并提供解决方案。

用了你的方法 发现在head中写了样式 但是我们是使用行内样式 不会读取外面的style样式 有其他方法直接要样式在写行上吗?
微信图片_20240123161138.png (257.3 KB)

@SalesDhorde, 不幸的是,没有办法做到这一点。

感谢您报告此问题。 我们已经在我们的内部问题跟踪系统中打开了以下新工单,并将根据 免费支持政策 中提到的条款提供它们的修复:

Issue ID(s): WORDSNET-26499

如果您需要优先支持以及直接联系我们的付费支持管理团队,您可以获得 付费支持服务

那能告知在documentWrap对象中如何获取head中的自定义的样式吗?

@SalesDhorde, 什么是 documentWrap 对象? 您能详细说明一下吗?

documentWrap 对象,就是com.aspose.words.Document 。 或者您还可以告诉我aspose的word解析 如何获取head中的自定义的样式

@SalesDhorde, 不幸的是,Aspose.Words 没有用于访问 HTML 文件头部分中的样式的 API。 请注意,Aspose.Words 不是 HTML 处理库,它仅支持 HTML 格式的导入和导出。
Aspose.Words DOM 基于Word 文档(DOC/DOCX 格式)的DOM。 Aspose.Words API类似于Word VBA提供的API。

如果您需要访问文档内的样式,请使用StyleCollection

还想请教一下,我把一个8-9M的word文档转换成pdf格式的文件要花上一分钟左右,这个性能是不是有问题啊?是否有什么优化的办法,下面是转换代码,因为文档涉密所以没办法分析,请帮忙看下
d4d08865c4300895a7f3ddff710eed0.png (44.4 KB)

@SalesDhorde, 关于您之前有关列表和样式的问题。 您可以使用以下代码生成 HTML 文件,而无需在 head 部分内嵌列表样式:

Document doc = new Document("测试文档.docx");

HtmlSaveOptions opts = new HtmlSaveOptions();
opts.setCssStyleSheetType(CssStyleSheetType.INLINE);
opts.setExportListLabels(ExportListLabels.AS_INLINE_TEXT);

doc.save("out.list.inlined.html", opts);

@SalesDhorde, 对于 Word 文档来说,这是相当大的文件。 如果文档主要包含文本和表格,那么预计转换为 PDF 将需要一些时间,因为 Aspose.Words 必须计算文档布局。

不幸的是,如果没有该文件,就很难分析导致性能问题的原因。

htmlSaveOptions.setExportListLabels(ExportListLabels.AS_INLINE_TEXT);
这个属性会把所有的li改成P标签 这样是不合理的,
正常的1.2.3这种有序的应该还是ol标签
40177bc90de78102c840630d89cedc2.png (106.6 KB)
4360d34c94b444f83ea37eb2575acbd.png (63.9 KB)

转换要四十多秒
测试文档(1).docx (4.0 MB)

31a910b3384b976eaa80c4d1b2eb03d.png (44.0 KB)

@SalesDhorde, 在我的计算机上,Aspose.Words for Java 21.9 将附件文件转换为 PDF 需要 14 秒。 我在配备 Windows 10 计算机和 OpenJDK 20.0.1 的 AMD Ryzen 7 4800H 上进行了转换实验。

使用 Microsoft Word 2019 将文件转换为 PDF 需要 15 秒。 所以结果是具有可比性的。

您的电脑规格是什么?

Intel(R) Core™ i7-4710MQ jdk1.8 16G

@SalesDhorde, 我尝试使用 jdk1.8_66 在 i7-3610QM 上转换您的文档。 Aspose.Words for Java 21.9 在大约 21 秒内将文档转换为 PDF。

根据 CPUBenchmark比较,i7-3610QM的单线程评级比AMD Ryzen 7 4800H低36.3%。 因此,考虑到 i7-3610QM 安装在较旧的硬件上,i7-3610QM 21 秒与 AMD Ryzen 7 4800H 14 秒的差异是合理的。

您的 i7-4710MQ 具有比 i7-3610QM 更好的单线程评级,因此它应该更快地转换文档。 我认为 20 秒是您的处理器的预期结果。

由于您的转换需要 40 秒,是预期的两倍,因此它可能与 Aspose.Words 或处理器无关。

不幸的是,如果没有更多细节,我无法为您提供任何帮助。