Aspose.pdf有直接把文本格式的pdf（连带书签）直接转换成图片格式的pdf功能吗？

sweetime · December 28, 2020, 12:18am

@asad.ali
感谢asad.ali。
我试了一下您教的方法，可以实现我的要求。由于要识别中文，所以识别出来的东西存在一些乱码。我看到aspose.pdf中有 Aspose.Pdf.Layer类，但都是get，没有set。由于我用的pdf都是excel转换过来的，pdf里的文字可检索、可复制，我想直接在不可检索的pdf上加一个Layer，之后把可检索可复制的pdf页面叠加上去（顺便把可检索可复制pdf中的书签复制过来)，这样就可以简单实现双层pdf，这个在aspose.pdf中能否实现？谢谢

asad.ali · December 28, 2020, 9:53pm

@sweetime

感谢您的反馈意见。

请注意，为了提供与PDF图层相关的完整功能，需要完成某些任务，并且我们担心目前无法为它们共享任何可靠的ETA。但是，请您与我们共享输入和预期输出的PDF文档。我们将在问题跟踪系统中记录调查凭单，并与您共享ID。

sweetime · December 29, 2020, 12:48am

@asad.ali
感谢您的回复。
文档已经传到附件中。其中“测试文档1(不带图层，可检索，带书签).pdf ”是从excel文档转成pdf文档，文档可检索，带书签，文字可复制，
而“测试文档2(不带图层，不可检索，不带书签).pdf”是测试文档1再次转为图片格式的pdf文档，故不可检索。
“预期文档(带图层，可检索，带书签).pdf”是最终要生成的pdf文档，是在测试文档2中添加了图层，把测试文档1对应页面叠加上去，并把测试文档1的书签复制过来，最终便形成了双层pdf文档。
麻烦帮忙看看是否有办法实现，多谢。
测试文档.zip (3.5 MB)

asad.ali · December 29, 2020, 9:09pm

@sweetime

我们正在检查您的要求，并将尽快与您联系。

sweetime · January 11, 2021, 12:33am

@asad.ali 有办法实现吗？

asad.ali · January 11, 2021, 10:58pm

@sweetime

谢谢你的耐心。

我们已经满足了您的完整要求，并且根据我们的理解，您希望生成一个在图像上带有文本层的PDF（以使其可搜索），并按其他PDF文档的原样保留书签。

在此论坛主题的先前讨论中，我们共享了一个代码段，以从PDF文档生成图像，并在输出的PDF中复制书签。因此，作为一种解决方法，您可以在获取的PDF文档（带有图像和书签）上运行CallBackGetHocr（）方法，并生成可搜索的输出PDF（保留文本层和书签）。

如果我们的理解不正确，请让我们知道，您打算产生一些不同的东西。我们将进一步为您提供帮助。

sweetime · January 12, 2021, 12:29am

@asad.ali 好的，谢谢。

sweetime · January 19, 2021, 1:42am

@asad.ali aspose.pdf如何得到pdf文件中一个书签所对应的页面的页码？

asad.ali · January 20, 2021, 12:30am

@sweetime

从PDF提取书签时，可以获取Bookmark.PageNumber属性以获取页码。例如下面的代码片段：

Document pdfDocument = new Document(dataDir + "source.pdf");

// Create PdfBookmarkEditor
Facades.PdfBookmarkEditor bookmarkEditor = new Facades.PdfBookmarkEditor();
// Open PDF file
bookmarkEditor.BindPdf(pdfDocument);
// Extract bookmarks information
Aspose.Pdf.Facades.Bookmarks bookmarks = bookmarkEditor.ExtractBookmarks();
foreach (Aspose.Pdf.Facades.Bookmark bookmark in bookmarks)
{
 int pageno = bookmark.PageNumber;
}