Aspose.PDF for .NET如何在读取pdf时指定编码

howze · April 2, 2020, 3:05am

当我载入文档时：
Document pdfDocument = new Document(“test.pdf”);
发现，在pdfDocument .Pages下有Contents属性
该属性中有PDF文件中所有内容
在静态成员中可以发现，文字内容使用了“cp866”，也就是西里尔字符编码
导致这些文字内容无法用中文显示，显示的都是类似于" !"#"这样的内容。
因为我需要直接操作Contents中的文字内容
请问，如何以指定编码载入PDF文档？或者如何将cp866的字符转换为中文？
谢谢！

Adnan.Ahmad · April 2, 2020, 4:14pm

@howze,

您能否共享源文件以进一步详细调查此问题。

howze · April 3, 2020, 1:10am

@Adnan.Ahmad
感谢你的回复
我将使用的pdf文件及问题展示的截图作为附件上传
请参考
谢谢！
test.pdf (92.6 KB)
picture.jpg (300.7 KB)

Adnan.Ahmad · April 3, 2020, 5:04pm

@howze

我已经检查了问题。为了进一步调查，您可以共享完整的示例代码。

howze · April 4, 2020, 2:11pm

@Adnan.Ahmad
我将代码上传至：https://www.lanzous.com/ib00ryh
请查阅。

在page.contents下的内容中
英文都可以正常显示
中文都无法显示，应该是编码的问题
所以，是否有什么方法，可以在载入文件时指定编码，例如Document pdfDocument = new Document(@“C:\Users\Hao\Desktop\test.pdf”,“ASC||”);
或者有什么方法，能让我在page.contents下看到中文的内容，谢谢！

Adnan.Ahmad · April 6, 2020, 7:21am

@howze,

您可以在通过C＃中的TextReader读取文本时为文本指定Encoding。请检查以下代码段，其中我已读取UTF-8编码的文本文件，并在PDF中添加了文本. [也请检查此链接。](https://forum.aspose.com/t/text-to-pdf-with-extended-characters/163718)

System.IO.TextReader tr = new StreamReader(dataDir + "Sample File.txt", Encoding.UTF8, true);
Aspose.Pdf.Document doc = new Aspose.Pdf.Document();
Page page = doc.Pages.Add();
String strLine;
while ((strLine = tr.ReadLine()) != null)
{
    Aspose.Pdf.Text.TextFragment text = new Aspose.Pdf.Text.TextFragment(strLine);
    page.Paragraphs.Add(text);
}
doc.Save(dataDir + "TexttoPDF_out.pdf");
tr.Close();

howze · April 6, 2020, 10:00am

@Adnan.Ahmad
感谢回复
但我不是要将文本写入pdf
我是询问如何在载入pdf时使用指定编码，以便我能读取这些内容。
我的应用场景是要操作page.contents下的内容
就是congtents中如果包含某些字符，我就会删除这个content
可是现在contents中，只有英文和数字可以正常显示，其他都不能正常显示
看不到中文，我就无法操作content。
所以问题依然是我开头问的，如何能让contents中的中文可以正常显示，谢谢！

Adnan.Ahmad · April 6, 2020, 8:36pm

@howze,

我想通知您以下示例代码将帮助您达到要求。如果仍有问题，请与我们分享反馈。

HtmlLoadOptions loadoptions = new HtmlLoadOptions(dataDir);
loadoptions.PageInfo.Height = Aspose.Pdf.PageSize.PageLetter.Height;
loadoptions.PageInfo.Width = Aspose.Pdf.PageSize.PageLetter.Width;
loadoptions.PageInfo.Margin.Left = 70;
loadoptions.PageInfo.Margin.Top = 30;
string HTMLcontent = File.ReadAllText(dataDir + “CoverLetter.HTML”, Encoding.UTF8);
MemoryStream ms = new MemoryStream();
TextWriter tw = new StreamWriter(ms);
tw.Write(HTMLcontent);
tw.Flush();
ms.Seek(0, SeekOrigin.Begin);
Document doc = new Document(ms, loadoptions);
doc.Save(dataDir + “CoverLetterWithImage.pdf”);

howze · April 7, 2020, 12:56am

@Adnan.Ahmad
感谢您的答复

我使用如下代码：
HtmlLoadOptions loadoptions = new HtmlLoadOptions(@“C:\Users\howze\Desktop”);
loadoptions.PageInfo.Height = Aspose.Pdf.PageSize.PageLetter.Height;
loadoptions.PageInfo.Width = Aspose.Pdf.PageSize.PageLetter.Width;
loadoptions.PageInfo.Margin.Left = 70;
loadoptions.PageInfo.Margin.Top = 30;
string HTMLcontent = File.ReadAllText(@“C:\Users\howze\Desktop” + “test.pdf”, Encoding.UTF8);
MemoryStream ms = new MemoryStream();
TextWriter tw = new StreamWriter(ms);
tw.Write(HTMLcontent);
tw.Flush();
ms.Seek(0, SeekOrigin.Begin);
Document doc = new Document(ms, loadoptions);

但是发现，doc.Pages[1].Contents下的内容依然无法直接读取，还是乱码。
你的代码是将html写入stream在保存为pdf
但我是要直接读取pdf，不是读取html哦

Adnan.Ahmad · April 7, 2020, 6:59am

@howze,

我已观察到您对问题的要求，并在我们的问题跟踪系统中将其记录为 PDFNET-47947。我们将进一步调查该问题的详细信息，并向您发布其纠正状态。请耐心等待，为我们节省时间。

对此造成的不便，我们表示歉意。