判断PDF是否有文本和图片

您好,使用下面的代码,text输出是乱码 加上 StreamReader reader = new StreamReader(ms, Encoding.UTF8);也不行

        //实例化一个内存流对象来保存从文档中提取的文本
        MemoryStream ms = new MemoryStream();

        //实例化PdfExtractor对象
        Aspose.Pdf.Facades.PdfExtractor extractor = new Aspose.Pdf.Facades.PdfExtractor();

        //将输入PDF文档绑定到提取器
        extractor.BindPdf(filename);

        //从输入的PDF文档中提取文本                                                                                                                                                                                                                                                                                                                                                                                                                                                           
        extractor.ExtractText();

        //将提取的文本保存到文本文件中
        extractor.GetText(ms);

        //extractor.GetText(@"E:\桌面\新建文件夹 (5)\666.txt");

        //删除文本里的回车空格等

        ms.Position = 0;//关键 必须有,不然没有数据
        StreamReader reader = new StreamReader(ms);
        string text = reader.ReadToEnd();
        int cc1 = text.Length;

@fhn123456

请在此处附上您的输入 PDF 和有问题的输出 TXT 文件以进行测试。 我们将调查该问题并为您提供更多信息。

您好,这是PDF文件
000.pdf (175.9 KB)

@fhn123456

您的输入 PDF 包含图像。 如果您使用 Adobe writer 将 PDF 保存为 TXT 文件格式,您将获得相同的输出。

没懂您的表达,您可以用代码体现吗,谢谢。

@fhn123456

请注意,您的 PDF 文件包含图像。 它不包含文本。 所以,你得到了正确的输出。

详情请查看附件图片。

image.png (247.1 KB)