您好,PDF生成TXT文本

您好,感谢您的查看和帮助!

我使用以下代码生成TXT文档,发现生成的TXT保留了原始的空格,空行!

我需要,生成的TXT文本,自动去掉空字符,空格,换行等等特殊的标记。

            //Open document 打开PDF文件
            Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(PDF);

            //Create TextAbsorber object to extract text 创建文本吸收器对象来提取文本
            Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber();

            //Accept the absorber for all the pages  接受所有页面的吸收器
            pdfDocument.Pages.Accept(textAbsorber);
         
            string extractedText = textAbsorber.Text;

            //创建txt文本和写入权限
            FileStream fs = new FileStream(txt, FileMode.Create, FileAccess.Write);//创建写入
            TextWriter tw = new StreamWriter(fs);
            // Write a line of text to the file 在文件中写入一行文本
            tw.WriteLine(extractedText);

            // Close the stream 关闭小溪
            tw.Close();
            fs.Close();

@fhn123456

我们正在检查并会尽快回复您。

@fhn123456

您能否与我们分享您的示例 PDF 文档,以便我们可以在我们的环境中测试该场景并相应地解决它?

感谢您的回复,这是我的测试文件,谢谢您。
input.pdf (1.6 MB)

@fhn123456

我们尝试了您的代码片段,但 API 无法提取任何内容。你能分享一下你在你的环境中获得的提取的文本文件吗?

你好,这是我本地环境获得的TXT文本,我可以通过input.PDF获得TXT文本,但是文本内容存在格式,我希望空格等格式清空,Aspose.PDF有相关的API吗?

Aspose.PDF 版本:22.11.0.0

TXT.zip (2.2 KB)

我希望生成的TXT文本:
文本.zip (2.1 KB)

@fhn123456

您能否尝试使用下面的文本提取选项来查看您是否能够获得所需的输出?

textAbsorber.ExtractionOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw); 

非常感谢您,这是我想要的结果!

@fhn123456

很高兴听到您的问题已得到解决。请继续使用我们的 API,如果您需要进一步的帮助,请随时创建新主题。