PDF提取TXT

您好,我使用下面的代码,确实可以提取TXT,但是获得的TXT每一页离得很近。
我想实现的是:如PDF有3页,提取完第一页后面加\n\n\n几个回车,让每一页在TXT分开一些距离。
谢谢您。

        Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(PDF);
       
        TextAbsorber textAbsorber = new TextAbsorber();
       
        pdfDocument.Pages.Accept(textAbsorber);
           
        String extractedText = textAbsorber.Text.Trim()

@fhn123456

请使用以下代码示例来实现您的要求。

// Open document
Document pdfDocument = new Document(MyDir + "1856.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
string extractedText = "";
foreach (Page page in pdfDocument.Pages)
{
    page.Accept(textAbsorber);

    extractedText += textAbsorber.Text;
    extractedText += "\n\n";
}

            
// Create a writer and open the file
TextWriter tw = new StreamWriter(MyDir + "extracted-text_out.txt");

// Write a line of text to the file
tw.WriteLine(extractedText);

// Close the stream
tw.Close();

非常感谢您的回复,但是我使用您的代码,遇到了问题,TXT会出现重复的数据360截图16840925122039.png (81.7 KB)

@fhn123456

您能否在此处附上您的输入 PDF 以进行测试? 我们将调查该问题并为您提供更多信息。

感谢您的回复。
您好,这是测试PDF,和输出的TXT。000.pdf (177.4 KB)txt.docx (11.4 KB)

@fhn123456

我们已在问题跟踪系统中将此问题记录为 PDFNET-51878。 解决此问题后,您将通过此论坛主题收到通知。

对于给您带来的不便,我们深表歉意。