PDF提取TXT

fhn123456 · May 31, 2022, 9:57am

您好，我使用下面的代码，确实可以提取TXT，但是获得的TXT每一页离得很近。
我想实现的是：如PDF有3页，提取完第一页后面加\n\n\n几个回车，让每一页在TXT分开一些距离。
谢谢您。

        Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(PDF);
       
        TextAbsorber textAbsorber = new TextAbsorber();
       
        pdfDocument.Pages.Accept(textAbsorber);
           
        String extractedText = textAbsorber.Text.Trim()

tahir.manzoor · May 31, 2022, 11:08am

@fhn123456

请使用以下代码示例来实现您的要求。

// Open document
Document pdfDocument = new Document(MyDir + "1856.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
string extractedText = "";
foreach (Page page in pdfDocument.Pages)
{
    page.Accept(textAbsorber);

    extractedText += textAbsorber.Text;
    extractedText += "\n\n";
}

            
// Create a writer and open the file
TextWriter tw = new StreamWriter(MyDir + "extracted-text_out.txt");

// Write a line of text to the file
tw.WriteLine(extractedText);

// Close the stream
tw.Close();

fhn123456 · May 31, 2022, 12:19pm

非常感谢您的回复，但是我使用您的代码，遇到了问题，TXT会出现重复的数据360截图16840925122039.png (81.7 KB)

tahir.manzoor · May 31, 2022, 5:30pm

@fhn123456

您能否在此处附上您的输入 PDF 以进行测试？我们将调查该问题并为您提供更多信息。

fhn123456 · June 1, 2022, 1:47am

感谢您的回复。
您好，这是测试PDF，和输出的TXT。000.pdf (177.4 KB)txt.docx (11.4 KB)

tahir.manzoor · June 1, 2022, 9:08am

@fhn123456

我们已在问题跟踪系统中将此问题记录为 PDFNET-51878。解决此问题后，您将通过此论坛主题收到通知。

对于给您带来的不便，我们深表歉意。