您好,我使用下面的代码,确实可以提取TXT,但是获得的TXT每一页离得很近。
我想实现的是:如PDF有3页,提取完第一页后面加\n\n\n几个回车,让每一页在TXT分开一些距离。
谢谢您。
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(PDF);
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
String extractedText = textAbsorber.Text.Trim()
@fhn123456
请使用以下代码示例来实现您的要求。
// Open document
Document pdfDocument = new Document(MyDir + "1856.pdf");
// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
string extractedText = "";
foreach (Page page in pdfDocument.Pages)
{
page.Accept(textAbsorber);
extractedText += textAbsorber.Text;
extractedText += "\n\n";
}
// Create a writer and open the file
TextWriter tw = new StreamWriter(MyDir + "extracted-text_out.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();
非常感谢您的回复,但是我使用您的代码,遇到了问题,TXT会出现重复的数据360截图16840925122039.png (81.7 KB)
@fhn123456
您能否在此处附上您的输入 PDF 以进行测试? 我们将调查该问题并为您提供更多信息。
感谢您的回复。
您好,这是测试PDF,和输出的TXT。000.pdf (177.4 KB)txt.docx (11.4 KB)
@fhn123456
我们已在问题跟踪系统中将此问题记录为 PDFNET-51878。 解决此问题后,您将通过此论坛主题收到通知。
对于给您带来的不便,我们深表歉意。