ASPOSE.PDF关键字查询如何如何获取所在行的其他内容

通过查询关键字内容,代码如图:
image.png (7.3 KB)
查询关键字内容,想通过查询文本Sccin_Attachment_Flag,获取查询内容所在行的其他内容image.png (2.6 KB)

@hailin

感谢您与支持人员联系。

您能否在此将您的代码段作为文本和源PDF文档共享,以便我们相应地调查和协助您。

00.pdf (5.6 MB)

image.png (10.3 KB)

@hailin

我们使用Aspose.PDF for .NET 19.8测试了下面的代码,它产生了预期的结果。 请进一步详细说明这个问题。Console.PNG

// Open document
Document pdfDocument = new Document(dataDir + "00.pdf");
TextFragmentAbsorber tfa = new TextFragmentAbsorber("Sccin_Attachment_Flag");
pdfDocument.Pages.Accept(tfa);
TextFragmentCollection tfc = tfa.TextFragments;
foreach (TextFragment tf in tfc)
{
    Console.WriteLine("Text: " + tf.Text);
}

抱歉,你可能没有明白我的意思!我的意思是这样,给你提供的文件有这样一段话“123&Sccin_Attachment_Flag”这样的文字。我们能保证这段文字是一行段落,也就是说它独占一行。我们现在需要将查询关键字Sccin_Attachment_Flag,页面输出的内容而是123&Sccin_Attachment_Flag这样的内容。

@hailin

对不起,我们还不清楚。 您是否可以在与Adobe Acrobat共享与您的要求相关的屏幕截图时详细说明。

这块我们已经可以通过矩形框查询可以取得

@hailin

我们试图用Adobe Reader找到相同的文本,找到12次出现的文本。 Aspose.PDF API产生相同的结果。 因此,请通过屏幕截图详细说明您的要求,以便我们进一步调查。Adobe Reader.PNG

是的页面查询的关键字是有12个。但是这个不是我们想要的结果,我们想要的结果,是关键字那一行数据image.png (6.6 KB)

@hailin

我们正在调查这个场景,很快就会回复你。

@hailin

我们担心API只能读取搜索字符串。 但是,如果数据遵循某种模式,那么您可以根据您的要求设计正则表达式(regex),如使用正则表达式从所有页面搜索和获取文本中所述。